Tede i Peja pogodzeni, czyli do czego (nie) doprowadzi klonowanie głosów

Podczas gdy wszyscy "zachwycają się" filmowymi deep fake'ami czy realistycznymi obrazami generowanymi przez sztuczną inteligencję, gdzieś na boku prężnie rozwija się głosowe AI. I też może mocno zmienić rzeczywistość.

15.05.2023 05.32
Klonowanie głosu i sztuczna inteligencja

Słuchacze polskiego rapu przecierali oczy ze zdumienia, widząc kilkanaście dni temu nagłówki serwisów mówiące o pogodzeniu się Tedego i Pei. Trwający 14 lat konflikt dwóch gwiazd polskiej sceny kończy się utworem o symptomatycznym tytule "Daj na zgodę". Panowie wymieniają się uprzejmościami na bicie. "Trzeba dystans skrócić, zapomnieć o dymach, dlatego już nie będę twych koncertów odwoływać" – rymuje Peja, nawiązując do historii, gdy blokował koncerty Tedego w swoim rodzinnym Poznaniu. "Ty czy ja, każdy z nas jest hip-hopem, nie będę już pisał źle o tobie caps lockiem" – odpowiada Tede, który często uszczypliwości wobec oponenta słał na social mediach, pisząc dużymi literami.

"Nie ma co się kłócić, razem odrzucamy przemoc" – nawijają razem. Tylko... coś tu nie gra.

Pede i Teja – "Daj na zgodę"

Fani od razu jednak wyłapali nieczystości, szczególnie w głosie Pei. Jego wokal jest przerywany, brzmi, jakby artysta się dusił. Choć szybko wyszło na jaw, że piosenka jest dziełem sztucznej inteligencji, to mnóstwo słuchaczy było zaskoczonych tym, jak dobrze udało się odwzorować głosy i styl raperów oraz nawiązania w tekście. – Rozwój głosowej sztucznej inteligencji już dziś jest na bardzo wysokim poziomie. W języku angielskim można otrzymać głos idealnie nasycony dowolnymi emocjami: płaczem, radością, strachem, czymkolwiek sobie wyobrazimy. W tym kierunku będą się rozwijać kolejne języki, oczywiście włącznie z polskim – mówi Robert Grabowski, szef zespołu CERT w Orange Polska.

Jednak pojednanie Tedego z Peją to wykorzystanie sztucznej inteligencji do niewinnego żartu. Tymczasem na horyzoncie czają się już bardzo poważne zagrożenia związane z klonowaniem głosu. Przekonali się o tym choćby pochodzący z Polski twórcy startupu ElevenLabs. Narzędzie do imitowania cudzego głosu, które wypuścili, w mig zostało ogłoszone jednym z najlepszych na rynku. I w mig zaczęło być nadużywane.

"Choć widzimy, że nasza technologia jest w przeważającej mierze używana w pozytywny sposób, obserwujemy też rosnącą liczbę przypadków niewłaściwego użycia klonowania głosu" – napisali na Twitterze kilka dni po premierze narzędzia. I zaczęli szukać sposobu na odkręcenie tego, do czego nierozważnie doprowadzili.

To pierwszy tak głośny na skalę światową przypadek użycia sztucznej inteligencji do masowej manipulacji samym głosem. Od kilku lat do sieci trafiają deep fake'i filmowe. Przez ostatnie miesiące wszyscy zachwycali się coraz lepszymi osiągnięciami sztucznej inteligencji generującej bardzo realistyczne obrazy. Tymczasem prężnie rozwija się kolejna gałąź deep fake’ów – właśnie nagrania głosowe.

Klony wymykają się spod kontroli

Komputerowa synteza mowy to nic nowego, o czym doskonale wiedzą Polacy. To w końcu słynna Ivona czytała nam przez lata w internecie teksty: czy to z filmów, czy z artykułów, a jej "brata" wykorzystywano choćby do... zamawiania pizzy.

W tym przypadku używana była jednak starsza odsłona technologii Text-to-Speech (TTS), której podstawą była solidna baza dźwięków i słów danego głosu, które potem można łączyć w pełne zdania. Da się zrozumieć ich znaczenie, ale sam dźwięk jest robotyczny. Słychać to dobrze na powyższym nagraniu, a po głosie pracowniczki pizzerii można się domyślić, że doskonale zdaje sobie sprawę, iż rozmawia z "robotem". W tej technologii trudno uchwycić w dźwięku emocje czy intonację (nawet przy zdaniach pytających). Podobne wrażenie możemy odnieść, gdy dzwoni do nas bot z infolinii banku.

Innym sposobem pozyskiwania sztucznego głosu jest TTS parametryczny. Tu buduje się model głosu na podstawie prawdziwego nagrania przez wychwycenie charakterystycznych dźwięków, intonacji i wszelkich subtelności w wymowie danej osoby. W ostatnich latach to właśnie ta metoda w połączeniu ze sztuczną inteligencją dynamicznie się rozwija. Wiedzą o tym choćby użytkownicy asystentów głosowych. Od niedawna jednak sama usługa klonowania głosów jest coraz bardziej dostępna dla zwykłych użytkowników.

W ten sposób powstał utwór "Daj na zgodę" Pei i Tedego. Jego autor sam nagrał przed mikrofonem wszystkie wokale, po czym wrzucił je do programu, a ten odpowiednim wersom nadał odpowiednie barwy głosu obu raperów. Potrafił to, bo wcześniej "przetrawił" prawdziwe piosenki obu raperów, znał więc doskonale ich głosy i mógł stworzyć odpowiednie modele.

I także tej technologii używa wspomniane narzędzie ElevenLabs. Firma już we wrześniu opublikowała na YouTube krótkie wideo, w którym spreparowany Leonardo DiCaprio mówi kolejno głosami Joe Rogana, Tima Cooka, Billa Gatesa czy Kim Kardashian.

Wtedy była to tylko pokazówka. Gdy w styczniu udostępnili swe narzędzie wszystkim, szybko zaczęły się kłopoty. Jak opisuje Endadget, internetowe fora o złej reputacji, takie jak 4chan, zapełniły się nagraniami głosów celebrytów mówiących rzeczy sprośne, homofobiczne, rasistowskie i obrazoburcze na tyle, na ile tylko można sobie wyobrazić.

Klasyka, można powiedzieć. Niemal zawsze, gdy sztuczna inteligencja zostaje puszczona samopas w internet, wyprawa taka kończy się nadużyciami i tworzeniem patologicznych treści. Gdy siedem lat temu Microsoft wypuścił na Twitterze bota opartego na sztucznej inteligencji, który miał się uczyć ludzkich zachowań, internauci potrzebowali jednego dnia, by zrobić z niego rasistę, homofoba i miłośnika Trzeciej Rzeszy. Robiący w ostatnich miesiącach furorę ChatGPT także został dość szybko skłoniony przez ludzi na przykład do pisania phishingowych maili.

Gdy ElevenLabs spotkał się z tym samym, jego twórcy zaproponowali trzy rozwiązania, które mają ograniczyć wykorzystywanie cudzych głosów bez zgody ich właścicieli do tworzenia nowych, syntetycznych nagrań audio. Po pierwsze, konta mają być weryfikowane dokumentem tożsamości lub przelewem bankowym. Po drugie, właściciel konta ma potwierdzić, że głos należy do niego poprzez nagranie próbki z tekstem wygenerowanym przez ElevenLabs. Trzecim pomysłem, dość karkołomnym, jest ręczne weryfikowanie przez pracowników firmy wszystkich prób klonowania głosu.

To był styczeń. Obecnie w ElevenLabs nie ma możliwości założenia darmowego konta. W pakietach płatnych użytkownik siłą rzeczy musi podać swoje dane, jeśli chce dokonać opłaty. W regulaminie zaś ma zaznaczone, iż potwierdza, że jest właścicielem wgrywanych do programu plików z ludzkim głosem lub ma prawo do ich wykorzystania.

Karyna, Karyna, sklonowana dziewczyna

Straumatyzowanie bota na Twitterze lub głosowe fejki tworzone przez internetowych pseudozgrywusów to jednak dość niewinne zabawy. Gorzej, gdy do narzędzi głosowego AI dorwą się przestępcy, co zresztą już się zdarza. Wall Street Journal już cztery lata temu informował o przestępcach, którzy za pomocą AI podrobili głos szefa wielkiej firmy i zadzwonili do jego podwładnych, każąc im przelać 220 tys. euro. Podwładni spełnili polecenie.

W lutym tego roku dziennikarz Joseph Cox zhakował własne konto bankowe i użył do tego właśnie ElevenLabs. Najpierw wrzucił próbki swojego prawdziwego głosu do programu. Następnie poprosił o wygenerowanie na jego podstawie odpowiednich fraz i zadzwonił na infolinię swego banku, który pozwala przez telefon na weryfikację użytkownika za pomocą głosu. Gdy więc w słuchawce odezwał się bankowy bot, w odpowiedzi na jego pytania Cox włączył odpowiednie próbki swego głosu wygenerowane przez sztuczną inteligencję. Weryfikacja przebiegła pomyślnie! Ten rodzaj oszustwa nazywa się vishingiem.

Wygląda niepokojąco, ale Cox użył zaledwie dwóch krótkich fraz. Na myśl szybko przychodzi słynne oszustwo na wnuczka, w którym przestępca dzwoni do emerytów i, udając ich wnuczka, informuje na przykład o wypadku samochodowym i pilnej potrzebie przelania pieniędzy. Osoby starsze tracą w ten sposób setki tysięcy złotych. Oszust może przecież zdobyć nagranie głosu prawdziwego wnuczka ofiary – np. z jego filmiku na YouTube albo ze stories na Instagramie – i za pomocą sztucznej inteligencji wygeneruje odpowiednie nagrania, które jeszcze bardziej przekonają ofiarę-babcię.

Adam Haertle, specjalista ds. cyberbezpieczeństwa, jest spokojny. Według niego zdecydowana większość dotychczasowych doniesień o oszustwach z użyciem syntetycznego głosu jest mocno przesadzona, jeśli nie ma udokumentowanych nagrań tych przestępstw. – Po co przestępcy deep fake, skoro zwykła rozmowa wystarczy? Rzekomy wnuczek najwyżej powie "bo się przeziębiłem, dlatego mam inny głos" i już, to działa. Także w dezinformacji najczęściej wykorzystywane są prawdziwe zdjęcia i filmy, do których jedynie dorabiany jest po prostu inny opis. Krótko mówiąc, technologia deep fake się rozwija, ale dzisiaj nie jest jeszcze używana przez oszustów. Raz, że nadal łatwo można rozpoznać oszustwo, dwa, że są lepsze i tańsze metody – mówi Haertle.

Niewykluczone jednak, że oszuści tym częściej zaczną sięgać po te metody, im szybciej będą się rozwijały. Nie chodzi bowiem tylko o samą barwę czy intonację głosu. I nie chodzi tylko o oszustwa na wnuczka. Syntetyczny głos połączony z filmowym deep fake'iem może być źródłem nieograniczonych manipulacji. Nietrudno wyobrazić sobie zmanipulowane nagrania polityków albo kompromitujące wyznania celebrytów.

Marcel Kiełtyka, członek zarządu Stowarzyszenia Demagog tropiącego fake newsy, przypomina o sfałszowanych filmach z politykami czy niedawnych zdjęciach z rzekomego aresztowania Donalda Trumpa, które mogły doprowadzić do kolejnych zamieszek w USA. – Teraz wyobraźmy sobie, że do tego dochodzi jeszcze prawdziwy głos polityków, którzy wygłaszają kontrowersyjne tezy i decyzje, a to wszystko w kontekście jakiejś sytuacji kryzysowej, którą może być np. wojna lub katastrofa naturalna. Gotowy przepis na chaos – tłumaczy ekspert.

Taki scenariusz uprawdopodobnia się, bo obok syntezy głosu równie mocno rozwija się programowanie neurolingwistyczne (NLP), czyli technologia syntezy tekstu. Tak jak w przypadku głosu AI wychwytuje barwę, intonację, charakterystyczne dźwięki, tak w przypadku tekstu wyłapuje styl pisania, zależności między poszczególnymi słowami, częstotliwość ich używania itd. Słychać to w piosence "Daj na zgodę", gdzie sklonowane głosy Pei i Tedego nawiązują kontekstowo do różnych zdarzeń i używają charakterystycznych dla siebie zwrotów. W tym przypadku pracę domową odrobił jednak autor całego nagrania. To on znał konteksty i w odpowiedni sposób napisał tekst. W masowym użyciu tej technologii robią to oczywiście maszyny. NLP to dyscyplina naukowa leżąca na pograniczu informatyki i językoznawstwa. Jest fundamentem między innymi słynnego ChataGPT.

Swój najnowszy biznes oparła na nim Caryn Marjorie, która postanowiła się całkowicie cyfrowo sklonować. 23-letnia amerykańska influencerka od ośmiu lat wrzuca do sieci filmy ze swoim udziałem. Właśnie podpisała umowę z firmą Forever Voices, której przekazała 2000 godzin swoich nagrań, by można było z nich sklonować jej głos i niuanse, takie jak sposób zachowania, wymowy, odruchy etc. Następnie przy pomocy ChataGPT-4 wykreowali jej wirtualnego klona. Teraz można porozmawiać z CarynAI, usłyszeć jej "prawdziwy głos, mimikę, gesty, sformułowania" i wymienić się spostrzeżeniami. Minuta kosztuje dolara, a chętni na rozmowę z klonem influencerki liczeni są już w tysiącach.

Caryn zapewnia, że obok zarobku na swym cyfrowym klonie zależy jej także na wyciąganiu mężczyzn z samotności

– Myślę, że to kwestia czasu, gdy takie osobistości AI staną się trendem. Powstaną firmy, które pozwolą wygenerować "twoją wirtualną osobę", tak by każdy mógł z nią porozmawiać. Czeka to influencerów, artystów, celebrytów, ale też przedsiębiorców takich jak Elon Musk, Warren Buffett czy nawet akademików. Może kiedyś porozmawiamy z Einsteinem? – ocenia Wojtek Kardyś, ekspert od komunikacji internetowej.

Na ratunek żywotność głosu

OpenAI, organizacja, która stworzyła ChatGPT, ma też usługę Jukebox, a w niej bazę z tysiącami nagrań z wygenerowanymi głosami i podkładami muzycznymi gwiazd muzyki. Jest tam cała plejada: od Michaela Jacksona po Eminema, od Celine Dion po Linkin Park. Tu jednak zastosowano jeszcze inną technikę: algorytm nie uczy się barwy czy intonacji głosu, lecz zapisuje go tak samo jak dźwięki muzyczne i w ten sposób potem odtwarza razem z muzyką.

Takie wykorzystanie twórczości muzycznej może budzić kontrowersje. Pod koniec kwietnia Universal Music Group już zwrócił się do Spotify i Apple, by nie korzystały z zasobów ich twórców przy uczeniu sztucznej inteligencji stylów konkretnych zespołów czy artystów. Stało się to po tym, jak na platformach pojawił się wygenerowany przez AI utwór Drake i The Weeknd. Obaj artyści tworzą pod banderą Universal.

Jak podaje New York Times, wytwórnia miała pójść w podniosłe tony w oświadczeniu wysłanym platformom streamingowym: "Po której stronie chcą być wszyscy interesariusze w muzycznym ekosystemie? Po stronie artystów, fanów i ludzkiej ekspresji twórczej czy po stronie deep fake'ów, oszustw i odmawiania artystom należnych rekompensat za to?".

Anna Nowak, creative technology manager w Dentsu Creative, zwraca uwagę, że kluczowa w walce z tego typu nadużyciami jest edukacja potencjalnych ofiar. – Pojawiają się różne pomysły: weryfikacja dzwoniącego za pomocą szczegółowych pytań, rozłączanie się czy oddzwanianie bezpośrednio do zainteresowanych. Trudno jednak wymagać od ludzi, żeby w sytuacji bez wątpienia emocjonalnej, w której dowiadują się na przykład o wypadku bliskiego, zachowywali zimną krew. Dlatego też podobne metody nadużyć są tak skuteczne – mówi.

A niestety przepisy prawne nie sprawią, że głosowe deep fake’i znikną. Nie da się przecież karać za nie z automatu. – Nie istnieje jeden przepis prawny, który by zakazywał deep fake’ów. I nie powinien taki powstać. Takie spreparowane nagrania należy traktować kontekstowo, analogicznie np. do wypowiedzi nieprawdziwej. Np. jeśli na urodziny żony bądź męża zrobimy prezent w postaci fałszywego wideo z tą osobą, to oczywiście nie powinno się za to iść do więzienia. Co innego, jeśli np. składamy sfałszowane w ten sposób dowody w sądzie, prowadzimy oparte na nienawiści kampanie społeczne czy wykorzystujemy deep fake'i do masowej dezinformacji politycznej. W każdym z tych przypadków będziemy odpowiadać prawnie, ale na podstawie różnych przepisów – tłumaczy Filip Konopczyński z Fundacji Panoptykon.

Europarlament pracuje aktualnie nad Aktem o Sztucznej Inteligencji. Projekt przepisów przyjęty niedawno w komisjach IMCO i LIBE ociera się nieco o problem deep fake’ów. W artykule 52. mowa jest o pewnym obowiązku nałożonym na podmioty wdrażające systemy sztucznej inteligencji. Mają one informować użytkowników o tym, że wchodzą w kontakt z nieprawdziwymi treściami (obraz, dźwięk, film) wygenerowanymi przez algorytm. Wyjątkiem mają być działania artystyczne i satyryczne, a także wykorzystywanie deep fake’ów przez organy ścigania np. do walki z przestępczością.

– Z pewnością powstaną takie narzędzia sztucznej inteligencji, które będą wykrywały w głosach ingerencję innej sztucznej inteligencji. Być może zaczną powstawać bezpośrednio na telefon aplikacje identyfikujące, czy dzwoni człowiek – przewiduje Robert Grabowski z CERT Orange. W podobnym kierunku poszli autorzy w raporcie Parlamentu Europejskiego dotyczącego deep fake’ów z 2021 roku. Jako jedną z metod rozpoznawania sklonowanych głosów rekomendują technologie oparte na analizie żywotności głosu. "Nawet jeśli sklonowany głos jest nie do odróżnienia dla ludzkiego ucha, to tego rodzaju narzędzia oparte na AI mogą wykrywać artefakty, których nie ma w brzmieniu żywego głosu" – wskazują autorzy. Ale jednocześnie zaznaczają, że im gorsza jakość dźwięku, tym trudniej wychwycić, czy to fake, czy nie.

I przedstawiają jeszcze jedną czarną wizję: używanie sklonowanych głosów jako dowodów sądowych. "Najnowsze osiągnięcia w dziedzinie audio-graficznych deep fake'ów sprawiają, że każdy, kto kiedykolwiek opublikował nagrania swojego głosu, może stać się ofiarą jego sfabrykowanego nagrania, które posłuży jako dowód i sprawi, że taka osoba będzie wyglądała podejrzanie" – piszą autorzy raportu.

To może oznaczać, że sądy będą musiały zrewidować swoje sposoby dopuszczania dowodów do spraw. Albo zacząć korzystać ze sztucznej inteligencji, która będzie wykrywała klonowane głosy i inne rodzaje deep fake’ów. Jednak wyłapywanie tworów jednego inteligentnego narzędzia przez drugie inteligentne narzędzie sami nazywają niekończącą się zabawą w kotka i myszkę.

Na dziś w kwestii AI pewne pozostaje jedno. Na pewno nie pogodzi ona Tedego i Pei. Po publikacji piosenki "Daj na zgodę" ten ostatni postanowił podzielić się przewidywaniami zarówno co do rozwoju AI, jak i konfliktu obu raperów. "Obiektywnie stwierdzam, że wokal Tedego bardzo realistyczny pod względem barwy, mój trochę gorzej. (...) Spodziewajmy się kolejnych wybryków, na całe szczęście nie natury" – skomentował na Facebooku.

Zdjęcie główne: kolaż SerGRAY / Shutterstock / Instagram / YouTube
DATA PUBLIKACJI: 15.05.2023