Youtuberzy w szoku. Apple uczy SI na ich filmach, ale czy to dobry pomysł?

Świat sztucznej inteligencji wstrząsnął skandalem. Okazuje się, że giganci technologiczni, tacy jak Apple i Salesforce, bez zgody twórców wykorzystali materiały z YouTube do szkolenia swoich modeli SI. Wśród danych znalazło się 170 tys. filmów!

Oliwier Nytko

17.07.2024 11:22

Dodaj do ulubionych w GoogleDodaj do ulubionych źródeł w Google

Youtuberzy w szoku. Apple uczy SI na ich filmach, ale czy to dobry pomysł?

Zestawy danych odgrywają kluczową rolę w uczeniu maszynowym, dostarczając algorytmom niezbędnych informacji do nauki i doskonalenia. W kontekście SI, zestawy te często zawierają duże ilości tekstu, kodu, obrazu lub innych danych.

Dostępność wysokiej jakości i zróżnicowanych zestawów danych jest kluczowa dla efektywnego uczenia modeli sztucznej inteligencji. Im więcej danych model dostanie, tym lepiej będzie w stanie uogólniać i wykonywać zadania na nowych danych, których wcześniej nie widział.

Wykorzystanie zestawów danych w SI wiąże się z wieloma problemami etycznymi, takimi jak kwestie prywatności i bezpieczeństwa danych. Chociaż w sieci dostępna jest masa ogólnodostępnych treści, twórcy nie zawsze wyrażają zgodę na ich wykorzystanie. Zdarza się też, że nie są wcale pytani o prośbę, tylko kopiuje się ich pracę ot tak.

Apple uczył SI na filmach z YouTube bez zgody twórców

W centrum skandalu znalazł się zestaw danych o nazwie YouTube Subtitles, zawierający napisy zebrane z ponad 170 tys. filmów na YouTube. Dane te zostały wykorzystane przez gigantów technologicznych, takich jak Apple, Nvidia i Salesforce, do szkolenia ich własnych modeli SI.

Twórcy YouTube byli zaskoczeni nieuprawnionym wykorzystaniem ich treści, zwłaszcza że generowana przez AI zawartość stwarza potencjalne zagrożenie dla ich źródła zarobku. Wyrazili frustrację faktem, że ich praca została wykorzystana do trenowania modeli AI bez ich wiedzy lub zgody.

MKBHD, ogromny technologiczny youtuber, skomentował na Twitterze: "Apple pozyskiwał dane do swojej sztucznej inteligencji od kilku firm. Jedna z nich zgarnęła gigabajty danych/transkrypcji z filmów na YouTube, w tym z moich. Technicznie rzecz biorąc, Apple nie jest tutaj winny, ponieważ to nie on zbierał dane. Ale to będzie ewoluujący problem przez długi czas".

Twórcy twierdzą, że zasługują na wynagrodzenie, zwłaszcza biorąc pod uwagę możliwość zastąpienia twórców ludzkich przez AI w przyszłości. Sam proces zbierania danych budzi pytania, czy narusza regulamin YouTube.

EleutherAI, firma non-profit i twórcy zestawu danych, bronią swojej metody, twierdząc, że jest ona podobna do sposobu, w jaki przeglądarka internetowa pobiera informacje.

Przeczytaj więcej o SI na Spider's Web:

To część zbioru danych "The Pile"

Zestaw danych z napisów YouTube’a to tylko jeden element znacznie większej kolekcji o nazwie „The Pile”. Ta cyfrowa biblioteka zawiera tekst i kod zebrane z różnych źródeł, w tym z Wikipedii, stanowiąc cenny zasób do szkolenia modeli AI, szczególnie tych skupiających się na rozumieniu i generowaniu języka ludzkiego.

Serwis Wired odkrył, że większość zestawów danych Pile jest dostępnych i otwartych dla każdego w Internecie, kto dysponuje wystarczającą ilością miejsca i mocą obliczeniową, aby uzyskać do nich dostęp. Zestawu danych korzystali zarówno naukowcy, jak i inni developerzy spoza Big Tech, ale nie byli oni jedynymi.

Apple, Nvidia i Salesforce – firmy wyceniane na setki miliardów dolarów – opisują w swoich artykułach badawczych i wpisach, w jaki sposób wykorzystywały Pile do trenowania sztucznej inteligencji. Dokumenty pokazują również, że Apple użył Pile do trenowania OpenELM, głośnego modelu wydanego w kwietniu, na kilka tygodni przed tym, jak firma ogłosiła, że doda nowe funkcje sztucznej inteligencji do iPhone’ów i MacBooków.

Czytaj także: Jak pobrać muzykę z YouTube? Są na to 3 sposoby

Co się stało w skrócie?

Wyobraź sobie organizację non-profit, która chce pomagać małym firmom i osobom prywatnym, dając im dostęp do cennego zbioru danych. Twórcy zbioru chcą zrobić coś dobrego, bez chęci ogromnego zysku.

Następnie niczym sęp wypatrujący padliny, pojawia się chciwa korporacja (lub korporacje), która z mówi: "co to za wspaniały zbiór danych?" i dodaje: "to nam się przyda!". W ten sposób zbiór danych, który miał służyć szlachetnym celom, staje się narzędziem do trenowania sztucznej inteligencji, na której te korporacje (w tym Apple) zbiją krocie.

To tak, jakby ktoś ukradł twoje zdjęcia z Facebooka i Instagrama bez zgody i wykorzystał je do stworzenia sztucznej inteligencji, która będzie idealnie cię imitować. Czy chciałbyś, żeby ktoś tak zrobił?

Oliwier Nytko

Redaktor

Tagi:

Google Sztuczna inteligencja (AI)