Mark Zuckerberg jak kapitan Jack Sparrow. W tle torrenty i setki terabajtów skradzionych danych

Rosnąca liczba dowodów zdaje się sugerować, że Meta zdecydowała się pójść na skróty ze swoją rewolucją AI i grać nie fair. Zamiast płacić za zbiory danych do szkolenia sztucznej inteligencji właściciele Facebooka postawili na piractwo. I niegdyś całkiem dobrze znaną w informatycznym mainstreamie sieć torrent.

Maciej Gajewski

08.02.2025 16:10

Dodaj do ulubionych w GoogleDodaj do ulubionych źródeł w Google

Dlaczego ChatGPT, Copilot czy Gemini są takie wszechwiedzące? Wynika to z bardzo skomplikowanego i kosztownego procesu szkolenia. Duże Modele Językowe wykorzystywane przez czatboty AI to efekt przemielenia niewyobrażalnej ilości danych w centrach obliczeniowych największych firm informatycznych na świecie. Wiążę się z tym wiele wyzwań, w tym kosztowe czy energetyczne. Są nim też same dane.

Czytaj też:

Istnieje skończona ilość dostępnych nieodpłatnie i dostępnych do skanowania danych wysokiej jakości. Dlatego też największe firmy inwestujące w AI inwestują też znaczne środki na pozyskanie praw do publikacji chronionych prawem autorskim, a i tak mówi się, że to stanowczo za mało. Meta - właściciel Instagrama, WhatsAppa i Facebooka - jest jednym z liderów rozwoju generatywnej sztucznej inteligencji. Firma Marka Zuckerberga gra jednak ponoć bardzo nie fair.

Piractwo i sieci torrent jako odpowiedź na niedobór danych. Llama AI szkolona na książkach z sieci p2p

Według przedstawionych w amerykańskim sądzie dowodów Meta zdecydowała się w sposób piracki i nieautoryzowany pozyskać zbiór danych LibGen, na który składają się dziesiątki milionów pirackich kopii książek. Meta miała pobrać ponad 81,7 TB danych z zasobów Anna’s Archive, w tym 35,7 TB z Z-Library i LibGen - a także, przy innej próbie, 80,6 TB z LibGen.

- Znacznie mniejsze akty piractwa danych - stanowiące zaledwie 0,008 proc. ilości chronionych prawem autorskim utworów skopiowanych przez Metę - skutkowały skierowaniem przez sędziów sprawy do prokuratury Stanów Zjednoczonych w celu wszczęcia dochodzenia karnego - jak zauważają autorzy przedłożonego przed sądem raportu.

Dowody sugerują też, że pracownicy firny byli świadomi tego, co się dzieje. W przedstawionej wewnętrznej korespondencji pomiędzy inżynierami Mety pracującymi nad AI znaleźć można skargi na konieczność zmieniania adresów IP do obsługi sieci torrent.

- Torrentowanie ze służbowego laptopa wprawia mnie w dyskomfort – jak pisze w jednym z ujawnionych maili Nikołaj Baszłykow, jeden z badaczy Mety. Ten zresztą później zdecydował się formalnie zaprotestować, używając specyfiki działania mechanizmu torrent jako argumentu (w tej sieci każdy jest odbierającym i wysyłającym, w przypadku piractwa danych użytkownik pobierający dane z sieci torrent udostępnia je automatycznie dalej, sam stając się piratem). Kierownictwo Mety zdecydowało się zignorować skargi i dalej w niejawny sposób pozyskiwać pirackie dane.

Meta zamierza wyjaśnić fakty i obalić to bezpodstawne oskarżenie w postępowaniu podsumowującym. Jego termin nie jest jeszcze znany.

*Zdjęcie otwierające: Muhammad Aamir Sumsum / Shutterstock

Maciej Gajewski

Redaktor

Tagi:

Meta Piractwo prawo Sztuczna inteligencja (AI)