Mark Zuckerberg jak kapitan Jack Sparrow. W tle torrenty i setki terabajtów skradzionych danych
Rosnąca liczba dowodów zdaje się sugerować, że Meta zdecydowała się pójść na skróty ze swoją rewolucją AI i grać nie fair. Zamiast płacić za zbiory danych do szkolenia sztucznej inteligencji właściciele Facebooka postawili na piractwo. I niegdyś całkiem dobrze znaną w informatycznym mainstreamie sieć torrent.
![Meta piractwo AI](/_next/image?url=https%3A%2F%2Focs-pl.oktawave.com%2Fv1%2FAUTH_2887234e-384a-4873-8bc5-405211db13a2%2Fspidersweb%2F2025%2F02%2Fmeta-piractwo-ai-1.jpg&w=1200&q=75)
Dlaczego ChatGPT, Copilot czy Gemini są takie wszechwiedzące? Wynika to z bardzo skomplikowanego i kosztownego procesu szkolenia. Duże Modele Językowe wykorzystywane przez czatboty AI to efekt przemielenia niewyobrażalnej ilości danych w centrach obliczeniowych największych firm informatycznych na świecie. Wiążę się z tym wiele wyzwań, w tym kosztowe czy energetyczne. Są nim też same dane.
Czytaj też:
Istnieje skończona ilość dostępnych nieodpłatnie i dostępnych do skanowania danych wysokiej jakości. Dlatego też największe firmy inwestujące w AI inwestują też znaczne środki na pozyskanie praw do publikacji chronionych prawem autorskim, a i tak mówi się, że to stanowczo za mało. Meta - właściciel Instagrama, WhatsAppa i Facebooka - jest jednym z liderów rozwoju generatywnej sztucznej inteligencji. Firma Marka Zuckerberga gra jednak ponoć bardzo nie fair.
Piractwo i sieci torrent jako odpowiedź na niedobór danych. Llama AI szkolona na książkach z sieci p2p
Według przedstawionych w amerykańskim sądzie dowodów Meta zdecydowała się w sposób piracki i nieautoryzowany pozyskać zbiór danych LibGen, na który składają się dziesiątki milionów pirackich kopii książek. Meta miała pobrać ponad 81,7 TB danych z zasobów Anna’s Archive, w tym 35,7 TB z Z-Library i LibGen - a także, przy innej próbie, 80,6 TB z LibGen.
- Znacznie mniejsze akty piractwa danych - stanowiące zaledwie 0,008 proc. ilości chronionych prawem autorskim utworów skopiowanych przez Metę - skutkowały skierowaniem przez sędziów sprawy do prokuratury Stanów Zjednoczonych w celu wszczęcia dochodzenia karnego - jak zauważają autorzy przedłożonego przed sądem raportu.
Dowody sugerują też, że pracownicy firny byli świadomi tego, co się dzieje. W przedstawionej wewnętrznej korespondencji pomiędzy inżynierami Mety pracującymi nad AI znaleźć można skargi na konieczność zmieniania adresów IP do obsługi sieci torrent.
- Torrentowanie ze służbowego laptopa wprawia mnie w dyskomfort – jak pisze w jednym z ujawnionych maili Nikołaj Baszłykow, jeden z badaczy Mety. Ten zresztą później zdecydował się formalnie zaprotestować, używając specyfiki działania mechanizmu torrent jako argumentu (w tej sieci każdy jest odbierającym i wysyłającym, w przypadku piractwa danych użytkownik pobierający dane z sieci torrent udostępnia je automatycznie dalej, sam stając się piratem). Kierownictwo Mety zdecydowało się zignorować skargi i dalej w niejawny sposób pozyskiwać pirackie dane.
Meta zamierza wyjaśnić fakty i obalić to bezpodstawne oskarżenie w postępowaniu podsumowującym. Jego termin nie jest jeszcze znany.
*Zdjęcie otwierające: Muhammad Aamir Sumsum / Shutterstock