REKLAMA

Masowo wykupują książki z antykwariatów. Trafią pod nóż

Antykwariaty w kilku krajach Europy zaczęły otrzymywać zamówienia na tysiące przypadkowych, niszowych publikacji. Sprzedawcy podejrzewają, że za zakupami stoją firmy poszukujące nowych danych do rozwoju sztucznej inteligencji.

Sztuczna inteligencja poluje na rzadkie książki. Antykwariusze alarmują
REKLAMA

Od dobrych kilku miesięcy branża AI mierzy się z problemem wyczerpania źródeł danych do treningu AI. Nawet pomimo przełamywania się przez zabezpieczenia witryn i namiętnego korzystania z torrentów, firmy z branży uczenia maszynowego i sztucznej inteligencji doszły do ściany i nie mają już czym "karmić" dużych modeli językowych (i nie tylko) sztucznej inteligencji. Dlatego oczy Doliny Krzemowej teraz skierował się na… antykwariaty.

REKLAMA

Do europejskich antykwariatów spływają ogromne zamówienia. Firmy od AI są zdesperowane

Europejskie antykwariaty i księgarnie z używanymi książkami alarmują o nietypowej fali zamówień składanych przez zagraniczne firmy powiązane z branżą sztucznej inteligencji. Według informacji holenderskiego radia BNR podobne zgłoszenia napływają z Holandii, Niemiec, Szwajcarii i Hiszpanii. Sprzedawcy podejrzewają, że kupowane egzemplarze nie trafiają do kolekcjonerów ani bibliotek, lecz są wykorzystywane do tzw. destrukcyjnego skanowania, po którym książki są niszczone.

Jednym z pierwszych opisanych przypadków była wiadomość e-mail otrzymana przez Pietera de Vriesa z antykwariatu De Vries & De Vries w Haarlemie. Nadawczynią miała być osoba przedstawiająca się jako Nataly z singapurskiej firmy 2077AI. W wiadomości poinformowała, że przedsiębiorstwo uczestniczy w projekcie polegającym na gromadzeniu książek w wielu językach, obecnie głównie anglojęzycznych.

Do e-maila dołączono listę około 3 tys. tytułów uporządkowanych według numerów ISBN. Znalazły się na niej między innymi Distinct Element Modelling in Geomechanics K.R. Saxeny z 1999 roku, Barrett's Traditional Fairy Tales - akademicka publikacja poświęcona irlandzkiemu folklorowi - oraz Laser Shock Peening of Advanced Ceramics autorstwa Pratika Shukli z 2018 roku. Zestawienie obejmowało specjalistyczne publikacje z bardzo różnych dziedzin, bez wyraźnego związku tematycznego.

Pieter de Vries nie był jedynym adresatem podobnej wiadomości. BNR ustaliło, że identyczne e-maile trafiły także do innych holenderskich sprzedawców. Wielu z nich początkowo uznało je za spam, ponieważ antykwariaty zajmujące się bardzo starymi wydaniami rzadko handlują książkami posiadającymi współczesne numery ISBN.

REKLAMA

Do podobnych zdarzeń miało dojść również w innych europejskich antykwariatach. Jeden z niemieckich antykwariuszy informował o gwałtownym wzroście zamówień składanych codziennie między godziną 3:00 a 5:00 nad ranem od początku maja. Zamawiającym miała być kanadyjska firma Zoom Books, która kupowała przypadkowe, wysoce specjalistyczne publikacje. Według cytowanych sprzedawców charakter zakupów nie przypomina działalności kolekcjonerów ani handlarzy książkami. Egzemplarze wybierane przez zamawiających często są zbyt niszowe, aby przynosiły zyski przy dalszej odsprzedaży. Powtarzające się listy ISBN oraz duże zamówienia skłoniły część środowiska do wniosku, że książki są pozyskiwane jako materiał do treningu modeli sztucznej inteligencji.

W tego typu proceder zaangażowany jest choćby Anthropic

Podejrzenia te nabrały znaczenia po ujawnieniu informacji o "Project Panama", realizowanym przez firmę Anthropic od początku 2024 roku. Jak wynika z dokumentów przedstawionych podczas postępowania sądowego w Stanach Zjednoczonych, przedsiębiorstwo kupowało miliony dolarów wartości książek z myślą o tzw. destrukcyjnym skanowaniu. Proces polega na odcięciu grzbietu książki, mechanicznym zeskanowaniu pojedynczych stron, a następnie wyrzuceniu papierowych egzemplarzy.

Sprawa ujrzała światło dzienne podczas procesu dotyczącego naruszeń praw autorskich przeciwko Anthropic w czerwcu 2025 roku. Chociaż właściciel chatbota Claude zawarł ugodę, postępowanie zwróciło uwagę na istotny aspekt amerykańskiego prawa. Sąd uznał, że zniszczenie legalnie zakupionej fizycznej książki w celu jej zeskanowania może mieścić się w granicach zasady fair use, o ile przedsiębiorstwo jest właścicielem egzemplarza.

REKLAMA

Część europejskich sprzedawców uważa, że właśnie dlatego zainteresowanie skierowało się na rynek wtórny w Europie. Starsze, słabiej zdigitalizowane publikacje mogą stanowić cenne źródło nowych danych treningowych dla modeli językowych, które od lat wykorzystują ogromne ilości treści dostępnych publicznie w internecie.

Jak wspomniałam na wstępie, obecna generacja modeli AI w dużej mierze wykorzystała już łatwo dostępne zasoby internetowe. Dlatego firmy coraz częściej poszukują tekstów trudniej dostępnych, starszych lub nigdy niezdigitalizowanych. Takie publikacje mogą wzbogacić zbiory danych o treści, których modele wcześniej nie przetwarzały.

Na zarzuty odpowiedziała firma Zoom Books. Cytowana przez szwajcarskiego nadawcę SRF spółka przekazała, że zakupy stanowią element "standardowego modelu recyklingu i handlu". Wyjaśnienie nie przekonało sprzedawców. Zwracają oni uwagę, że kolekcjonerzy i nabywcy antykwarycznych książek zwykle kupują pojedyncze egzemplarze lub niewielkie zestawy poświęcone jednej tematyce, a nie tysiące losowo dobranych tytułów ze skrajnie różnych, niszowych kategorii

Temat wywołał również reakcję holenderskiej branży wydawniczej. Jak przypomina dziennik de Volkskrant, koalicja wydawców oraz CB uruchomiła platformę Bookpact.ai. Inicjatywa ma umożliwić wydawcom określenie, czy ich książki mogą być wykorzystywane przez firmy rozwijające sztuczną inteligencję, na jakich warunkach oraz za jaką opłatą. Według inicjatora projektu Sandera Ruysa wykorzystanie książek do treningu modeli AI powinno podlegać odrębnym zasadom niż tworzenie streszczeń, tłumaczeń czy cytowanie fragmentów publikacji.

Pieter de Vries podkreślił w rozmowie z de Volkskrant, że jego antykwariat nie jest w stanie realizować takich zamówień, ponieważ specjalizuje się przede wszystkim w znacznie starszych wydaniach. Jednocześnie ostro skrytykował sam proces destrukcyjnego skanowania, określając sposób traktowania książek jako pozbawiony szacunku dla ich wartości kulturowej.

REKLAMA

Czytaj też:

REKLAMA
Malwina Kuśmierek
Redaktor

Jako sześciolatka powiedziała w wywiadzie dla lokalnej telewizji, że chce zostać dziennikarką. Dzisiaj jest absolwentką dziennikarstwa i komunikacji społecznej na Akademii Humanistyczno-Ekonomicznej w Łodzi. Od dziecka pasjonuje się szeroko pojętymi grami i technologią, a w gimnazjum zapałała miłością do grafiki komputerowej i elektroniki użytkowej. Swoją pasję przekuła w działalność dziennikarską, przybliżając czytelnikom Spider's Web tematykę smartfonów, smartwatchy, oprogramowania i sztucznej inteligencji. Prywatnie miłośniczka psów, gotowania i literatury faktu.

REKLAMA
REKLAMA
REKLAMA
REKLAMA