Wielkie miasta mają przewagę nawet dla botów. To ważniejszy problem niż się wydaje
AI lepiej generuje obrazy dużych miast niż mniejszych miejscowości. To wbrew pozorom bardzo duży problem.

Generatywna AI coraz częściej pokazuje nam świat, zanim sami zdążymy go zobaczyć. Problem w tym, że ten świat jest niestety nierówny. Wielkie miasta wychodzą na obrazkach rozpoznawalne, pełne charakterystycznych punktów i detali, jakby algorytm naprawdę je rozumiał. Mniejsze miejscowości dostają za to anonimowe, podobne do siebie kadry, jakby nie zasługiwały na własną tożsamość. Nowe badanie pokazuje, że sztuczna inteligencja nie tylko powiela znane stereotypy społeczne, ale potrafi po prostu wypchnąć z obrazu całe lokalne społeczności. Nie zniekształca ich. Po prostu je usuwa.
Gdy AI rysuje miasto, to najpierw widzi metropolię
Wielkie miasta mają w internecie ogromną przewagę. Są fotografowane przez turystów, opisywane w mediach, obecne w bazach zdjęć, materiałach promocyjnych, przewodnikach, filmach, reklamach i wpisach w mediach społecznościowych. Ich najbardziej znane punkty orientacyjne powtarzają się tysiące albo miliony razy. Most, panorama wieżowców, ratusz, stadion, dzielnica nad wodą czy charakterystyczna ulica stają się cyfrowym skrótem całego miejsca.
Małe miasta i mniejsze społeczności nie mają takiego luksusu. Często są obecne w sieci znacznie skromniej, mniej systematycznie i mniej atrakcyjnie dla algorytmów. Mają lokalne symbole, konkretne materiały, kolory, układ ulic, budynki, uczelnie, place i zwyczaje, ale te elementy rzadziej trafiają do wielkich zbiorów danych wykorzystywanych przez systemy generatywnej AI.
Kiedy generator obrazów ma stworzyć wizję dużej metropolii, to o wiele częściej znajduje w swoich danych mocne wzorce. Kiedy ma pokazać mniejsze miasto, zaczyna uśredniać. Zamiast miejsca z własną historią powstaje obraz miasta jakiegokolwiek: trochę zieleni, kilka budynków, jakaś ulica, ogólna atmosfera, ale bez tego, co mieszkańcy rozpoznaliby jako własne.
Właśnie ten mechanizm sprawdzili badacze Virginia Tech, Uniwersytetu Nauki i Technologii w Hongkongu (Guangzhou) oraz Uniwersytetu Alabama, którzy przyjrzeli się obrazom generowanym przez DALL-E 2. W tym przypadku chodziło nie o fantazyjne ilustracje, lecz o pytanie znacznie bardziej praktyczne: czy AI potrafi oddać rzeczywisty charakter konkretnych miast. Swoje wnioski opisali na łamach Technology in Society.
Blacksburg przegrał z Waszyngtonem
Badanie objęło cztery lokalizacje w USA: Blacksburg, Richmond, Virginia Beach i Waszyngton. Zestaw nie był przypadkowy. Blacksburg to mniejsza miejscowość silnie związana z lokalną tożsamością i uczelnią, podczas gdy Waszyngton czy większe miasta w Wirginii mają znacznie mocniejszą obecność medialną oraz bardziej rozpoznawalne elementy przestrzeni.
Uczestnicy badania oceniali obrazy stworzone przez AI pod kątem realizmu i tego, czy oddają charakter miejsca. Nie chodziło więc tylko o pytanie, czy grafika wygląda ładnie. Ważniejsze było to, czy przypomina konkretne miasto, a nie pocztówkę.
Okazuje się, że obrazy większych ośrodków wypadały lepiej, bo częściej zawierały elementy kojarzone z danym miejscem. Metropolie dawały AI więcej punktów zaczepienia: znane budynki, nabrzeża, dzielnice, ulice, osie komunikacyjne i rozpoznawalne fragmenty panoramy. Mniejsze Blacksburg okazało się trudniejsze. Obrazy były bardziej ogólne i słabiej oddawały lokalną specyfikę.
Pamiętajmy, że AI nie tylko odtwarza obrazy. Ona buduje wizualne wyobrażenie miejsca. Jeśli użytkownik prosi ją o pokazanie miasta, którego nie zna, może potraktować wynik jako szybkie przybliżenie rzeczywistości. Tymczasem przy mniejszych miejscowościach to przybliżenie może być bardzo płytkie.
Najbardziej cierpią lokalne symbole
Największy problem dotyczył punktów charakterystycznych i elementów kulturowo ważnych dla mieszkańców. To właśnie one decydują, czy obraz miejsca jest tylko poprawny estetycznie, czy rzeczywiście zakorzeniony w lokalnej tożsamości.
W przypadku Blacksburg system nie uchwycił jednego z ważnych symboli architektury kampusu Virginia Tech, czyli Hokie Stone. To charakterystyczny kamień używany w budynkach uczelni. Dla osób z zewnątrz może wydawać się błahostką, ale dla lokalnej społeczności jest jednym z elementów natychmiast rozpoznawalnych. Jego brak sprawia, że wygenerowany obraz może wyglądać jak zwykły kampus gdziekolwiek w USA, a nie konkretne miejsce.
AI może być więc dobra w produkowaniu rzeczy, które wyglądają wiarygodnie na pierwszy rzut oka. Może wygenerować ulicę, park, budynek uniwersytecki albo nadmorski krajobraz. Jednak wiarygodność wizualna nie zawsze oznacza zgodność z lokalną rzeczywistością. Obraz może wyglądać przekonująco, a jednocześnie usuwać najważniejsze cechy miejsca.
Dla turysty może to być drobna niedokładność. Dla miasta, które chce się promować, to już problem. Dla urbanisty, projektanta albo urzędnika korzystającego z AI w komunikacji publicznej może to być jeszcze poważniejsze, bo błędny obraz zaczyna wpływać na decyzje, oczekiwania i sposób myślenia o przestrzeni.
To nie błąd obrazka, tylko błąd danych
Algorytmy uczą się na olbrzymich zbiorach danych. Jeśli w tych zbiorach dominują największe miasta, najbardziej znane krajobrazy i najczęściej fotografowane miejsca, system będzie miał bogatszy materiał właśnie dla nich. Nie oznacza to, że model świadomie faworyzuje metropolie. Oznacza, że powiela strukturę widzialności obecną w internecie.
To bardzo podobne do innych form stronniczości AI. Modele często lepiej radzą sobie z grupami, językami, obrazami i tematami, które są lepiej reprezentowane w danych treningowych. Tam, gdzie danych jest mniej, pojawiają się uogólnienia, błędy i puste schematy. W przypadku miast skutkiem jest geograficzne uprzedzenie: jedne miejsca są przedstawiane z detalami, inne jako bezimienna wersja miasta w ogóle.
To tak naprawdę duży problem, bo obrazy generowane przez AI stają się coraz powszechniejsze. Mogą trafiać do broszur, prezentacji, reklam, projektów architektonicznych, konsultacji społecznych, wizualizacji inwestycji i materiałów promocyjnych. Jeżeli takie obrazy są tworzone bez krytycznej kontroli, mogą wzmacniać przekonanie, że pewne miejsca są ważniejsze, bardziej rozpoznawalne i bardziej warte pokazania niż inne.
Przeczytaj także:
Spróbujmy wyobrazić sobie, jak generator obrazów miałby pokazać Łomżę, Krosno, Lesko, Sanok, Piłę czy Stalową Wolę. Część z tych miejscowości ma bardzo silną tożsamość, własną architekturę i charakterystyczny krajobraz, ale ich cyfrowa dokumentacja jest znacznie słabsza, niż w przypadku metropolii. To samo dotyczy dzielnic, osiedli i miejscowości podmiejskich. AI może doskonale znać krakowski Rynek i świetnie go odwzorować, ale gorzej rozumieć specyfikę np. Woli Duchackiej. W efekcie różnorodność kraju może zostać spłaszczona tylko do kilku rozpoznawalnych ikon.
*Grafika wprowadzająca wygenerowana przez AI



















