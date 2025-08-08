Ładowanie...

Największym problemem dotychczasowych generatorów obrazów były napisy. DALL-E 3, mimo swojej mocy, często produkował nieczytelne hieroglify zamiast zwykłych słów, a próby stworzenia menu restauracyjnego czy infografiki z tekstem kończyły się fiaskiem. GPT-4o to zmienia.

Model wykorzystuje architekturę autoregresyjną, która buduje obraz krok po kroku - od lewej do prawej, z góry na dół. To pozwala mu zrozumieć nie tylko to co ma namalować, ale także jak powinny wyglądać napisy, tablice, drogowskazy czy nawet złożone diagramy. W praktyce oznacza to, że wreszcie możemy tworzyć obrazy z czytelnym tekstem w języku polskim bez obaw o literówki czy zniekształcenia.

Przykłady z testów są imponujące - GPT-4o bezbłędnie renderuje tablice drogowe z kilkoma liniami tekstu, tworzy realistyczne menu restauracyjne, a nawet generuje złożone infografiki naukowe z równaniami i wykresami. To szczególnie istotne dla marketerów i grafików, którzy do tej pory musieli ręcznie poprawiać każdy element tekstowy.

Fotorealizm? Prawie

Różnica jakościowa między GPT-4o a poprzednimi modelami jest uderzająca. DALL-E 3 często produkował obrazy z charakterystyczną gładkością AI i nienaturalnymi proporcjami ciała. Nowy model osiąga poziom fotorealizmu, który momentami trudno odróżnić od prawdziwych zdjęć.

Szczególnie widać to w renderowaniu ludzi - GPT-4o radzi sobie z anatomią znacznie lepiej niż jakikolwiek darmowy konkurent. Ręce mają właściwą liczbę palców w naturalnych pozycjach, twarze są symetryczne i realistyczne, a proporcje ciała odpowiadają rzeczywistości. To koniec z koszmarami z wcześniejszych modeli, gdzie każda próba narysowania człowieka kończyła się groteskowym wynikiem.

Model doskonale radzi sobie także z różnymi stylami artystycznymi. Chcesz obraz w stylu Van Gogha? GPT-4o odwzoruje charakterystyczne pociągnięcia pędzla z niesamowitą precyzją. Potrzebujesz pixel artu? Każdy piksel zostanie umieszczony dokładnie tam, gdzie powinien być, bez rozmycia charakterystycznego dla wcześniejszych generatorów.

DALL-E 3 pozostaje opcją dla tych, którzy priorytetyzują szybkość nad jakością. Generuje kilka wariantów obrazu jednocześnie. GPT-4o z kolei tworzy pojedynczy, ale znacznie bardziej dopracowany obraz, wymagający więcej czasu na renderowanie.

GPT-4o wprowadza też konwersacyjną edycję obrazów do Binga. Po wygenerowaniu grafiki można naturalnym językiem poprosić o modyfikacje - zmienić kolor tła, dodać obiekt, skorygować oświetlenie - a model zastosuje zmiany, zachowując spójność pozostałych elementów. A wszystko to za darmoszkę, z dziennym limitem użytku.

Maciej Gajewski 08.08.2025 07:41

