Nie odróżnisz prawdy od fałszu. Obrazki z GPT-4o za darmo
Bing Image Creator otrzymał GPT-4o - najnowszy model generowania obrazów od OpenAI, który według pierwszych testów wydaje się lepszy od wszystkiego, co widzieliśmy do tej pory w bezpłatnych narzędziach AI.

Największym problemem dotychczasowych generatorów obrazów były napisy. DALL-E 3, mimo swojej mocy, często produkował nieczytelne hieroglify zamiast zwykłych słów, a próby stworzenia menu restauracyjnego czy infografiki z tekstem kończyły się fiaskiem. GPT-4o to zmienia.
Model wykorzystuje architekturę autoregresyjną, która buduje obraz krok po kroku - od lewej do prawej, z góry na dół. To pozwala mu zrozumieć nie tylko to co ma namalować, ale także jak powinny wyglądać napisy, tablice, drogowskazy czy nawet złożone diagramy. W praktyce oznacza to, że wreszcie możemy tworzyć obrazy z czytelnym tekstem w języku polskim bez obaw o literówki czy zniekształcenia.
Czytaj też:

Przykłady z testów są imponujące - GPT-4o bezbłędnie renderuje tablice drogowe z kilkoma liniami tekstu, tworzy realistyczne menu restauracyjne, a nawet generuje złożone infografiki naukowe z równaniami i wykresami. To szczególnie istotne dla marketerów i grafików, którzy do tej pory musieli ręcznie poprawiać każdy element tekstowy.
Fotorealizm? Prawie
Różnica jakościowa między GPT-4o a poprzednimi modelami jest uderzająca. DALL-E 3 często produkował obrazy z charakterystyczną gładkością AI i nienaturalnymi proporcjami ciała. Nowy model osiąga poziom fotorealizmu, który momentami trudno odróżnić od prawdziwych zdjęć.

Szczególnie widać to w renderowaniu ludzi - GPT-4o radzi sobie z anatomią znacznie lepiej niż jakikolwiek darmowy konkurent. Ręce mają właściwą liczbę palców w naturalnych pozycjach, twarze są symetryczne i realistyczne, a proporcje ciała odpowiadają rzeczywistości. To koniec z koszmarami z wcześniejszych modeli, gdzie każda próba narysowania człowieka kończyła się groteskowym wynikiem.
Model doskonale radzi sobie także z różnymi stylami artystycznymi. Chcesz obraz w stylu Van Gogha? GPT-4o odwzoruje charakterystyczne pociągnięcia pędzla z niesamowitą precyzją. Potrzebujesz pixel artu? Każdy piksel zostanie umieszczony dokładnie tam, gdzie powinien być, bez rozmycia charakterystycznego dla wcześniejszych generatorów.
DALL-E 3 pozostaje opcją dla tych, którzy priorytetyzują szybkość nad jakością. Generuje kilka wariantów obrazu jednocześnie. GPT-4o z kolei tworzy pojedynczy, ale znacznie bardziej dopracowany obraz, wymagający więcej czasu na renderowanie.
GPT-4o wprowadza też konwersacyjną edycję obrazów do Binga. Po wygenerowaniu grafiki można naturalnym językiem poprosić o modyfikacje - zmienić kolor tła, dodać obiekt, skorygować oświetlenie - a model zastosuje zmiany, zachowując spójność pozostałych elementów. A wszystko to za darmoszkę, z dziennym limitem użytku.