Chiński bot rysuje lepiej niż amerykański. DeepSeek pokazał, co potrafi Janus Pro
Niecały tydzień po pokazaniu czatbota i AI, które wstrząsnęły Wall Street, DeepSeek pokazuje sztuczną inteligencję do generowania obrazów. Ma ona przewyższać dotychczas dostępne rozwiązania - w tym te od OpenAI.
Chiński startup DeepSeek wprawił w osłupienie dużą część zachodniego świata pokazując, że możliwe jest stworzenie czatbota równie dobrego jak te od OpenAI, Google'a czy Mety. Jednocześnie DeepSeek wywołał poruszenie na giełdach, bowiem duży model językowy sztucznej inteligencji stojący u podstaw czatbota miał kosztować startup zaledwie 6 milionów dolarów - podczas gdy koszt treningu samego GPT-4 przekroczył 100 mln. dol.
Model językowy to dopiero początek - DeepSeek właśnie udostępniło model generatywnej AI do tworzenia obrazów.
Janus(z) Pro wygeneruje ci obrazki
Minionego popołudnia DeepSeek opublikował w serwisie GitHub repozytorium zawierające modele Janus, JanusFlow oraz Janus-Pro-7B wraz z całą ich dokumentacją. Janus, podobnie jak pozostałe modele DeepSeek (m.in. DeepSeek-R1, DeepSeek-VL2 czy DeepSeek-Coder-V2) jest modelem open-source, co oznacza, że każdy użytkownik internetu posiadający odpowiednią wiedzę i odpowiednio "mocny" komputer może uruchomić AI lokalnie na komputerze - bez dostępu do internetu. DeepSeek przygotowało także podgląd modeli Janus, JanusFlow oraz Janus-Pro-7B w serwisie HuggingFace.
Janus, JanusFlow i Janus-Pro to modele generatywnej AI zaprojektowane zarówno do rozumienia, jak i generowania obrazów i tekstu, różniące się podejściem i możliwościami.
Janus wprowadził koncepcję oddzielonych koderów wizualnych, wykorzystujących ścieżki do rozumienia i generowania w ramach pojedynczej architektury. Z kolei JanusFlow opiera się na Janusie, wprowadzając do generatora obrazów rektyfikowany przepływ (rectified flow) - metodę dostrajania, dzięki której liczba "kroków", jakie AI podejmuje podczas generowania obrazów skraca się z około 12 do zaledwie jednego. To z kolei ma sprawiać, że JanusFlow generuje obrazów wyższej jakości niż Janus i poprawia semantyczne rozumienie poleceń użytkownika - innymi słowy JanusFlow lepiej niż Janus "rozumie" znaczenie słów, tworząc obrazy dokładnie w myśl opisu tekstowego.
Janus-Pro to najnowsza - bo opublikowana wczoraj - i najbardziej zaawansowana wersja Janusa, która koncentruje się na ulepszeniach strategii uczenia, danych i wielkości modelu. W efekcie wariant Pro Janusa osiąga znaczny wzrost wydajności zarówno w zakresie multimodalnego rozumienia, jak i generowania tekstu na obraz. Janus-Pro został wytrenowany w dwóch wariantach: 1,5 miliarda parametróworaz 7 miliardów parametrów.
Jak przekazują inżynierowie DeepSeek w dokumencie technicznym, Janus-Pro przewyższa istniejące modele sztucznej inteligencji, szczególnie w zakresie rozumienia multimodalnego i generowania tekstu na obraz, dzięki połączeniu projektu architektonicznego i ulepszeń treningowych. Janus-Pro wykorzystuje zoptymalizowaną strategię treningową, w ramach której jest trenowany na znacznie większej liczbie wysokiej jakości danych, w tym "syntetycznych danych estetycznych". Ta kombinacja pozwoliła Janus-Pro osiągnąć dobre wyniki w różnych testach porównawczych - tzw. benchmarkach, przewyższając modele takie jak DALL-E 2 i DALL-E 3 oraz Stable Diffusion 3 Medium.
W przeciwieństwie do dużych modeli językowych, DeepSeek nie podzielił się całkowitym kosztem wytrenowania modeli, wspominając jedynie o treningu "na klastrze 16/32 węzłów dla modelu 1,5B/7B, każdy wyposażony w 8 procesorów graficznych Nvidia A100 (40 GB)". W kontekście treningu generatywnej sztucznej inteligencji „klaster 16 węzłów” odnosi się do grupy 16 połączonych ze sobą komputerów (węzłów - ang. node), z których każdy wyposażony jest w 8 czipów Nvidia A100, pracujących razem w celu trenowania modeli sztucznej inteligencji.
Więcej na temat DeepSeek: