REKLAMA

Meta ma nowy model AI. Będzie odczytywał obrazy bez podpowiedzi

13 czerwca to ważny dzień dla Mety. Firma ogłasza model AI, który został zaprojektowany wedle zupełnie innej filozofii niż ta towarzysząca powstawaniu dotychczasowych modeli językowych. I-JEPA, bo tak nazywa się model, nie potrzebuje podpowiedzi i wskazówek, ona sama dedukuje, co widzi. I na tym ma właśnie polegać przełom.

Meta
REKLAMA

Image Joint Embedding Predictive Architecture, bo tak się nazywa ów model, to w dużej mierze efekt wizji Yanna LeCuna, szefa zespołu ds. AI w Meta. W zeszłym roku podzielił się on wizją takiego modelu nauczania, który przezwycięży ograniczenia dotychczasowych, nawet najbardziej zaawansowanych, modeli. Fundamentem jego pomysłu jest uczenie się poprzez tworzenie wewnętrznych modeli świata zewnętrznego.

Do tej pory modele AI dostając fragment obrazka, próbowały odgadnąć, co jest na zakrytej jego części, poprzez przewidywanie tego, co może się znaleźć na kolejnych pikselach. Czyli szukają podobnego wzoru obrazka i go uzupełniają.

REKLAMA

Z kolei I-JEPA widzi obrazek i nie szuka analogicznych obrazów w swojej bazie, tylko na podstawie dotychczas zdobytej wiedzy od zera interpretuje, co jest na danym obrazie. I co powinno się znaleźć na dalszej jego części. Jeśli więc dostanie np. obrazek z fragmentem pyska psa, to uzupełni go tak, by widać było całego psa nie dlatego, że wie, jakie będą następne piksele, ale dlatego, że domyśla się, jak wygląda cały pies.

Pomijany jest więc proces wchodzenia w najdrobniejsze szczegóły. I-JEPA przewiduje obrazy na wysokim poziomie abstrakcji, zamiast ustalać bezpośrednią wartość każdego piksela. Dzięki temu pomijane jest też generatywne, a więc uogólniające, podejście do tworzenia treści. Obrazy tworzone przez I-JEPA nie są szablonowe.

AI tkwi w szczegółach

Co więcej, dotychczasowe modele generatywne próbowały odtworzyć każdy szczegół, każdą brakującą informację. Ten defekt można zobaczyć np. w wygenerowanych obrazach ludzkich dłoni. Generatywna AI sobie z nimi nie radzi, bo ciągle dopisuje gdzieś dane, myśląc, że ich brakuje. W efekcie na dłoniach generuje dziwne narośle.

A świat jest z natury nieprzewidywalny. W rezultacie metody generatywne są podatne na błędy, których człowiek nigdy by nie popełni, ponieważ nadmiernie skupiają się na nieistotnych szczegółach

- czytamy w komunikacie Mety, który właśnie dostały media na całym świecie.

Abstrakcyjne - nie tak matematyczne - rozumienie świata, jakie prezentuje, model I-JEPA ma być - według jego twórców - bardziej zbliżone do ludzkiego sposobu myślenia. Dzięki odrzuceniu informacji o pojedynczych pikselach I-JEPA pozbywa się też niepotrzebnego szumu informacyjnego. Tego samego, który zaburza interpretowanie i tworzenie obrazów generatywnym modelom.

REKLAMA

Nowy model Mety potrafi przechwytywać obrazy (oczywiście także te ruchome na filmach) i odpowiednio odczytać ich głębię czy położenie obiektów. Bez “wchodzenia w szczegóły” (czyli piksele) potrafi “odnaleźć” na filmie poszczególne obiekty i je sklasyfikować. W ten sposób im więcej obrazów I-JEPA zobaczy, tym lepiej będzie budowała sobie "wewnętrzny obraz zewnętrznego świata", jak mówią eksperci z Mety. Ponieważ narzędzie to samo się nadzoruje, nie dopuszcza etykietowanych obrazków (czyli z opisami tego, co na nich widać).

Meta zapowiada, że to dopiero początek. W planach jest rozwijanie umiejętności modelu o pracę na połączonych danych tekstowo-wizualnych i danych wideo.

REKLAMA
Najnowsze
REKLAMA
REKLAMA
REKLAMA