Ta sztuczna inteligencja potrafi... widzieć
ChatGPT potrafi rozwiązać twoje zadanie matematyczne, ale nie potrafi go odczytać ze zdjęcia kartki papieru. Podobnie GPT-3, który napisze ci przepis na bigos, ale nie powie czy mięso, którego używasz jest dobre. Microsoft ma rozwiązanie na te i inne problemy, które stawiamy przed sztuczną inteligencją: Kosmos-1.
ChatGPT, GPT-3, DALL-E, Midjourney czy Stable Diffusion - te modele sztucznej inteligencji nie tylko spopularyzowały wykorzystanie SI do tworzenia treści i odpowiadania na pytania, ale także nauczyły nas komunikować się ze sztuczną inteligencją poprzez tekst. A co gdyby tak pokazywać SI świat i to, czego od niej oczekujemy?
Ta sztuczna inteligencja odczyta tekst i wytłumaczy ci, co widzisz na zdjęciu. To totalny Kosmos
Odpowiedź na to pytanie jest nie z tej planety, gdyż nazywa się Kosmos-1 i jest nowym modelem sztucznej inteligencji wykorzystującej koncept MLLM (multimodalnego dużego modelu językowego), w przeciwieństwie do znanego nam dobrze LLM (dużego modelu językowego). Model opracowany został przez inżynierów Microsoftu, a preprint pracy opisujący sztuczną inteligencję dostępny jest w archiwum arXiv.
Same nazwy MLLM i LLM zdradzają pewne podobieństwa pomiędzy Kosmos-1, a dobrze nam znanymi modelami językowymi - działanie Kosmos-1, tak jak dużych modeli językowych opiera się na rozumieniu tekstu. Jednak w przypadku nowego modelu językowego Microsoftu, kiedy otrzymuje on grafikę jako dane wejściowe (czyli twoją komendę), tłumaczy on grafikę na zrozumiały dla LLM tekst.
Dzięki temu na treningu na kilku terabajtach danych, w tym zbiorach takich jak The Pile czy Common Crawl zyskał umiejętności percepcyjne, pozwalające mu przejść test na IQ jak i odpowiadać na pytania związane z prezentowaną mu grafiką. Kosmos-1 wykazywał "imponujące wyniki" nie tylko przy analizie danych, z którymi miał już do czynienia, ale także w sytuacjach few- i zero-shot - czyli w sytuacjach, w których model ma odpowiednio bardzo mało i brak danych dotyczących prezentowanego mu obiektu.
Gdzie znajdziemy Kosmos-1? Być może w Bing
Inne przykłady zastosowania Kosmos-1 wskazują na jego potencjał w pomaganiu użytkownikowi. Na przykład badacze podsunęli modelowi zrzut ekranu z systemu Windows 10 z pytaniem co przedstawia obraz, następnie SI wytłumaczyła, co znajduje się na grafice oraz poinstruowała jak wyłączyć komputer lub jak anulować operację. W innym przykładzie Kosmos-1 wytłumaczył użytkownikowi, jakie jedzenie znajduje się na fotografii.
Z kolei w samym tekście pracy możemy znaleźć fragment zatytułowany "Odpowiadanie na pytanie na stronach internetowych"
Odpowiadanie na pytania na stronach ma na celu znalezienie odpowiedzi na pytania ze stron internetowych. Wymaga to modelu zrozumienia zarówno semantyki, jak i struktury tekstów. Struktura strony internetowej (taka jak tabele, listy i układ HTML) odgrywa kluczową rolę w tym, jak informacje są ułożone i wyświetlane. Zadanie to może pomóc nam ocenić zdolność naszego modelu do zrozumienia semantyki i struktury stron internetowych.
- czytamy w artykule opisującym Kosmos-1
Może to oznaczać, że Microsoft rozwija Kosmos-1 nie tylko w celu przetarcia szlaków w dziedzinie sztucznej inteligencji, ale także chce zaimplementować SI jako część swojej wyszukiwarki oraz chatbota.