W 2022 roku poczuliśmy oddech sztucznej inteligencji na karku. Zaraz nas przegoni
Sto lat temu ludzkość spodziewała się, że w 2022 roku będziemy posiadać latające samochody i armie mechanicznych żołnierzy. Tymczasem rok upłynął nam na wykorzystywaniu sztucznej inteligencji do generowania śmiesznych obrazków i dyskusji o tym, czy SI jest świadoma.
Mijający rok był interesujący dla entuzjastów sztucznej inteligencji. Internetem zawładnęła moda na generowanie z jej pomocą różnych treści, z kolei inżynierowie za oceanem dwoją się i troją, by modele były jak najbardziej etyczne - zwłaszcza w czasach, kiedy to pracownicy wynoszą tajemnice firmy.
Czytaj też:
Internetowe szaleństwo na punkcie DALL-E Mini.
DALL-E Mini to dosłownie mniejsza - a więc i posiadająca mniejsze możliwości - wersja modelu DALL-E stworzonego przez OpenAI. Projekt autorstwa Borisa Dayma został po raz pierwszy upubliczniony w serwisie GitHub w kwietniu 2022 roku, a następnie w maju w serwisie Hugging Face.
Choć oryginalny model DALL-E został wydany przez OpenAI w styczniu 2021 roku, a DALL-E mini posiada te same funkcje w ograniczonym zakresie, stał się on niezwykle popularny w społeczności internetowej. Dzięki bezpłatnemu i nieskomplikowanemu sposobowi użycia, DALL-E dla wielu jest nie tylko pierwszym zderzeniem z możliwościami generowania obrazu przez SI, ale też źródłem setek memów
Google Imagen
Na fali popularności DALL-E Mini, w maju bieżącego roku Google zdecydował się oficjalnie ogłosić stworzenie własnego modelu SI przetwarzającego tekst na obraz - Google Imagen. Imagen cechuje się niespotykanym dotąd fotorealizmem generowanego obrazu.
W przeciwieństwie do innych modeli, Imagen nadal utrzymywany jest przez Google z dala od dostępu publicznego, gdyż koncern obawia się niewłaściwego wykorzystania SI do tworzenia szkodliwych treści.
LaMDA jest świadoma? Za to stwierdzenie gość z Google'a stracił posadę.
To, że Google rozwija własną sztuczną inteligencję, nie jest zaskoczeniem. Jednak w czerwcu bieżącego roku świat zaskoczyła informacja podana przez jednego z byłych już inżynierów Google - Blake'a Lemoine, że model SI, nad którym pracuje Google, LaMDA, jest świadomy. Inżynier na dowód swych twierdzeń opublikował na blogu w serwisie Medium fragmenty rozmów z LaMDA, które miały świadczyć o osiągnięciu przez SI ludzkiego poziomu rozumowania. Lemoine na krótko przed odcięciem dostępu do wewnętrznych systemów koncernu, rozesłał wiadomość, w której domagał się etycznego traktowania LaMDA.
Koniec końców inżynier stracił posadę, a niezależni komentatorzy podważyli słuszność jego twierdzeń. Jednym z głównych powodów było wybiórcze publikowanie fragmentów rozmów oraz edytowanie ich przez mężczyznę.
Co ciekawe, jednym z efektów skandalu było otworzenie dla zainteresowanych osób Google AI Kitchen - zamkniętego laboratorium do testów sztucznej inteligencji, w tym umożliwienie im rozmowy z LaMDA.
Wydanie Stable Diffusion
Oficjalne wydanie Stable Diffusion to jedno z najważniejszych wydarzeń w świecie SI w 2022 roku. 22 sierpnia startup Stability AI wydał model sztucznej inteligencji text-to-image Stable Diffusion przetwarzającej tekst na obraz. W swoim działaniu nie różni się niczym od innych modeli text-to-image takich jak DALL-E czy Midjourney. Wyróżnia go fakt, że inne modele działają w chmurze, podczas gdy Stable Diffusion jest oprogramowaniem typu open-source, które udostępniono do powszechnego użytku komercyjnego i niekomercyjnego. Stable Diffusion oprócz zastosowania w różnych aplikacjach można także zainstalować na komputerze na własny użytek.
Meta AI: Cicero grający w Dyplomację i tłumacz z języków bez zapisu.
Meta Platforms stworzone przez Marka Zuckerberga utożsamiane jest przede wszystkim z serwisami społecznościowymi - Facebook, Instagram, komunikatorami - WhatsApp, Messenger oraz próbami stworzenia własnego metaverse. Lecz niewiele osób zdaje sobie sprawę, że w skład koncernu wchodzi także Meta AI, ośrodek badawczy prowadzący pracę nad sztuczną inteligencją i uczeniem maszynowym.
W mijającym roku zespół Meta AI dokonał trzech ważnych osiągnięć. W lipcu bieżącego roku badacze poinformowali o pierwszym sukcesie w ramach ambitnego projektu No Language Left Behind (NLLB, Żaden język nie pozostaje w tyle). Inżynierom Mety udało się stworzyć model NLLB-200, który płynnie potrafi posługiwać się 200 językami - w tym mniej znanymi pochodzącymi z Afryki i Azji, takimi jak laotański czy lingala. Co ważniejsze, model jest w stanie tłumaczyć pomiędzy tymi językami, zamiast opierać się na translacji z angielskim jako językiem pośredniczącym.
Drugim osiągnięciem w ramach inicjatywy Universal Speech Translator (UST, Uniwersalny tłumacz mowy) jest opracowanie przez Meta AI tłumacza, który jest w stanie tłumaczyć z języków nie posiadających formy zapisu. Jest to duże osiągnięcie, gdyż tłumaczenie maszynowe opiera się niemal w całości na danych pobranych z internetu - tekstu w różnych formach, co jest niemożliwe w przypadku języków niemożliwych do zapisania. Inzynierowie Mety skupili się na tłumaczu języka Hokkien, bazującego na zapożyczeniach z języka chińskiego i nieposiadającego jednolitego sposobu zapisu.
Sztuczna inteligencja Mety wykorzystuje metodę S2UT (speech-to-unit translation, tłumaczenie mowy na jednostki). Metoda ta pozwala na tłumaczenie mowy - sygnału wejściowego na sekwencję jednostek akustycznych. Następnie owa sekwencja jednostek jest przetwarzana na graficzne fale akustyczne, z których sztuczna inteligencja generuje dwa tłumaczenia: tekstowe na język mandaryński i mowę w języku angielskim.
Trzecim osiągnięciem jest opracowanie i wytrenowanie modelu SI o wdzięcznym imieniu Cicero do gry w Dyplomację. Dyplomacja w przeciwieństwie do wielu gier takich jak np. szachy nie opiera się na matematycznym przewidywaniu ruchów i doborze najlepszej strategii. Gra ta opiera się na dosłownej dyplomacji, dialogu i tworzeniu sojuszów z graczami. Cicero nie był nieomylny w swych działaniach, lecz mimo to zdołał osiągnąć 90 procentową skuteczność w starciu z ludzkimi przeciwnikami.
ChatGPT
Niezależnie od tego, jak bardzo jest się zaznajomionym z możliwościami sztucznej inteligencji, upubliczniony 30 listopada ChatGPT poruszył cały świat. To chatbot oparty na innym dużym modelu językowym OpenAI - GPT-3.5. Możliwości tworzenia tekstu przez ChatGPT są ograniczone względem umiejętności oryginalnego modelu, co jest spowodowane przez zoptymalizowanie SI do wykorzystania jako chatbot.
ChatGPT działa na identycznej zasadzie jak inne modele językowe - przetwarza podany mu tekst, szukając w nich powiązań i wzorców podobnych do tych, których "nauczył się" w procesie uczenia maszynowego. Chatbot bazuje na modelu, który został wytrenowany na kilku terabajtach danych pochodzących z internetu: prasie, blogach, różnego rodzaju stronach internetowych, książkach oraz Wikipedii. Dane, na których opiera się ChatGPT pochodzą z czwartego kwartału 2021 roku, dlatego też chatbot nie miał pojęcia o np. przejęciu Twittera przez Elona Muska.
Ponadto model został zmodyfikowany w taki sposób, aby unikać odpowiedzi na kontrowersyjne i nieetyczne pytania, oraz wystrzegać się radzenia użytkownikom w potencjalnie niebezpiecznych i szkodliwych kwestiach.
OpenAI upubliczniło ChatGPT jedynie do testów, jednakże stał się on sensacją ze względu na jego możliwości rozumienia i generowania tekstów w języku naturalnym, czemu z kolei udowodniono wiele dobrych i mniej przyjaznych zastosowań.