Bing potrafi już pisać i rozumieć tekst jak człowiek. Teraz nauczył się czegoś nowego
Wyszukiwarka Microsoftu właśnie została rozszerzona o kolejną technologię bazującą na wynalazkach OpenAI. Po modelu językowym w dużej mierze bazującym na GPT-4 do Binga dodano model generowania obrazów, w dużej mierze bazujący na DALL-E.
Microsoft nie przestaje kuć żelaza, skoro nadal jest gorące. Po integracji modelu językowego Prometheus (stanowiącego syntezę OpenAI GPT-4 i technologii Microsoftu) z usługą Bing i (ponoć niebawem) z Microsoft 365, teraz pochylił się nad innym rozwiązaniem swojego partnera. Konkretnie nad DALL-E od firmy OpenAI, której Microsoft jest jednym z głównych inwestorów.
Prometheus zapewnia aplikacjom i usługom Microsoftu zdolność do niemal bezbłędnego rozumienia języka wyrażonego tekstem. Dzięki niemu można komputerowi wydawać polecenia w naturalnym języku, jak gdyby pisało się do innego człowieka - a komputer zrozumie. Tak samo niemal bezbłędnie rozumie dane tekstowe do przeanalizowania. DALL-E z kolei jest mechanizmem, za sprawą którego komputer może tworzyć sztukę wizualną (choć właściwie to bardziej rzemiosło).
Można więc nakazać maszynie za pomocą tekstu kazać narysować obraz o danej zawartości, a ta w kilkanaście sekund to uczyni. DALL-E jest już częścią usługi Microsoft Designer. Teraz trafia do darmowego produktu, jakim jest Bing. Każdy, kto ma dostęp do czatbota Binga, automatycznie też może już korzystać z Bing Twórca Obrazu. Jak to działa?
Bingu, narysuj mi baranka.
Aplikacja Bing Twórca Obrazu dla użytkowników z Polski jest na razie ukryta, a więc nie ma do niej odnośnika prowadzącego ze strony głównej wyszukiwarki Bing. Nie szkodzi, wystarczy wpisać ten adres: www.bing.com/create. Aplikacja prawdopodobnie jest ukrywana z uwagi na fakt, że na dziś obsługuje wyłącznie polecenia w języku angielskim.
Microsoft tym razem nie ingerował przesadnie w algorytm DALL-E, co nie do końca jest dobrą wiadomością. Czatbot Binga wydaje się znacznie użyteczniejszy od ChatGPT, właśnie za sprawą dodatkowej technologii Microsoftu. Tymczasem DALL-E, choć bez wątpienia niezwykle imponujący, nie jest tak dobry, jak konkurencyjne rozwiązania, z Midjourney na czele. W pracach DALL-E dalej widać abstrakcyjne artefakty (które łatwo usunąć narzędziem typu Photoshop) No ale za to Bing jest darmowy.
Wystarczy wpisać co wygenerowana grafika ma przedstawiać. Im szerszy opis, tym lepiej - bo wtedy Bing ma szansę zrozumieć o co użytkownikowi właściwie mogło chodzić i wygenerować trafniej pożądaną grafikę. Tę można następnie zapamiętać w usłudze lub zachować w pamięci urządzenia lub udostępnić w social mediach. Niestety, nie jest jasne jak sprawa wygląda z prawami autorskimi. Microsoft w żaden sposób o tym nie informuje.
To, co Microsoft dodał od siebie do tej technologii, to głównie zestaw zabezpieczeń. DALL-E to eksperyment naukowy, podczas gdy Twórca Obrazu - nawet w formie bieżącej bety - to usługa, z którą obcują zwykli internauci. Mechanizmy Microsoftu mają dawać gwarancję, że usługa nie stworzy obrazu o treściach nieodpowiednich czy wręcz zabronionych. Niestety, w żaden sposób nie koryguje samego DALL-E.
Nie zmienia to jednak faktu, że narzędzie i tak imponuje. Za darmo można stworzyć grafikę o niemal dowolnej treści i (miejmy nadzieję - czekamy na wyjaśnienia od Microsoftu) wykorzystać ją w publikacji, dokumencie czy na social mediach. Bing Twórca Obrazu ma jeszcze dużo do poprawy - ale i tak już w bieżącej formie może być szalenie użyteczny. I poważnie zagrozić witrynom z darmowymi grafikami stockowymi.
*Ilustracja otwierająca: A robot painting an artistic image of artificial intelligence. Bing Image Creator Utworzono za pomocą sztucznej inteligencji