Obrazek, by stworzyć obrazek. Bo polecenia tekstowe to za mało
Whisk to eksperymentalny projekt Google’a, mający sprawdzić inny sposób wchodzenia w interakcję ze sztuczną inteligencją niż tylko polecenia tekstowe. Narzędzie na razie ma służyć głównie dobrej zabawie - ma być jednak pilnie obserwowane przez twórców.
Na dziś niemal wszystkie narzędzia do generowania obrazków oczekują od użytkownika zapewnienia tekstowego opisu. Im bardziej szczegółowy, ale też bardziej konkretny - tym lepiej. Narzędzia pokroju DALL-E czy Microsoft Designer wymuszają na użytkowniku nauczenie się stosowania odpowiednich poleceń, by uzyskać pożądane przez niego efekty. Whisk to alternatywne podejście do tematu.
Głównym interfejsem aplikacji ma nie być pole tekstowe, a formularz do wysyłania obrazków. Whisk w ten sposób jest informowany o tym, co ma wygenerować, inspirując się innymi pracami. Użytkownik może sobie zażyczyć, by tematykę wziął z jednego zdjęcia, styl z drugiej grafiki, scenografię z jeszcze innego pliku graficznego.
Czytaj też:
Google Whisk - czy zmieni sposób, w jaki działają generatory grafik?
Whisk sam w sobie przy tym nie jest zupełnie nowym generatywnym modelem AI. Pliki wysłane przez użytkownika będą analizowane przez model Gemini, który następnie sam na bazie tych grafik stworzy za użytkownika prompta, którego z kolei przekaże do modelu Imgagen 3.
Google zastrzega przy tym, że na dziś narzędzie - gdy już zostanie uruchomione dla wszystkich internautów - z premedytacją nie kopiuje dokładnie postaci na zdjęciach i grafikach, jakie użytkownik mu zapewni. Whisk może zastąpić ją osobą o innym wzroście, fryzurze czy kolorze skóry. Firma podkreśla też, że to eksperymentalne narzędzie i że nie powinno być stosowane do poważnych, profesjonalnych zastosowań.
Whisk na samym początku będzie dostępny wyłącznie dla użytkowników mieszkających na terenie Stanów Zjednoczonych. Jego dostępność ma być z czasem poszerzana. Niestety Google nie podaje przy tym, kiedy dokładnie narzędzie trafi do Europy.