MAI-Voice-1 to model, który w obszarze syntezy mowy stawia poprzeczkę bardzo wysoko. Jego możliwości robią wrażenie nawet na tle konkurencji z ElevenLabs czy innych uznanych graczy na rynku. Model potrafi wygenerować pełną minutę dźwięku w czasie krótszym niż jedna sekunda, wykorzystując przy tym zaledwie jeden GPU - to osiągnięcie, które stawia go w gronie najbardziej wydajnych systemów syntezy mowy dostępnych obecnie na rynku.

Microsoft nie czekał z implementacją swojego dziecka. MAI-Voice-1 już teraz napędza funkcję Copilot Daily, gdzie sztuczny prezenter czyta najświeższe wiadomości, oraz generuje dyskusje w stylu podcastów, które mają na celu wyjaśnienie skomplikowanych tematów w przystępny sposób. Użytkownicy mogą eksperymentować z modelem w Copilot Labs, dostosowując zarówno głos, jak i styl wypowiedzi do swoich potrzeb.

MAI-1-preview - efektywność ponad wszystko

Drugi z prezentowanych modeli, MAI-1-preview, to próba sił Microsoftu w dziedzinie dużych modeli językowych. Choć trenowany na zaledwie 15 tys. układów Nvidia H-100 tak stanowi uderzenie w filozofię większe znaczy lepsze, która dominuje w branży. Dla porównania model Grok firmy xAI potrzebował ponad 100 tys. takich chipów do swojego treningu.

Szef działu AI Microsoftu, Mustafa Suleyman, nie ukrywa, że efektywność była priorytetem. To model, który bije znacznie powyżej swojej wagi - powiedział w rozmowie z Semaforem. Coraz bardziej sztuką i rzemiosłem trenowania modeli jest wybór idealnych danych i nie marnowanie żadnych flopsów na niepotrzebne tokeny, które tak naprawdę nie nauczyły modelu zbyt wiele.

Strategia konsumencka zamiast korporacyjnej

Microsoft wyraźnie stawia na konsumentów, a nie na klientów korporacyjnych. Suleyman, były współzałożyciel DeepMind i Inflection AI, jasno zdefiniował kierunek: Moja logika jest taka, że musimy stworzyć coś, co działa niezwykle dobrze dla konsumenta i naprawdę optymalizuje nasz przypadek użycia. To podejście może wydawać się zaskakujące, biorąc pod uwagę tradycyjne nastawienie Microsoftu na rynek B2B, ale jest logiczne w kontekście dostępu do ogromnych ilości danych konsumenckich.

Firma ma w planach nie poleganie na jednym uniwersalnym modelu, lecz orkiestrację wielu wyspecjalizowanych systemów dostosowanych do różnych zadań i intencji użytkowników. Wierzymy, że orkiestracja szeregu wyspecjalizowanych modeli obsługujących różne intencje użytkowników i przypadki użycia odblokuje ogromną wartość - napisał Microsoft AI w poście na blogu.

Pozycja w rankingach - realistyczne oczekiwania

MAI-1-preview został wprowadzony do publicznych testów na platformie LMArena, gdzie zajmuje obecnie 13. miejsce wśród modeli tekstowych. To wynik, który plasuje go poniżej sztandarowych modeli od Anthropic, DeepSeek, Mistral, OpenAI czy xAI, ale należy pamiętać, że to dopiero początek drogi Microsoftu w rozwoju własnych modeli.

Warto podkreślić, że Microsoft nie ukrywa swojego podejścia do konkurencji. Suleyman wcześniej argumentował, że bardziej opłacalne jest podążanie za liderami rynku z trzy-sześciomiesięcznym opóźnieniem, wykorzystując ich sukcesy zamiast bezpośredniej konkurencji. Nasze podejście polega na utrzymywaniu bliskiej drugiej pozycji, szczególnie biorąc pod uwagę wysokie koszty związane z tymi modelami - powiedział.

Napięcia w związku z OpenAI

Wprowadzenie własnych modeli Microsoft nieuchronnie prowadzi do pytań o przyszłość partnerstwa z OpenAI. Choć firmy oficjalnie pozostają partnerami, a Microsoft zainwestował w OpenAI około 14 mld dol., relacje nie są już tak gładkie jak kiedyś. OpenAI podobno odmówiło Microsoft dostępu do szczegółów technicznych dotyczących działania modelu o1, co dodatkowo podgrzało atmosferę.

Suleyman próbuje łagodzić napięcia, mówiąc: Naszym celem jest pogłębienie partnerstwa i upewnienie się, że mamy świetną współpracę z OpenAI przez wiele, wiele lat. Jednocześnie Microsoft testuje alternatywne modele AI od xAI, Mety, Anthropic i DeepSeeka jako potencjalne zamienniki dla technologii OpenAI w Copilocie.

Przyszłość sztucznej inteligencji w Microsofcie

Modele MAI to dopiero początek ambitnych planów Microsoftu w dziedzinie AI. Suleyman potwierdził, że firma pracuje już nad kolejnymi wersjami swoich modeli w niektórych z największych centrów danych na świecie, wyposażonych w chipy nowej generacji Nvidia GB-200. Mamy pięcioletni plan działania, w który inwestujemy kwartał po kwartale. Myślę, że to będzie kontynuowane.

Microsoft wchodzi też w obszar bezpieczeństwa AI, gdzie Suleyman, długoletni rzecznik bezpieczeństwa sztucznej inteligencji, ostrzega przed niebezpieczeństwami pozornie świadomej AI imitującej ludzkie emocje. W procesie post-treningu firma ma na celu usuwanie cech, które sprawiają, że modele wydają się mieć uczucia i cele, co Suleyman porównuje do rzeźbiarstwa.

Wprowadzenie modeli MAI przez Microsoft to więcej niż technologiczna nowinka - to strategiczna deklaracja niezależności od OpenAI i wejście w nową fazę konkurencji w dziedzinie sztucznej inteligencji. Choć modele nie przewyższają jeszcze najlepszych dostępnych obecnie systemów tak ich efektywność i ukierunkowanie na konsumentów pokazują, że Microsoft ma jasną wizję swojej roli w przyszłości AI. MAI-Voice-1 z jego imponującą wydajnością i MAI-1-preview z przemyślaną architekturą to dopiero pierwsze kroki w długiej podróży, która może zmienić układ sił w świecie sztucznej inteligencji.

Maciej Gajewski 29.08.2025 15:30

