Microsoft ogłasza pierwsze własne modele sztucznej inteligencji: MAI-Voice-1 i MAI-1-preview

Do wczoraj sztuczna inteligencja Microsoftu komunikowała się z głosem i mózgiem OpenAI. Dziś jednak firma Satyi Nadelli stawia krok w kierunku autonomii: wprowadza na rynek dwa modele opracowane w całości wewnętrznie, co oznacza początek nowego etapu w strategii rozwoju sztucznej inteligencji. Modele MAI-1-preview i MAI-Voice-1 reprezentują dwa odrębne, ale uzupełniające się kierunki. Pierwszy z nich ma konkurować z dużymi, podstawowymi modelami przetwarzania języka; drugi to nowatorski model głosu, zoptymalizowany pod kątem szybkiej, realistycznej i ekspresyjnej syntezy dźwięku.
Słowa, słowa, słowa, tylko słowaMAI-Voice-1 to model syntezy mowy zaprojektowany do generowania syntetycznej mowy niezwykle szybko, wydajnie i naturalnie. Według Microsoftu, może on wygenerować minutę dźwięku w mniej niż sekundę, wykorzystując jeden procesor graficzny (GPU). Jego wyjątkowo niski koszt obliczeniowy sprawia, że idealnie nadaje się do zastosowań konsumenckich i na dużą skalę.
Celem, jak wyjaśniono na oficjalnym blogu , jest umożliwienie sztucznej inteligencji nie tylko reagowania, ale także prowadzenia rozmowy z intonacją, akcentowaniem, pauzami i rytmem zbliżonym do ludzkiego, ponieważ firma z Redmond wierzy, że głos będzie głównym interfejsem przyszłości. To nie przypadek, że niedawno uruchomiono Copilot Daily, nową funkcję, która prezentuje codzienne wiadomości w formacie audio, czytane przez wirtualnego prowadzącego. Do tego dochodzą projekty takie jak Copilot Labs, w których użytkownicy mogą generować krótkie opowiadania, bajki dla dzieci i medytacje z przewodnikiem, wybierając różne tony i style.
Microsoft zademonstrował już zaawansowane możliwości głosowe w Azure Cognitive Services, ale ten skok kwantowy jest znaczący. Nacisk na „personalizację narracji” sugeruje, że firma stara się odróżnić swoją sztuczną inteligencję od rozwiązań Google czy OpenAI, koncentrując się na empatii głosowej i integracji z codziennym życiem.
Podgląd MAI-1: Mniej układów scalonych, więcej inteligencjiJeśli MAI-Voice-1 daje sztucznej inteligencji głos, to MAI-1-preview ma na celu zapewnienie jej autonomicznego myślenia. To model języka na dużą skalę (LLM) w całości wytrenowany przez Microsoft na około 15 000 procesorach graficznych Nvidia H100 – znacznej liczbie, ale znacznie mniejszej niż konkurencyjne rozwiązania, takie jak Grok firmy xAI, który wykorzystał ponad 100 000 procesorów. Podejście firmy ma na celu wydajne i zoptymalizowane szkolenie, redukcję kosztów obliczeniowych i wykorzystanie wysokiej jakości danych.
Model, wciąż w fazie eksperymentalnej, został publicznie przetestowany na platformie LMArena, społecznościowej platformie benchmarkingowej, gdzie badacze i programiści mogą porównywać wydajność różnych modeli w zadaniach takich jak rozumienie tekstu, generowanie kodu, logika i konwersacja. Wersja zapoznawcza MAI-1 nie dorównuje jeszcze poziomowi GPT-4 ani Claude 3 Opus, ale wykazuje obiecującą wydajność, szczególnie w zadaniach edukacyjnych i wymagających rozumienia tekstu. Faza testowania będzie kontynuowana w nadchodzących miesiącach, a Microsoft rozpoczął już współpracę z wybranymi grupami użytkowników, aby zweryfikować jego niezawodność i przydatność w rzeczywistych scenariuszach.
MAI-1 nie jest „monolitycznym, wszechwiedzącym modelem”, lecz raczej modułowym systemem agentów AI, z których każdy specjalizuje się w określonych zadaniach. Jest to pierwszy element większego ekosystemu, w którym różne modele współpracują ze sobą, wymieniają się informacjami i zapewniają szybsze, bardziej wiarygodne i spersonalizowane odpowiedzi.
Poza OpenAIPo zainwestowaniu ponad 13 miliardów dolarów w OpenAI i zintegrowaniu jego modeli z praktycznie wszystkimi swoimi produktami, od Worda po GitHub, Microsoft dąży obecnie do przynajmniej częściowego uwolnienia się od tej zależności. Mustafa Suleyman, który opuścił Google DeepMind, aby założyć Inflection, a następnie dołączył do Microsoftu, wyjaśnił, że każda firma, która chce być istotna w dziedzinie sztucznej inteligencji, musi opracować własne modele. Powód jest nie tylko techniczny, ale także polityczny, ekonomiczny i kulturowy: ten, kto kontroluje modele, kontroluje ewolucję oprogramowania, chmury i interfejsów użytkownika.
Inni giganci, tacy jak Amazon i Apple, przyspieszają rozwój wewnętrzny. Apple rozpoczął integrację Apple Intelligence ze swoimi urządzeniami, a Amazon przejął startupy takie jak Anthropic, aby wdrożyć Alexę. Microsoft ma jednak przewagę infrastrukturalną: jest właścicielem Azure, jednej z największych chmur obliczeniowych na świecie, i może pozwolić sobie na eksperymenty na dużą skalę.
Nie jest przesądzone, że MAI-1 lub MAI-Voice-1 wkrótce zastąpią GPT-5, ale ich znaczenie wykracza poza natychmiastową wydajność. Stanowią one istotną zmianę. Microsoft nie tylko integruje sztuczną inteligencję, ale ją tworzy. Wysyła więc jasny sygnał rynkowi, a być może nawet OpenAI.
La Repubblica