Sztuczna inteligencja nie radzi sobie z Sudoku. Znacznie bardziej niepokojące jest to, że nie potrafi wyjaśnić, dlaczego

Chatboty potrafią być naprawdę imponujące, gdy obserwuje się je, jak robią rzeczy, w których są dobre , na przykład piszą realistycznie brzmiące teksty lub tworzą dziwne, futurystyczne obrazy . Ale spróbuj poprosić generatywną sztuczną inteligencję o rozwiązanie jednej z tych zagadek, które znajdziesz na końcu gazety, a sprawy szybko wymkną się spod kontroli.
Właśnie to odkryli naukowcy z Uniwersytetu Kolorado w Boulder, gdy testowali różne modele językowe w celu rozwiązania sudoku. I to nawet nie standardowe łamigłówki 9x9. Łatwiejsza łamigłówka 6x6 często przekraczała możliwości magistra prawa (LLM) bez pomocy z zewnątrz (w tym przypadku specjalistycznych narzędzi do rozwiązywania łamigłówek).
Ważniejsze odkrycie nastąpiło, gdy poproszono modelki o pokazanie swoich prac. W większości nie potrafiły tego zrobić. Czasami kłamały. Czasami tłumaczyły rzeczy w sposób, który nie miał sensu. Czasami miały halucynacje i zaczynały rozmawiać o pogodzie.
Jeśli narzędzia sztucznej inteligencji nowej generacji nie potrafią dokładnie i transparentnie wyjaśnić swoich decyzji, powinno to skłonić nas do ostrożności, gdyż oddajemy tym narzędziom coraz większą kontrolę nad naszym życiem i decyzjami, powiedział Ashutosh Trivedi, profesor informatyki na University of Colorado w Boulder i jeden z autorów artykułu opublikowanego w lipcu w czasopiśmie Findings of the Association for Computational Linguistics.
„Naprawdę chcielibyśmy, aby te wyjaśnienia były przejrzyste i odzwierciedlały powody, dla których sztuczna inteligencja podjęła daną decyzję, a nie żeby sztuczna inteligencja próbowała manipulować ludźmi, podając wyjaśnienia, które mogłyby się im spodobać” – powiedział Trivedi.
Podejmując decyzję, możesz przynajmniej spróbować ją uzasadnić lub wyjaśnić, jak do niej doszedłeś. To fundamentalny element społeczeństwa. Jesteśmy odpowiedzialni za nasze decyzje. Model sztucznej inteligencji może nie być w stanie dokładnie i transparentnie się wytłumaczyć. Czy zaufałbyś mu?
Dlaczego studenci LLM mają problemy z SudokuWidzieliśmy już, jak modele sztucznej inteligencji zawodzą w prostych grach i łamigłówkach. ChatGPT OpenAI (i nie tylko) został całkowicie zmiażdżony w szachach przez komputerowego przeciwnika w grze Atari z 1979 roku. Niedawny raport badawczy Apple wykazał, że modele mogą mieć problemy z innymi łamigłówkami, takimi jak Wieża Hanoi .
Ma to związek ze sposobem działania modeli LLM i wypełniania luk w informacjach. Modele te starają się uzupełniać te luki w oparciu o to, co dzieje się w podobnych przypadkach w danych treningowych lub innych rzeczach, które zaobserwowały w przeszłości. W Sudoku pytanie jest logiczne. Sztuczna inteligencja może próbować wypełniać każdą lukę po kolei, w oparciu o pozornie sensowną odpowiedź, ale aby rozwiązać je poprawnie, musi spojrzeć na całość i znaleźć logiczną kolejność, która zmienia się w zależności od łamigłówki.
Przeczytaj więcej: Podstawy sztucznej inteligencji: 29 sposobów, dzięki którym sztuczna inteligencja nowej generacji będzie dla Ciebie pracować, według naszych ekspertów
Chatboty są słabe w szachach z podobnego powodu. Znajdują logiczne kolejne ruchy, ale niekoniecznie myślą trzy, cztery czy pięć ruchów do przodu. To podstawowa umiejętność niezbędna do dobrej gry w szachy. Chatboty czasami poruszają figurami szachowymi w sposób niezgodny z zasadami lub narażają figury na bezsensowne ryzyko.
Można by oczekiwać, że absolwenci studiów magisterskich (LLM) będą umieli rozwiązywać sudoku, ponieważ są komputerami, a łamigłówka składa się z liczb, ale same łamigłówki nie są tak naprawdę matematyczne; są symboliczne. „Sudoku słynie z tego, że jest łamigłówką liczbową, którą można rozwiązać za pomocą wszystkiego, co nie jest liczbami” – powiedział Fabio Somenzi, profesor na Uniwersytecie Kolorado i jeden z autorów pracy badawczej.
Użyłem przykładowego polecenia z artykułu badaczy i przekazałem je do ChatGPT. Narzędzie pokazało swoją pracę i wielokrotnie informowało mnie, że zna odpowiedź, po czym pokazało łamigłówkę, która nie działała, a następnie wróciło i poprawiło ją. Wyglądało to tak, jakby bot oddawał prezentację, która była ciągle poprawiana w ostatniej chwili: To jest ostateczna odpowiedź. Nie, właściwie, nieważne, to jest ostateczna odpowiedź. W końcu znalazł odpowiedź metodą prób i błędów. Ale metoda prób i błędów nie jest praktycznym sposobem rozwiązywania sudoku w gazecie. To zdecydowanie za dużo wymazywania i psuje całą zabawę.
Sztuczna inteligencja i roboty mogą być dobre w grach, jeśli są do tego przystosowane, ale narzędzia ogólnego przeznaczenia, takie jak duże modele językowe, mogą mieć problemy z rozwiązywaniem zagadek logicznych.
Naukowcy z Kolorado nie chcieli tylko sprawdzić, czy boty potrafią rozwiązywać zagadki. Poprosili o wyjaśnienia, jak boty sobie z nimi radzą. Sprawy nie potoczyły się pomyślnie.
Testując model rozumowania o1-preview OpenAI, naukowcy zauważyli, że wyjaśnienia — nawet w przypadku poprawnie rozwiązanych łamigłówek — nie do końca wyjaśniały lub uzasadniały ruchy, a także błędnie interpretowały podstawowe pojęcia.
„Jedną z ich mocnych stron jest dostarczanie wyjaśnień, które wydają się sensowne” – powiedziała Maria Pacheco, adiunkt informatyki na Uniwersytecie Kolorado. „Dostosowują się do ludzi, więc uczą się mówić tak, jak lubimy, ale czy są wierne rzeczywistym krokom potrzebnym do rozwiązania problemu, to jest to, z czym mamy pewne problemy”.
Czasami wyjaśnienia były zupełnie nieistotne. Od zakończenia prac nad artykułem naukowcy kontynuowali testowanie nowych modeli. Somenzi powiedział, że kiedy on i Trivedi testowali model wnioskowania o4 OpenAI w tych samych testach, w pewnym momencie zdawał się on całkowicie dawać za wygraną.
„Następnym pytaniem, jakie zadaliśmy, była prognoza pogody dla Denver” – powiedział.
(Ujawnienie: Ziff Davis, spółka macierzysta CNET, w kwietniu wniosła pozew przeciwko OpenAI, twierdząc, że firma naruszyła prawa autorskie Ziff Davis w zakresie szkolenia i obsługi systemów sztucznej inteligencji.)
Umiejętność tłumaczenia się jest ważną umiejętnościąRozwiązując zagadkę, niemal na pewno jesteś w stanie wytłumaczyć komuś swój tok rozumowania. Fakt, że ci LLM-owie tak spektakularnie zawiedli w tym podstawowym zadaniu, nie jest błahym problemem. Ponieważ firmy zajmujące się sztuczną inteligencją ciągle mówią o „ agentach AI ”, którzy mogą podejmować działania w twoim imieniu, umiejętność tłumaczenia się jest niezbędna.
Zastanów się nad rodzajami zadań powierzanych obecnie lub planowanych w najbliższej przyszłości sztucznej inteligencji: prowadzenie samochodu , rozliczanie podatków , decydowanie o strategiach biznesowych i tłumaczenie ważnych dokumentów. Wyobraź sobie, co by się stało, gdybyś Ty, człowiek, wykonywał jedną z tych czynności i coś poszłoby nie tak.
„Kiedy ludzie muszą podejmować decyzje, lepiej, żeby byli w stanie wytłumaczyć, co doprowadziło do tej decyzji” – powiedział Somenzi.
Nie chodzi tylko o uzyskanie sensownie brzmiącej odpowiedzi. Musi być ona precyzyjna. Pewnego dnia wyjaśnienia sztucznej inteligencji mogą być akceptowalne w sądzie, ale jak można traktować jej zeznania poważnie, skoro wiadomo, że kłamie? Nie zaufałbyś osobie, która nie wyjaśniła się, ani komuś, kto, jak się okazało, mówił to, co chciałeś usłyszeć, zamiast prawdy.
„Podanie wyjaśnień jest bardzo bliskie manipulacji, jeśli robi się to z niewłaściwych powodów” – powiedział Trivedi. „Musimy zachować szczególną ostrożność, dbając o transparentność tych wyjaśnień”.
cnet