Aigest.
Biznes AI

Tylko trzy modele AI przetrwały test prowadzenia startupu przez 500 dni z zyskiem

Badacze z Uniwersytetu Princeton stworzyli CEO-Bench, symulację, w której agenci AI zarządzają fikcyjną firmą programistyczną przez 500 dni, a większość modeli bankrutuje.

RA

Udostępnij
Tylko trzy modele AI przetrwały test prowadzenia startupu przez 500 dni z zyskiem
Fot. The Decoder

Nowe badanie przeprowadzone przez naukowców z Uniwersytetu Princeton, w ramach którego stworzono platformę CEO-Bench, ujawniło znaczące luki w zdolnościach obecnych modeli sztucznej inteligencji do zarządzania złożonymi zadaniami biznesowymi w dłuższej perspektywie. W symulacji, gdzie agenci AI mieli prowadzić fikcyjną firmę programistyczną przez 500 wirtualnych dni, większość testowanych modeli zbankrutowała, a jedynie trzy z nich zakończyły działalność z kapitałem wyższym niż początkowy milion dolarów.

CEO-Bench: Test strategicznej inteligencji

Platforma CEO-Bench została zaprojektowana, aby ocenić zdolność sztucznej inteligencji do podejmowania długoterminowych decyzji w warunkach niepewności, co jest kluczową umiejętnością ludzkich menedżerów. W przeciwieństwie do wąskich zadań, w których AI radzi sobie coraz lepiej (np. naprawa błędów, obsługa klienta), prowadzenie firmy wymaga ciągów decyzji, alokacji ograniczonych zasobów, interpretacji niejasnych sygnałów i adaptacji do zmieniających się warunków. Badacze podkreślają, że jest to zupełnie inna kategoria problemów niż te, z którymi AI mierzy się obecnie.

Symulacja dotyczy firmy subskrypcyjnej NovaMind, która zaczyna z zerową liczbą klientów i milionem dolarów kapitału. Agenci AI kontrolują firmę za pomocą interfejsu API Pythona, dysponując 34 narzędziami i bazą danych z 19 tabelami. Mogą pisać własny kod, wykonywać zapytania SQL i tworzyć niestandardowe przepływy pracy. Muszą podejmować decyzje dotyczące:

  • Cen i pakietów usług
  • Wydatków na reklamę w różnych kanałach
  • Jakości produktu i badań i rozwoju (R&D)
  • Pojemności infrastruktury i wsparcia klienta
  • Wielorundowych negocjacji z klientami korporacyjnymi

Dodatkowo, agenci mają dostęp do symulowanej sieci społecznościowej, gdzie mogą monitorować skargi, wiadomości o konkurencji i trendy ekonomiczne, a także publikować własne treści. Trudność zadania potęguje realizm czasowy – przychody pojawiają się dopiero w dniach rozliczeniowych, projekty R&D trwają tygodnie, a błędy ujawniają się z opóźnieniem, np. poprzez odpływ klientów. Koszty natomiast ponoszone są natychmiastowo.

Wyniki: Niewielu przetrwało, a prosta heurystyka zaskakuje

Spośród czternastu testowanych modeli, większość nie poradziła sobie z zadaniem. Choć niemal wszystkie były w stanie generować poprawne polecenia i zapytania do bazy danych, żadnemu nie udało się utrzymać spójnej strategii w czasie. Wiele z nich zbankrutowało przed upływem 500 dni symulacji.

Jedynie trzy modele zakończyły swoje najlepsze uruchomienie z kapitałem powyżej początkowego miliona dolarów:

  • Claude Fable 5: 47,15 miliona dolarów
  • Claude Opus 4.8: 27,8 miliona dolarów
  • GPT-5.5: 21,3 miliona dolarów

Warto zauważyć, że Claude Fable 5 był jedynym modelem, który przekroczył kapitał początkowy w więcej niż jednym uruchomieniu. Jednakże, w jednym z testów Fable 5, model przerwał działanie, a w dwóch innych część żądań została przekazana do Opus 4.8. GPT-5.5 zbankrutował w dwóch z trzech swoich uruchomień.

Co ciekawe, prosta heurystyka oparta na stałych zasadach, która w ogóle nie korzystała z modelu językowego, osiągnęła 15,76 miliona dolarów. Ten wynik przewyższył wszystkie modele AI z wyjątkiem Fable 5, Opus 4.8 i GPT-5.5, co wskazuje na znaczące braki w strategicznym myśleniu większości zaawansowanych systemów AI.

Różnice w strategiach i ograniczenia

Analiza trajektorii decyzji ujawniła wyraźne różnice behawioralne. GPT-5.5 i Claude Opus 4.8 konsekwentnie próbowały nowych strategii w miarę zmieniających się warunków, dostosowując pozyskiwanie klientów, pakiety usług czy budżety na wsparcie i R&D. Z kolei Claude Opus 4.7 reagował głównie cięciem kosztów i oszczędzaniem gotówki, co pozwalało mu przetrwać, ale uniemożliwiało osiągnięcie zysku.

Opus 4.8 i GPT-5.5 osiągnęły podobne wyniki końcowe, ale różnymi ścieżkami: Opus 4.8 pozyskał więcej klientów na początku, ale stracił ich w środku symulacji, podczas gdy GPT-5.5 utrzymywał bazę klientów przez cały czas. Oba modele tworzyły zaskakująco wyrafinowany kod – Opus 4.8 zbudował wewnętrzną symulację kohort klientów do przewidywania przepływów pieniężnych, a GPT-5.5 analizował historię negocjacji, aby odkryć ukryte preferencje klientów.

Badacze zidentyfikowali cztery kluczowe zdolności korelujące z sukcesem, w których Opus 4.8 i GPT-5.5 przewyższały średnią innych modeli. Zauważono również, że użycie asystentów kodowania, takich jak Claude Code i Codex, pogarszało wyniki agentów, prawdopodobnie z powodu podpowiedzi systemowych zoptymalizowanych pod kątem tworzenia oprogramowania, a nie zarządzania biznesem.

Skrócenie horyzontu czasowego symulacji do 50 dni również nie rozwiązało problemu – tylko GPT-5.5 zdołał zakończyć ją z zyskiem, co sugeruje, że większość modeli ma trudności z koordynacją decyzji nawet w krótkim terminie.

Autorzy badania przyznają, że ich symulacja ma pewne ograniczenia, np. produkt jest reprezentowany przez pojedynczy wskaźnik jakości, a aspekty takie jak zgodność z przepisami, bezpieczeństwo czy pozyskiwanie funduszy zostały pominięte. Mimo to, CEO-Bench wyraźnie wskazuje na przepaść między lokalnymi kompetencjami narzędziowymi dzisiejszych modeli a ich zdolnością do łączenia działań w długoterminową, spójną strategię biznesową. Wyniki te podkreślają, że choć AI doskonale radzi sobie z pojedynczymi zadaniami, droga do autonomicznego zarządzania złożonymi organizacjami jest jeszcze długa i wymaga rozwoju tzw. inteligencji strategicznej.

Źródło: the-decoder.com

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Listen Labs pozyskuje 69 mln USD po viralowej kampanii rekrutacyjnej z billboardem
Micron na fali wznoszącej: Czy producent pamięci stanie się kolejną Nvidią?
Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać
Coinbase stawia na chińskie modele AI, wywierając presję cenową na zachodnie laboratoria
Chińska firma Qihoo 360 tworzy narzędzia AI jako odpowiedź na Mythos, porównując rywalizację do odstraszania cybernuklea
Masayoshi Son z SoftBanku podważa sens kosmicznych centrów danych Elona Muska

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.