Mistral AI prezentuje Leanstral 1.5: Model agenta kodu dla Lean 4 rozwiązujący 587 problemów PutnamBench
Mistral AI wprowadził Leanstral 1.5, model agenta kodu dla Lean 4, który znacząco poprawia automatyczne dowodzenie twierdzeń i inżynierię dowodów, osiągając imponujące wyniki w benchmarkach.

Mistral AI ogłosiło wydanie Leanstral 1.5, zaawansowanego modelu agenta kodu zaprojektowanego dla Lean 4. Nowa wersja ma na celu usprawnienie automatycznego dowodzenia twierdzeń oraz inżynierii dowodów, a jej wagi są dostępne na licencji Apache 2.0. Równocześnie uruchomiono darmowy punkt końcowy API o nazwie leanstral-1-5.
Architektura i możliwości Leanstral 1.5
Leanstral 1.5 stanowi aktualizację wcześniejszego modelu Leanstral-2603 i należy do rodziny Mistral Small 4. Jest to model agenta kodu stworzony dla Lean 4, asystenta dowodzenia, który mechanicznie weryfikuje każdy logiczny krok. Lean 4 potrafi wyrażać złożone obiekty, takie jak przestrzenie perfektoidalne, oraz właściwości fragmentów kodu Rust.
Architektura modelu opiera się na koncepcji mixture-of-experts (MoE), gdzie każdy token jest kierowany do kilku wyspecjalizowanych podsieci. Takie podejście pozwala na utrzymanie niskiego zapotrzebowania na moc obliczeniową przy jednoczesnym zachowaniu dużej całkowitej pojemności. Leanstral wykorzystuje 128 ekspertów, z czego 4 są aktywne na token. Całkowity rozmiar modelu to 119 miliardów parametrów, z czego 6,5 miliarda jest aktywowanych na token. Model obsługuje długość kontekstu do 256 tysięcy tokenów i przyjmuje dane wejściowe multimodalne (tekst i obraz), generując wyłącznie tekst.
Szkolenie Leanstral 1.5 odbywało się w trzech etapach: mid-training, nadzorowane dostrajanie (supervised fine-tuning) oraz uczenie wzmacniające z wykorzystaniem CISPO. Zachowanie agentowe modelu zostało ukształtowane w dwóch środowiskach uczenia wzmacniającego:
- W środowisku multiturn, model otrzymuje twierdzenie do udowodnienia lub obalenia. Przesyła dowód, analizuje informacje zwrotne od kompilatora Lean i udoskonala swoje próby, aż do sukcesu lub wyczerpania budżetu.
- W środowisku code agent, Leanstral działa w ramach systemu plików, edytując pliki, uruchamiając polecenia bash i korzystając z serwera języka Lean, który dostarcza w czasie rzeczywistym informacje o celach, błędach i typach. Pozwala to na uzupełnianie częściowych dowodów, budowanie pomocniczych lematów oraz utrzymywanie kontekstu dzięki kompresji.
Wyniki i zastosowania praktyczne
Zespół Mistral AI informuje, że Leanstral 1.5 osiąga 100% na zestawach walidacyjnych i testowych miniF2F. Model rozwiązał 587 z 672 problemów PutnamBench, ustanawiając nowy stan wiedzy w benchmarkach algebry FATE-H (87%) i FATE-X (34%). W teście FLTEval, pass@1 wzrósł z 21.9 do 28.9, a pass@8 z 31.9 do 43.2. FLTEval jest zbudowany na podstawie rzeczywistych pull requestów do repozytorium Wielkiego Twierdzenia Fermata. Leanstral przewyższa w nim Opus 4.6, osiągając lepsze wyniki przy siedmiokrotnie niższych kosztach, a także zwiększa przewagę nad modelami open-source, które są od trzech do dziesięciu razy większe.
Na PutnamBench, Leanstral wyprzedza Seed-Prover 1.5 o 7 problemów, kosztując około 4 dolary za problem, podczas gdy Seed-Prover w wysokim ustawieniu kosztuje około 300 dolarów lub więcej za problem. Model przewyższa również Aleph Prover, którego koszt wynosi około 54-68 dolarów za problem.
Kluczową cechą modelu jest skalowanie w czasie testowania. Zwiększenie budżetu tokenów na próbę podnosi wynik PutnamBench Pass@8. Zespół Mistral AI podaje, że model rozwiązał 44 problemy przy 50 tys. tokenów, 244 przy 200 tys., 493 przy 1 mln i 587 przy 4 mln.
Leanstral, choć trenowany głównie na matematyce, potrafi również weryfikować kod. Mistral AI udokumentował dwa studia przypadków istotne dla inżynierów. W 57 repozytoriach model zidentyfikował 47 naruszonych właściwości i 11 rzeczywistych błędów, z czego pięć nie było wcześniej zgłoszonych na GitHubie. Jeden z błędów dotyczył funkcji sign w dekodowaniu zigzag, gdzie przepełnienie wartości (value + 1) dla Std.U64.MAX powodowało awarie w trybie debugowania i cichą korupcję w trybie wydania.
Praktyczne zastosowania i dostępność
Praktyczne zastosowania Leanstral 1.5 obejmują możliwość ukończenia częściowych dowodów w repozytorium, automatyczne generowanie właściwości poprawności dla funkcji oraz testowanie kodu Rust poprzez dowodzenie lub obalanie wnioskowanych niezmienników. Najprostszym sposobem na skorzystanie z modelu jest Mistral Vibe, interfejs CLI agenta Mistral. Leanstral jest dostępny w ramach bezpłatnego planu Mistral. Aby go użyć, należy włączyć „Labs models” na koncie i utworzyć klucz API. Model można również hostować samodzielnie, instalując vLLM 0.24.0 lub nowszy i serwując wagi.
Wydanie Leanstral 1.5 przez Mistral AI stanowi znaczący krok naprzód w dziedzinie automatycznego dowodzenia twierdzeń i weryfikacji kodu. Jego zdolność do rozwiązywania złożonych problemów matematycznych i identyfikowania błędów w oprogramowaniu, przy jednoczesnym zachowaniu efektywności kosztowej, może mieć istotne implikacje dla rozwoju bezpiecznego i poprawnego oprogramowania oraz dla badań w dziedzinie sztucznej inteligencji i matematyki formalnej. Warto obserwować, jak te możliwości zostaną zaadaptowane w praktyce przez społeczność deweloperów i naukowców.
Źródło: marktechpost.com
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Czytaj dalej

Midjourney żąda od hollywoodzkich studiów ujawnienia szczegółów ich własnego wykorzystania AI
W ramach toczącego się sporu prawnego, startup Midjourney domaga się od trzech wielkich studiów filmowych ujawnienia, w jaki sposób same wykorzystują sztuczną inteligencję.
Redakcja Aigest1 godz. temu

Współzałożyciel OpenAI przewiduje przyszłość bez interfejsów i nauki oprogramowania
Greg Brockman z OpenAI uważa, że przyszłość AI to niewidzialne agenty wykonujące zadania, eliminując potrzebę uczenia się oprogramowania. Wizja ta stoi w kontraście do dotychczasowych produktów firmy.
Redakcja Aigest9 godz. temu

Badanie na 26 000 studentów ujawnia ukryte koszty uczenia się z AI, widoczne po dwóch latach
Nowe badanie z Chin wskazuje, że choć studenci używający AI szybciej odrabiają prace domowe i uzyskują lepsze oceny, to ich wyniki na egzaminach znacząco spadają, a pełne konsekwencje ujawniają się dopiero po około dwóch
Redakcja Aigest9 godz. temu

Google DeepMind i A24 łączą siły w partnerstwie badawczym
Google DeepMind i studio filmowe A24 ogłosiły nawiązanie unikalnego partnerstwa badawczego, mającego na celu rozwijanie nowych narzędzi i technik dla twórców filmowych.
Redakcja Aigestwczoraj

Anthropic rozważa współpracę z Samsungiem nad własnym chipem AI
Anthropic, jeden z czołowych graczy na rynku sztucznej inteligencji, prowadzi rozmowy z Samsungiem na temat stworzenia niestandardowego chipa AI. Ruch ten wpisuje się w szerszy trend firm technologicznych dążących do uni
Redakcja Aigest2 dni temu

AI przyspiesza doskonałość operacyjną, ale wymaga solidnych podstaw procesowych
Sztuczna inteligencja rewolucjonizuje sposób pracy, a organizacje z ugruntowanymi ramami procesowymi są najlepiej przygotowane do wykorzystania jej potencjału w celu osiągnięcia doskonałości operacyjnej na dużą skalę.
Redakcja Aigest2 dni temu
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.