Baidu udostępnia Unlimited OCR: model 3B do analizy długich dokumentów z płaską pamięcią KV

Baidu udostępniło Unlimited OCR, model do rozpoznawania tekstu w długich dokumentach, który utrzymuje stałą pamięć podręczną KV, co zapobiega spowolnieniom przy rosnącej długości tekstu.

Redakcja Aigest

25 czerwca 2026

Udostępnij

Baidu udostępnia Unlimited OCR: model 3B do analizy długich dokumentów z płaską pamięcią KV — Fot. MarkTechPost

Baidu udostępniło Unlimited OCR, innowacyjny model do optycznego rozpoznawania znaków (OCR), który radzi sobie z długimi dokumentami w jednym przebiegu. Kluczową innowacją jest utrzymywanie stałej pamięci podręcznej uwagi (KV cache), co eliminuje problem spowolnienia, typowy dla większości modeli OCR przetwarzających obszerne teksty. Model ten, oparty na architekturze DeepSeek OCR, został udostępniony 22 czerwca 2026 roku.

Innowacyjne podejście do pamięci podręcznej

Tradycyjne modele OCR, w miarę generowania kolejnych tokenów, zwiększają rozmiar pamięci podręcznej KV, co prowadzi do wzrostu zużycia pamięci i opóźnień. To sprawia, że przetwarzanie dziesiątek stron staje się niepraktyczne. Unlimited OCR rozwiązuje ten problem, zastępując standardową uwagę dekodera projektem, który utrzymuje stałe zużycie pamięci. Model ten wykorzystuje DeepEncoder i dekoder Mixture-of-Experts (MoE). Całkowita liczba parametrów wynosi 3 miliardy, jednak podczas wnioskowania aktywowanych jest jedynie 500 milionów.

DeepEncoder pełni funkcję silnika kompresji, łącząc SAM-ViT z uwagą okienkową oraz CLIP-ViT z uwagą globalną. Na etapie połączenia stosuje 16-krotną kompresję tokenów, co redukuje obraz PDF o rozdzielczości 1024x1024 pikseli do zaledwie 256 tokenów wizualnych. Mniejsza liczba tokenów wejściowych oznacza mniejsze wstępne wypełnienie pamięci.

DeepEncoder obsługuje pięć trybów rozdzielczości, z czego Unlimited OCR wykorzystuje dwa: tryb „Base” działa w rozdzielczości 1024x1024 dla dokumentów wielostronicowych, natomiast tryb „Gundam” używa dynamicznej rozdzielczości dla pojedynczych stron.

Mechanizm Reference Sliding Window Attention

Kluczowym wkładem jest mechanizm Reference Sliding Window Attention (R-SWA). Standardowa uwaga wielogłowicowa (Multi-Head Attention) przechowuje klucz i wartość dla każdego tokenu, co powoduje, że pamięć podręczna rośnie wraz z długością wyjścia. R-SWA zrywa z tą zależnością. Każdy generowany token odwołuje się do wszystkich tokenów referencyjnych (wizualnych i promptu) oraz do poprzednich n tokenów wyjściowych (domyślnie 128). Starsze tokeny są usuwane, co sprawia, że pamięć podręczna staje się stałą kolejką o rozmiarze m + n. Dzięki temu zużycie pamięci i opóźnienia na krok pozostają stałe, niezależnie od długości wyjścia.

Zespół badawczy porównuje to rozwiązanie do „miękkiego zapominania”, podobnego do osoby przepisującej książkę, która patrzy na oryginał i kilka ostatnich słów, zamiast czytać wszystko od początku. Tokeny wizualne nie podlegają aktualizacjom stanu, co zapobiega progresywnemu rozmyciu, obserwowanemu w uwadze liniowej.

Wyniki i wydajność

Unlimited OCR nie był szkolony od podstaw. Zespół badawczy kontynuował szkolenie z punktu kontrolnego DeepSeek OCR przez 4000 kroków, zamrażając DeepEncoder i trenując jedynie dekoder. Szkolenie wykorzystało około 2 milionów próbek dokumentów na 8x16 procesorach graficznych A800. Podział danych (9:1) faworyzował dane jednostronicowe, a próbki wielostronicowe tworzono przez konkatenację.

Model został oceniony na zestawach danych OmniDocBench v1.5 i v1.6. Na v1.5 Unlimited OCR osiągnął wynik 93.23, co przewyższa bazowy DeepSeek OCR o 6.22 punktu. Na OmniDocBench v1.6 model uzyskał 93.92, co jest najwyższym wynikiem w porównaniu zawartym w pracy badawczej. Poprawa wydajności dotyczy rozpoznawania tekstu, formuł i tabel.

Model wykazuje również znaczną poprawę szybkości. W trybie Base na OmniDocBench, Unlimited OCR osiąga 5580 tokenów na sekundę (TPS), podczas gdy DeepSeek OCR osiąga 4951 TPS, co stanowi wzrost o 12.7%. Przy dłuższych wyjściach, np. przy limicie 6000 tokenów, DeepSeek OCR pozostaje w tyle za Unlimited OCR o 35%.

Stała pamięć podręczna sprawia, że Unlimited OCR jest szczególnie przydatny w scenariuszach, w których systemy przetwarzające dokumenty strona po stronie radzą sobie słabo. Model jest dostępny do użytku poprzez bibliotekę Transformers, wymagając trust_remote_code=True i procesora graficznego CUDA.

Znaczenie dla przyszłości OCR

Udostępnienie Unlimited OCR przez Baidu stanowi znaczący krok naprzód w dziedzinie optycznego rozpoznawania znaków, szczególnie w kontekście przetwarzania długich i złożonych dokumentów. Rozwiązanie problemu rosnącego zużycia pamięci podręcznej otwiera nowe możliwości dla aplikacji wymagających szybkiej i efektywnej analizy obszernych tekstów, takich jak dokumenty prawne, raporty finansowe czy prace naukowe. Innowacje takie jak Reference Sliding Window Attention mogą stać się standardem w przyszłych modelach językowych, torując drogę do bardziej wydajnych i skalowalnych systemów AI. To posunięcie Baidu podkreśla rosnące znaczenie otwartych innowacji w rozwoju sztucznej inteligencji i jej praktycznych zastosowań w biznesie i nauce.

Źródło: marktechpost.com

#sztuczna inteligencja #OCR #Baidu #przetwarzanie dokumentów #DeepSeek OCR

Udostępnij

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Narzędzia AI

Gemini 3.5 Flash z wbudowaną funkcją obsługi komputera

Google zintegrowało funkcję obsługi komputera bezpośrednio z modelem Gemini 3.5 Flash, umożliwiając tworzenie zaawansowanych agentów AI zdolnych do interakcji z różnymi platformami.

Redakcja Aigest19 godz. temu

#Gemini #agenci AI

Biznes AI

Hollywood ugina się przed OpenAI: Film o Samie Altmannie bez dystrybucji

Wielkie studia filmowe odmawiają dystrybucji filmu Luki Guadagnino o Samie Altmannie, co budzi obawy o niezależność Hollywood w krytykowaniu gigantów technologicznych.

Redakcja Aigestwczoraj

#OpenAI #Hollywood

Biznes AI

Claude Tag od Anthropic: AI, która uczy się firmy przez Slacka

Anthropic wprowadza Claude Tag, nową funkcję AI w Slacku, która ma działać jak "zawsze aktywny Claude". Narzędzie uczy się kontekstu organizacji, integrując się z komunikacją zespołową.

Redakcja Aigestwczoraj

#Claude Tag #Slack

Newsy

ByteDance prezentuje Seedance 2.5 – generowanie wideo AI przekracza 30 sekund

ByteDance, właściciel TikToka, zaprezentował Seedance 2.5, model AI zdolny do generowania pojedynczych klipów wideo o długości do 30 sekund. To przełom w dziedzinie tworzenia treści wideo za pomocą sztucznej inteligencji

Redakcja Aigest2 dni temu

#sztuczna inteligencja #ByteDance

Biznes AI

Cory Doctorow o bańce AI: Jak uniknąć katastrofy i dlaczego to największy hazard w historii technologii

Znany autor science fiction i dziennikarz technologiczny Cory Doctorow analizuje zjawisko bańki AI, ostrzegając przed jej potencjalnie katastrofalnymi konsekwencjami i proponując sposoby na jej przebicie.

Redakcja Aigest2 dni temu

#sztuczna inteligencja #Cory Doctorow

Biznes AI

ASML: 400-milionowa maszyna napędzająca przyszłość produkcji chipów

Holenderska firma ASML, kluczowy gracz w branży mikrochipów, wprowadza na rynek nową maszynę litograficzną o wartości 400 milionów dolarów. Urządzenie to, wykorzystujące ekstremalne światło ultrafioletowe (EUV), ma klucz

Redakcja Aigest2 dni temu

#sztuczna inteligencja #ASML

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.