Baidu prezentuje „Unlimited OCR”: Przełom w przetwarzaniu wielostronicowych dokumentów dzięki mechanizmowi uwagi inspiro
Baidu opracowało innowacyjny model OCR, który przetwarza dziesiątki stron dokumentów w jednym przebiegu, utrzymując stałe zużycie pamięci i szybkość, niezależnie od długości tekstu. Kluczem jest przeprojektowany mechaniz

Naukowcy z Baidu opracowali innowacyjny model optycznego rozpoznawania znaków (OCR) nazwany „Unlimited OCR”, który jest zdolny do przetwarzania dziesiątek stron dokumentów w jednym przebiegu wnioskowania. Kluczową innowacją jest przeprojektowany mechanizm uwagi, który utrzymuje stałe zużycie pamięci i szybkość działania, niezależnie od długości przetwarzanego tekstu. To znacząco odróżnia go od istniejących modeli OCR, które zazwyczaj nie radzą sobie z więcej niż dziesięcioma stronami w jednym cyklu.
Przełamanie bariery pamięciowej dzięki R-SWA
Dotychczasowe modele OCR, wykorzystujące modele językowe jako dekodery, napotykały na problem rosnącego zużycia pamięci i spadku szybkości wraz z wydłużaniem się tekstu. Wynikało to z działania bufora KV cache, który przechowuje wszystkie wcześniej przetworzone tokeny. W praktyce, aby obejść to ograniczenie, systemy przetwarzały dokumenty strona po stronie, resetując pamięć podręczną po każdym kroku.
Baidu podeszło do problemu, czerpiąc inspirację z ludzkiego sposobu przetwarzania informacji. Jak zauważają badacze, osoba przepisująca książkę nie czyta ponownie wszystkiego, co już napisała. Skupia się na źródle, ostatnich kilku znakach i kolejnym, który ma zapisać, pozwalając starszym fragmentom „zanikać” w pamięci. Model Unlimited OCR naśladuje ten schemat dzięki mechanizmowi nazwanemu Reference Sliding Window Attention (R-SWA).
Zasada działania R-SWA polega na tym, że każdy generowany token nadal ma dostęp do wszystkich tokenów referencyjnych (wizualnych tokenów obrazu i promptu). Jednak w przypadku wcześniej wygenerowanych danych wyjściowych, model odwołuje się jedynie do ostatnich 128 tokenów. Dzięki temu bufor KV cache pozostaje stały przez cały proces, zamiast rosnąć liniowo wraz z długością danych wyjściowych. Co ważne, R-SWA wyłącza tokeny wizualne z tych przejściowych zmian stanu, zapewniając, że są one kodowane raz i pozostają niezmienione, co zapobiega rozmyciu cech obrazu i degradacji rozpoznawania.
Architektura i wydajność Unlimited OCR
Unlimited OCR bazuje na otwartym modelu Deepseek OCR. Baidu wykorzystuje swój DeepEncoder, łącząc go z architekturą mixture-of-experts o trzech miliardach parametrów, z czego około 500 milionów jest aktywnych podczas wnioskowania. DeepEncoder kompresuje obraz PDF o rozdzielczości 1024x1024 pikseli do 256 tokenów. Model oferuje dwa tryby rozdzielczości: „Base” dla dokumentów wielostronicowych i „Gundam” z dynamiczną rozdzielczością dla pojedynczych stron. Każda standardowa warstwa uwagi w dekoderze została zastąpiona przez R-SWA.
Szkolenie modelu odbyło się na około dwóch milionach próbek dokumentów, z czego 90% stanowiły dane jednostronicowe, a 10% wielostronicowe. Dane wielostronicowe zostały syntetycznie stworzone poprzez łączenie pojedynczych stron w dokumenty o długości od dwóch do pięćdziesięciu stron. Trening trwał przez 4000 kroków na ośmiu procesorach graficznych Nvidia A800.
Unlimited OCR osiąga 93% ogólnej dokładności w benchmarku dokumentów OmniDocBench v1.5, co stanowi sześć punktów procentowych powyżej bazowego Deepseek OCR. Na nowszej wersji v1.6, model osiąga 93,92%, plasując się na szczycie rankingów systemów end-to-end. W testach długoterminowych, gdzie model przetwarza wiele stron w jednym przebiegu, wskaźnik błędów pozostaje poniżej 0,11 nawet po przekroczeniu 40 stron. Badacze przypisują pozostałe błędy ograniczeniom rozdzielczości DeepEncodera w trybie Base, a nie utracie kontekstu przez R-SWA.
Stała pamięć podręczna przekłada się również na znaczący wzrost szybkości. W trybie Base, Unlimited OCR osiąga 5580 tokenów na sekundę w porównaniu do 4951 dla Deepseek OCR, co oznacza wzrost o 12,7%. W teoretycznym porównaniu górnych granic z idealnym równoległym przetwarzaniem, model Baidu przewyższa bazowy o 35% przy około 6000 tokenów wyjściowych, podczas gdy przepustowość bazowego modelu spada wraz ze wzrostem długości.
Przyszłość i szersze zastosowania
Obecnie stała długość kontekstu modelu, wynosząca 32 000 tokenów, ogranicza liczbę stron, które może przetworzyć, ponieważ tokeny wizualne kumulują się z każdą dodatkową stroną. Baidu planuje wkrótce szkolić modele z 128 000 tokenów i ostatecznie stworzyć pulę wstępnego ładowania, która pozwoli modelowi samodzielnie pobierać odpowiednie bloki KV, niczym przewracanie stron w książce. Autorzy widzą również możliwość zastosowania R-SWA w innych zadaniach opartych na referencjach, takich jak rozpoznawanie mowy i tłumaczenie.
Rozwój Unlimited OCR wpisuje się w szersze dążenia Baidu w dziedzinie sztucznej inteligencji, czego przykładem jest niedawne wprowadzenie multimodalnego modelu Ernie 5.1. Technologia ta ma potencjał nie tylko w rozpoznawaniu dokumentów, ale także w rozszerzaniu pamięci modeli językowych dla długich historii czatów czy dużych dokumentów, co może prowadzić do dalszych innowacji w efektywności przetwarzania informacji w AI.
Źródło: the-decoder.com
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Czytaj dalej

Baidu udostępnia Unlimited OCR: model 3B do analizy długich dokumentów z płaską pamięcią KV
Baidu udostępniło Unlimited OCR, model do rozpoznawania tekstu w długich dokumentach, który utrzymuje stałą pamięć podręczną KV, co zapobiega spowolnieniom przy rosnącej długości tekstu.
Redakcja Aigest25 cze 2026

Midjourney żąda od hollywoodzkich studiów ujawnienia szczegółów ich własnego wykorzystania AI
W ramach toczącego się sporu prawnego, startup Midjourney domaga się od trzech wielkich studiów filmowych ujawnienia, w jaki sposób same wykorzystują sztuczną inteligencję.
Redakcja Aigestwczoraj

Współzałożyciel OpenAI przewiduje przyszłość bez interfejsów i nauki oprogramowania
Greg Brockman z OpenAI uważa, że przyszłość AI to niewidzialne agenty wykonujące zadania, eliminując potrzebę uczenia się oprogramowania. Wizja ta stoi w kontraście do dotychczasowych produktów firmy.
Redakcja Aigestwczoraj

Badanie na 26 000 studentów ujawnia ukryte koszty uczenia się z AI, widoczne po dwóch latach
Nowe badanie z Chin wskazuje, że choć studenci używający AI szybciej odrabiają prace domowe i uzyskują lepsze oceny, to ich wyniki na egzaminach znacząco spadają, a pełne konsekwencje ujawniają się dopiero po około dwóch
Redakcja Aigestwczoraj

Mistral AI prezentuje Leanstral 1.5: Model agenta kodu dla Lean 4 rozwiązujący 587 problemów PutnamBench
Mistral AI wprowadził Leanstral 1.5, model agenta kodu dla Lean 4, który znacząco poprawia automatyczne dowodzenie twierdzeń i inżynierię dowodów, osiągając imponujące wyniki w benchmarkach.
Redakcja Aigestwczoraj

Google DeepMind i A24 łączą siły w partnerstwie badawczym
Google DeepMind i studio filmowe A24 ogłosiły nawiązanie unikalnego partnerstwa badawczego, mającego na celu rozwijanie nowych narzędzi i technik dla twórców filmowych.
Redakcja Aigest2 dni temu
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.