Aigest.
Newsy

Baidu udostępnia Unlimited OCR: model 3B do analizy długich dokumentów z płaską pamięcią KV

Baidu udostępniło Unlimited OCR, model do rozpoznawania tekstu w długich dokumentach, który utrzymuje stałą pamięć podręczną KV, co zapobiega spowolnieniom przy rosnącej długości tekstu.

RA

Udostępnij
Baidu udostępnia Unlimited OCR: model 3B do analizy długich dokumentów z płaską pamięcią KV
Fot. MarkTechPost

Baidu udostępniło Unlimited OCR, innowacyjny model do optycznego rozpoznawania znaków (OCR), który radzi sobie z długimi dokumentami w jednym przebiegu. Kluczową innowacją jest utrzymywanie stałej pamięci podręcznej uwagi (KV cache), co eliminuje problem spowolnienia, typowy dla większości modeli OCR przetwarzających obszerne teksty. Model ten, oparty na architekturze DeepSeek OCR, został udostępniony 22 czerwca 2026 roku.

Innowacyjne podejście do pamięci podręcznej

Tradycyjne modele OCR, w miarę generowania kolejnych tokenów, zwiększają rozmiar pamięci podręcznej KV, co prowadzi do wzrostu zużycia pamięci i opóźnień. To sprawia, że przetwarzanie dziesiątek stron staje się niepraktyczne. Unlimited OCR rozwiązuje ten problem, zastępując standardową uwagę dekodera projektem, który utrzymuje stałe zużycie pamięci. Model ten wykorzystuje DeepEncoder i dekoder Mixture-of-Experts (MoE). Całkowita liczba parametrów wynosi 3 miliardy, jednak podczas wnioskowania aktywowanych jest jedynie 500 milionów.

DeepEncoder pełni funkcję silnika kompresji, łącząc SAM-ViT z uwagą okienkową oraz CLIP-ViT z uwagą globalną. Na etapie połączenia stosuje 16-krotną kompresję tokenów, co redukuje obraz PDF o rozdzielczości 1024x1024 pikseli do zaledwie 256 tokenów wizualnych. Mniejsza liczba tokenów wejściowych oznacza mniejsze wstępne wypełnienie pamięci.

DeepEncoder obsługuje pięć trybów rozdzielczości, z czego Unlimited OCR wykorzystuje dwa: tryb „Base” działa w rozdzielczości 1024x1024 dla dokumentów wielostronicowych, natomiast tryb „Gundam” używa dynamicznej rozdzielczości dla pojedynczych stron.

Mechanizm Reference Sliding Window Attention

Kluczowym wkładem jest mechanizm Reference Sliding Window Attention (R-SWA). Standardowa uwaga wielogłowicowa (Multi-Head Attention) przechowuje klucz i wartość dla każdego tokenu, co powoduje, że pamięć podręczna rośnie wraz z długością wyjścia. R-SWA zrywa z tą zależnością. Każdy generowany token odwołuje się do wszystkich tokenów referencyjnych (wizualnych i promptu) oraz do poprzednich n tokenów wyjściowych (domyślnie 128). Starsze tokeny są usuwane, co sprawia, że pamięć podręczna staje się stałą kolejką o rozmiarze m + n. Dzięki temu zużycie pamięci i opóźnienia na krok pozostają stałe, niezależnie od długości wyjścia.

Zespół badawczy porównuje to rozwiązanie do „miękkiego zapominania”, podobnego do osoby przepisującej książkę, która patrzy na oryginał i kilka ostatnich słów, zamiast czytać wszystko od początku. Tokeny wizualne nie podlegają aktualizacjom stanu, co zapobiega progresywnemu rozmyciu, obserwowanemu w uwadze liniowej.

Wyniki i wydajność

Unlimited OCR nie był szkolony od podstaw. Zespół badawczy kontynuował szkolenie z punktu kontrolnego DeepSeek OCR przez 4000 kroków, zamrażając DeepEncoder i trenując jedynie dekoder. Szkolenie wykorzystało około 2 milionów próbek dokumentów na 8x16 procesorach graficznych A800. Podział danych (9:1) faworyzował dane jednostronicowe, a próbki wielostronicowe tworzono przez konkatenację.

Model został oceniony na zestawach danych OmniDocBench v1.5 i v1.6. Na v1.5 Unlimited OCR osiągnął wynik 93.23, co przewyższa bazowy DeepSeek OCR o 6.22 punktu. Na OmniDocBench v1.6 model uzyskał 93.92, co jest najwyższym wynikiem w porównaniu zawartym w pracy badawczej. Poprawa wydajności dotyczy rozpoznawania tekstu, formuł i tabel.

Model wykazuje również znaczną poprawę szybkości. W trybie Base na OmniDocBench, Unlimited OCR osiąga 5580 tokenów na sekundę (TPS), podczas gdy DeepSeek OCR osiąga 4951 TPS, co stanowi wzrost o 12.7%. Przy dłuższych wyjściach, np. przy limicie 6000 tokenów, DeepSeek OCR pozostaje w tyle za Unlimited OCR o 35%.

Stała pamięć podręczna sprawia, że Unlimited OCR jest szczególnie przydatny w scenariuszach, w których systemy przetwarzające dokumenty strona po stronie radzą sobie słabo. Model jest dostępny do użytku poprzez bibliotekę Transformers, wymagając trust_remote_code=True i procesora graficznego CUDA.

Znaczenie dla przyszłości OCR

Udostępnienie Unlimited OCR przez Baidu stanowi znaczący krok naprzód w dziedzinie optycznego rozpoznawania znaków, szczególnie w kontekście przetwarzania długich i złożonych dokumentów. Rozwiązanie problemu rosnącego zużycia pamięci podręcznej otwiera nowe możliwości dla aplikacji wymagających szybkiej i efektywnej analizy obszernych tekstów, takich jak dokumenty prawne, raporty finansowe czy prace naukowe. Innowacje takie jak Reference Sliding Window Attention mogą stać się standardem w przyszłych modelach językowych, torując drogę do bardziej wydajnych i skalowalnych systemów AI. To posunięcie Baidu podkreśla rosnące znaczenie otwartych innowacji w rozwoju sztucznej inteligencji i jej praktycznych zastosowań w biznesie i nauce.

Źródło: marktechpost.com

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Gemini 3.5 Flash z wbudowaną funkcją obsługi komputera
Hollywood ugina się przed OpenAI: Film o Samie Altmannie bez dystrybucji
Claude Tag od Anthropic: AI, która uczy się firmy przez Slacka
ByteDance prezentuje Seedance 2.5 – generowanie wideo AI przekracza 30 sekund
Cory Doctorow o bańce AI: Jak uniknąć katastrofy i dlaczego to największy hazard w historii technologii
ASML: 400-milionowa maszyna napędzająca przyszłość produkcji chipów

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.