Cyfrowym okiem

W przyszłości komputery będą mogły bez trudu odczytywać odręczne pismo i zamieniać je na postać cyfrową. Niewykluczone też, że kiedyś wyspecjalizowane oprogramowanie OCR zastąpi grafologów i psychologów, określając psychologiczny typ człowieka na podstawie charakteru pisma.

W przyszłości komputery będą mogły bez trudu odczytywać odręczne pismo i zamieniać je na postać cyfrową. Niewykluczone też, że kiedyś wyspecjalizowane oprogramowanie OCR zastąpi grafologów i psychologów, określając psychologiczny typ człowieka na podstawie charakteru pisma.

Takie zastosowania maszyn wciąż jeszcze trącą fantastyką, choć są coraz bliższe realizacji. Faktem natomiast stała się najnowsza wersja najpopularniejszego na naszym rynku programu OCR - Recognita Plus 5.0

Program został wyposażony w nowy system rozpoznawania znaków, którego technologię opracowały firmy Recognita i Caere. Innymi słowy: Recognita w procesie rozpoznawania korzysta także z mechanizmów Omnipage Pro. Użytkownicy poprzedniej wersji dysponowali pięcioma poziomami dokładności rozpoznawania. W omawianej wersji znajduje się szósty poziom, posługujący się nowym modułem rozpoznawania podczas pracy z jedenastu podstawowymi językami Europy i Ameryki. Szósty poziom dokładności, choć najwolniejszy, pozwala na poprawne odczytanie dokumentów złej jakości (np. faksów czy zniszczonych gazet).

Recognita Plus 5.0 została wyposażona w moduł korekcji skrzywień obrazu. Dzięki niemu rozpoznanie zniekształconego tekstu, będącego efektem skanowania z grubej książki, nie stanowi już większego problemu. Nowy algorytm eliminacji skrzywienia koncentruje się na wzmocnieniu konturów znaków do celów optymalnego rozpoznawania.

Nowy OCR ma możliwość rozpoznawania języków zapisywanych cyrylicą (m.in. rosyjski, bułgarski, serbski itp.) Tym samym liczba rozpoznawanych języków wzrosła do 114. Nie ma także problemu z rozpoznawaniem symbolu Euro, co ma znaczenie w przypadku dokumentów finansowych pochodzących z krajów należących do unii walutowej. Nowością jest także umiejętność rozpoznawania alfabetu Braille'a, co z pewnością ucieszy osoby z wadami wzroku. Wypukłe znaki na stronie takiego dokumentu przy skanowaniu rzucają cień, który na obrazie wygląda jak małe półksiężyce.

Znając ich układ, program jest w stanie przyporządkować im znaki alfabetu łacińskiego, a następnie odtworzyć je w zewnętrznym syntezatorze mowy.

Niestety, Recognita Plus 5.0 na razie rozpoznaje tylko język angielski i węgierski. Pozostałe, w tym polski, są jeszcze w przygotowaniu i będą sukcesywnie dodawane do całości.

Jeżeli użytkownik chce, aby dokument po przetworzeniu miał postać oryginału, tzn. aby zachował ten sam układ kolumn, akapitów, ramek, tabel i ilustracji, Recognita Plus 5.0 stanie na wysokości zadania. Zeskanowany i rozpoznany dokument zawierający różne elementy nie

będące tekstem zostanie zapisany w postaci cyfrowej (np. jako plik Worda lub Excela) z zachowaniem układu strony i rozdzielczości obrazów. Ta funkcja na pewno okaże się nieoceniona podczas prac z zakresu małej poligrafii.

Problemem w rozpoznawaniu dokumentów zawierających liczby była interpretacja przecinka dziesiętnego. W wielu językach używa się kropki, w innych - przecinka, a w jeszcze innych - dwukropka. W wersji 5.0 programu użytkownik może sam określić, jaki symbol ma pełnić funkcję przecinka dziesiętnego, a aplikacja odpowiednio sformatuje liczby w tabelach i arkuszach kalkulacyjnych.

Recognita Plus 5.0 korzysta z własnych konwerterów do MS Worda i MS Excela z pakietu MS Office 97/2000. Formaty wyjściowe zapewniają możliwość eksportu z utrzymaniem pełnego formatu rozpoznanego tekstu i lepszym zachowywaniem oryginalnego układu strony, atrybutów czcionki, a także tabel i arkuszy kalkulacyjnych. Dzięki lepszej integracji z aplikacjami biurowymi możliwe jest także rozpoznawanie tekstu bezpośrednio z Worda czy Excela 6.0/ 7.0/97/2000 przez kliknięcie ikony Recognity na pasku zadań. Rezultaty rozpoznawania zostaną natychmiast dołączone do dokumentu otwartego w danej aplikacji.

Recognita Plus 5.0 została wyposażona w nowy weryfikator dynamiczny. Jego zadaniem jest śledzenie pozycji edycyjnej kursora w rozpoznanym tekście w trakcie dokonywania korekty. W dymku, tuż nad pozycją edycji, stale wyświetla obraz bieżącego znaku (po skanowaniu) wraz ze znakami sąsiednimi. Dzięki temu, w przypadku, gdy program nie jest pewny swojego rozpoznania, użytkownik może bez większych trudności ręcznie wprowadzić korektę bezpośrednio na ekranie.

Nowy OCR został także wzbogacony o funkcję dwustronicowych wzorców obszarów, która umożliwia łatwe przetwarzanie książek czy tekstów wielostronicowych, co znacznie usprawnia pracę.

Recognita Plus 5.0 współpracuje z wieloma modelami skanerów dostępnych na rynku, w tym także z wszystkimi korzystającymi ze sterowników TWAIN. Firma Recognita zmieniła taktykę cenową. W tej chwili jej programy będą mniejszym obciążeniem kieszeni przeciętnego użytkownika. W dodatku istnieje możliwość zakupienia Recognity Plus 5.0 jako tzw. Crossupgrade, czyli aktualizacji do aplikacji OCR konkurencyjnej firmy.


Zobacz również