Cyfrowe czytanie


Trzeci etap to rozpoznawanie całych słów. Program porównuje zestawy znaków ze słowami zapisanymi w słowniku danego języka. Właśnie dzięki tej opcji rozpoznawanie tekstu trwa znacznie krócej niż kiedyś, a także zdecydowanie zmniejszyła się liczba błędnych rozpoznań.

Czwartym etapem jest korekta efektów rozpoznawania. W zależności od wersji programu korektorem może być sam użytkownik, ale w najnowszych wersjach zajmuje się tym program. Zawarte w nim mechanizmy rozpoznawania przystępują do tzw. głosowania w wypadku wątpliwości co do znaków bądź wyrazów. Wygląda to mniej więcej tak jak w sejmie: który wariant poprawki otrzyma więcej głosów, ten zostanie wprowadzony do dokumentu.

I wreszcie ostatni etap: formatowanie dokumentu wyjściowego. Aplikacja OCR zapisuje dokument w jednym z dostępnych formatów wyjściowych, np. w MS Word, zachowując na życzenie użytkownika także układ tekstu i ilustracji maksymalnie zbliżony do oryginału.

Na poprawność rozpoznawania wpływa wiele czynników. Najważniejsze z nich to: jakość dokumentu oryginalnego oraz nośnika, na którym został wydrukowany, elementy ozdobne i kolorowe w tle, mogące zaciemnić obraz, skomplikowanie języka i znaków narodowych, wielkość czcionki oraz jej wariacje (ozdobniki), a także jakość skanera i rozdzielczość skanowania.

Na rynku znajdziesz wiele programów OCR. Niestety, tylko kilka z nich jest sprzedawanych w sieci detalicznej. Pozostałe można znaleźć jako dodatki do oferowanych skanerów. Oto przegląd programów OCR, które można kupić w Polsce.

Recognita 5.0

Cyfrowe czytanie
Recognita Plus 5.0 to najnowsza wersja najpopularniejszego programu OCR, dostępnego na naszym rynku. Jego producentem jest węgierska firma Recognita, wchodząca obecnie w skład koncernu Caere, producenta zaawansowanych systemów OCR.

Program rozpoznaje aż sto czternaście języków, opartych na alfabecie łacińskim, greckim i cyrylicy, a także większość języków wschodniej i południowo-wschodniej Europy. Co istotne dla polskiego użytkownika, oferuje w pełni spolszczone menu oraz system pomocy.

Recognita Plus 5.0 korzysta ze złożonych algorytmów matematycznych, tworzących całość technologii rozpoznawania, składającej się m.in. z analizy konturów, technologii samoupewniania, zintegrowanej analizy językowej. Oferuje sześć poziomów dokładności i kontroli prędkości rozpoznawania. Program rozpoznaje znaki niezależnie od kroju czcionki, a także od rozmiarów w przedziale od 6 do 72 punktów.

Aplikacja zawiera unikatową funkcję ręcznej korekty tekstu, w trakcie której użytkownik może korzystać ze słownika ortograficznego oferowanego przez program lub własnego. Program może się automatycznie zatrzymywać przy każdym wyrazie, którego brak w słowniku, przy nierozpoznanych znakach lub znakach rozpoznanych z małą pewnością.

Są one natychmiast wyświetlane i można je porównać z powiększonym obrazem odpowiadającej im części oryginału. Dane znaki czy słowa mogą być od razu zmieniane w rozpoznanym tekście.

Osobom z upośledzeniem wzroku Recognita Plus 5.0 oferuje program do konwersji dokumentów brajlowskich i głośnego ich odczytywania przez komputer wyposażony w syntezator mowy z odpowiednim oprogramowaniem.

Program ma mechanizmy umożliwiające rozpoznawanie dokumentu i zapisanie go w pliku z zachowaniem układu strony oryginału (wraz z tabelami i ilustracjami).

Recognita Plus 5.0 współpracuje z popularnymi aplikacjami biurowymi, umożliwiając szybki dostęp do OCR bezpośrednio z ich poziomu. Oferuje także użytkownikowi duży wybór formatów wyjściowych, w tym formaty najpopularniejszych aplikacji biurowych (m.in. MS Word i Excell).

Fine Reader 4.0 Professional PL

Cyfrowe czytanie
Fine Reader 4.0 Professional PL jest obecnie najgroźniejszym rywalem Recognity 5.0. Wprawdzie rozpoznaje mniej języków, bo "tylko" pięćdziesiąt trzy i dysponuje dwudziestoma słownikami, w tym języka polskiego, jednak doskonale rozpoznaje tekst i robi mało błędów. Można dołączać do niego własne słowniki.

Rozpoznaje zarówno tekst drukowany w różnych układach graficznych, jak i tabele. Świetnie radzi sobie tak z tekstem drukowanym, jak z pismem ozdobnym czy kodami kreskowym. Bez zastrzeżeń rozpoznaje także dokumenty wielojęzyczne i - podobnie jak Recognita 5.0 - cyrylicę.

Fine Reader 4.0 Professional PL ma prosty w obsłudze interfejs użytkownika, w tym funkcje automatyzujące pracę. Dostępny jest też kreator, który pomaga optymalnie zeskanować dokument.

Program zapisuje dane wyjściowe w popularnych formatach, m.in. w DOC, RTF. XLS, TXT, CSV, DBF i HTML. Współpracuje ze wszystkimi skanerami ze sterownikami TWAIN.

Jako ciekawostkę dodam, że Fine Reader 4.0 Professional wyprodukowała rosyjska firma ABBYY, a jego jakość potwierdza opinię, iż nasi wschodni sąsiedzi mają doskonałych programistów.