Zecer bitów

Jednym z najbardziej znanych narzędzi do rozpoznawania znaków podczas skanowania dokumentów jest bez wątpienia Recognita OmniPage PRO. Najnowsza wersja tego programu potrafi rozpoznawać teksty w 114 językach, z polskim włącznie, i co ważne, w ramach jednego dokumentu może pracować z kilkoma z nich jednocześnie.


Jednym z najbardziej znanych narzędzi do rozpoznawania znaków podczas skanowania dokumentów jest bez wątpienia Recognita OmniPage PRO. Najnowsza wersja tego programu potrafi rozpoznawać teksty w 114 językach, z polskim włącznie, i co ważne, w ramach jednego dokumentu może pracować z kilkoma z nich jednocześnie.

Uproszczony do granic możliwości interfejs zawiera, oprócz dwóch paneli obszarów roboczych (Panel obrazu i Edytor tekstu), umieszczone poziomo nietypowe przyciski opcji głównych oraz standardowe, rozwijane menu.

Uproszczony do granic możliwości interfejs zawiera, oprócz dwóch paneli obszarów roboczych (Panel obrazu i Edytor tekstu), umieszczone poziomo nietypowe przyciski opcji głównych oraz standardowe, rozwijane menu.

Program rozpoznaje znaki drukowane w określonych stylach i krojach, a nie odręczne pismo - chyba że dostatecznie zbliżone. W stosunku do poprzedniej wersji poprawiono dokładność algorytmów rozpoznających (o prawie 35 procent), dodano też opcję dynamicznego wyznaczania obszarów: to, co zaznaczone w zeskanowanym, jeszcze nieprzekształconym podglądzie, jest na bieżąco analizowane i zamieniane na tekst. Bardziej zaawansowane są też mechanizmy zachowania układu strony, a także ulepszono obsługę formatu PDF. Interfejs jest zaprojektowany ergonomicznie, większość zadań można wykonać za pomocą kilku głównych przycisków, umieszczonych pod paskiem menu. Godna podkreślenia jest też porządna polonizacja programu. W zależności od rodzaju przekształcanego na postać elektroniczną dokumentu trzeba wybrać odpowiedni tryb skanowania - czarno-biały, z odcieniami szarości lub kolorowy. Jest to ważne o tyle, że bezpośrednio wpływa na czas wczytywania materiału do komputera oraz na jakość wprowadzonych informacji. Można też wybrać pobieranie danych bezpośrednio z pliku (TIF czy faksowego DCX). Następnym etapem jest określenie układu i struktury strony - jak rozmieszczony jest tekst, ile zawiera tabel, a ile grafik. Używanie trybu automatycznego nie zawsze się sprawdza, bo można wtedy pomylić np. grafikę z arkuszem. Dlatego warto wybrać jeden z predefiniowanych wzorców lub utworzyć własny układ strony: jeżeli masz dużo dokumentów o takim samym wyglądzie, to rozwiązanie jest najlepsze.

Praca w oknie roboczym - oznaczanie rodzajów obszarów.

Praca w oknie roboczym - oznaczanie rodzajów obszarów.

Dokładność rozpoznawania można szybko sprawdzić. W oknie Panel obrazu pokazywany jest wskanowany materiał i wydzielone obszary: tekst, tabele, grafika oraz miejsca, które nie są brane pod uwagę w procesie rozpoznawania. Drugie z okien - Edytor tekstu - wyświetla tekst już rozpoznany i przedstawia go w trzech trybach - prostym, podzielonym na akapity lub TrueDoc - z pełnym formatowaniem. Wszystkie niepoprawnie lub niepewnie rozpoznane wyrazy są podkreślone. Ostatnie z okien (Menedżer dokumentów), to bardzo wygodna baza danych, informująca o tym, które dokumenty są w trakcie edycji, ile zawierają wyrazów, a przede wszystkim, ile z tych wyrazów zostało niepoprawnie rozpoznanych.

Duże przyciski opcji głównych, w tym Asystenta OCR, są zawsze pod ręką, niezasłaniane przez okna robocze.

Duże przyciski opcji głównych, w tym Asystenta OCR, są zawsze pod ręką, niezasłaniane przez okna robocze.

Domyślnie włączoną opcją jest Korekta, która uruchamia się zaraz po zakończeniu analizy dokumentu, ale dzięki temu, że program zawiera obszerny słownik języka polskiego, poprawianie błędów odbywa się szybko. Zwiększenie efektywności mechanizmu rozpoznawania (który pomylił np. literę c z literą e) odbywa się na dwa sposoby. Pierwszy z nich, automatyczny (IntelliTrain), na bieżąco analizuje wprowadzane poprawki, powiększając dzięki temu swoją bazę wiedzy. Drugi wymaga pracowitego uczenia programu i zapisywania jego efektów w tzw. plikach uczenia. Dobrym rozwiązaniem jest funkcja Strona ciągła, która umożliwia tworzenie dokumentów wielostronicowych, co w połączeniu z możliwością obsługi skanerów z podajnikiem (ADF) oraz funkcją automatycznego skanowania w określonych odstępach czasu jest w praktyce, zwłaszcza biurowej i studenckiej, bardzo wygodne.

Jeżeli wprowadzamy do komputera materiały dobrej jakości (wydruki z drukarek atramentowych, laserowych, książki) o małym stopniu złożoności (mało dodatkowych elementów typu grafiki, tabele itp.), program pracuje naprawdę dobrze, a poziom błędów nie jest duży i wynosi około 10 procent, ale automatyczny system wyznaczania obszarów radzi sobie nawet z dokumentami bardziej złożonymi pod względem graficznym. W wypadku bardzo skomplikowanych stron, zawierających wiele różnorakich elementów, program jednak może się pogubić. Należy wtedy narzędziami do wyznaczania obszaru samemu ustalić, co ma być potraktowane jako tekst, co jako grafika, a co pominąć. Dużo gorzej OmniPage radzi sobie natomiast z materiałami złej jakości graficznej i słabym oraz nierównomiernym (nawet w obrębie jednego znaku) stopniem zaczernienia - faksy na papierze termicznym, wydruki z drukarki igłowej czy kiepskie kserokopie. Przeszkadza też brak możliwości ustalenia końcowej rozdzielczości skanowanego materiału.

Pomimo tych kilku niedociągnięć, prostota obsługi, mnogość obsługiwanych formatów i możliwość automatyzacji pracy czynią z OmniPage 12 Pro Recognity produkt godny polecenia, zarówno w biurze, jak i do użytku domowego.