OCR po europejsku

OmniPage Pro 9.0, najnowszy program firmy Caere do cyfrowego rozpoznawania pisma, ma zapewniać, według obietnicy producenta, niemal stuprocentową zgodność wyników z oryginałem.

OmniPage Pro 9.0, najnowszy program firmy Caere do cyfrowego rozpoznawania pisma, ma zapewniać, według obietnicy producenta, niemal stuprocentową zgodność wyników z oryginałem.

OCR po europejsku

Główne okno OmniPage'a.

Nowością w dziewiątej wersji OmniPage'a jest możliwość przetwarzania kolorowych dokumentów. Do aplikacji dołączono sterowniki TWAIN większości dostępnych na rynku skanerów. W skład pakietu wchodzą również słowniki kilku języków europejskich (niestety, brakuje polskiego) pozwalające zwiększyć stopień rozpoznawania. Oprócz tego można tworzyć własne słowniki lub korzystać ze słowników użytkowników sporządzonych na potrzeby edytora Word.

Niewątpliwą zaletą OmniPage'a jest wyjątkowo prosta instalacja i asystent OCR (OCR Wizard), który krok po kroku prowadzi użytkownika przez cały proces rozpoznawania pisma i pomaga w doborze parametrów (np. języka, układu dokumentu). Obszar roboczy OmniPage'a jest podzielony na 4 strefy: paski narzędzi, miniaturowy podgląd poszczególnych stron wzorca, oryginału i dokumentu wynikowego. Dekompozycja dokumentu wzorcowego polega na podzieleniu go na bloki tekstowe i graficzne, które mogą być rozpoznawane automatycznie przez aplikację lub definiowane manualnie. Użytkownik ujmuje w tym celu wybrane fragmenty tekstu w prostokąty lub wieloboki. OmniPage oferuje narzędzia do sortowania bloków, obracania strony i poziomowania jej zawartości. Jeżeli chcesz zmienić rozdzielczość lub zakres skanowania, musisz zmodyfikować ustawienia w sterowniku TWAIN. Program nie ma takich możliwości. Gdy skanowany dokument jest ułożony w niewłaściwym kierunku, aplikacja automatycznie obraca stronę, aż uzyska prawidłowy wynik. Wyrównanie tekstu w dokumencie nie może odbiegać o więcej niż 10 stopni od poziomego.

OCR po europejsku

Kreator OCR.

Po przeanalizowaniu pierwszej strony program wyświetla na żądanie słowa, przy których ma wątpliwości, czy prawidłowo je rozpoznaje. Przy mało kontrastowych dokumentach, w których tekst słabo odznacza się od tła, zaleca się uaktywnić opcję skanowania wzorców kolorowych. W przypadku niewyraźnych liter (np. dokumentów z drukarki igłowej) warto włączyć rozpoznawanie macierzowe (opcja Dot matrix or monospaced w menu Process * Process Settings). Obie operacje zwiększą zgodność tekstu wynikowego z oryginałem. Jednak stopień zgodności wspomniany na wstępie artykułu uzyskaliśmy tylko przy czystych dokumentach wydrukowanych na drukarce laserowej przy dużej rozdzielczości. W praktyce rzadko będziesz miał do czynienia z takimi wzorcami. A im gorszy wzorzec, tym bardziej zafałszowane wyniki. Największe problemy występowały podczas przetwarzania słabo czytelnych faksów (rozdzielczość: 200 dpi). W skrajnych przypadkach przepisanie tekstu zajmowało mniej czasu niż poprawianie błędów po OCR. Ponadto OmniPage nie radził sobie najlepiej z przechwytywaniem atrybutów czcionki i układu strony. Wprawdzie prawidłowo dekomponował strony źródłowe, lecz nie wstawiał elementów graficznych i ilustracji w ich pierwotne miejsca. Zamiast tego umieszczał je na końcu dokumentu wynikowego. Podczas naszych testów nie przejął z dokumentu wzorcowego trójszpaltowego układu strony. Atutem OmniPage'a jest rozpoznawanie tabel.

OCR po europejsku

Okno sprawdzania wyników.

Aby przetwarzać dokument wynikowy w edytorze tekstowym, musisz zapisać go w odpowiednim formacie lub przenieść do wybranej aplikacji poprzez Schowek. Wprawdzie OmniPage rozszerza menu Worda i Excela o dwa polecenia (Acquire Text i Acquire Text Settings) pozwalające rozpoznawać pismo z poziomu tych aplikacji, lecz w wymienionym trybie użytkownik nie ma dostępu do wszystkich funkcji OCR. Najnowsza wersja OmniPage'a Pro może pochwalić się aż 26 filtrami umożliwiającymi eksport gotowego tekstu do znanych aplikacji (przede wszystkim edytorów tekstowych i arkuszy kalkulacyjnych).

W chwili oddawania numeru do druku OmniPage 9.0 nie jest dystrybuowany na obszarze Polski. Jest dołączany do niektórych skanerów. Wersja demonstracyjna ograniczona jest do 15 uruchomień i jest dostępna pod adresami www.caere.com/products/omnipage/demoop.asp i www.caere.de (rozmiar pliku: 40 MB). Program kosztuje 1295 DEM, aktualizacja z dowolnego programu OCR (nawet z programu Wocar, który jest bezpłatny dla użytkowników prywatnych - persoweb.francenet.fr/ ~cambien/eindex.html, 2 MB) - 299 DEM, zaś aktualizacja z OmniPage Pro 8.0 - 199 DEM.