Wstępne rozpoznanie


Czasami oprócz słowników ogólnych stosowane są słowniki specjalistyczne, np. prawnicze lub medyczne, jednak w żadnym z testowanych programów nie było takich słowników do języka polskiego. Oczywiście zawsze możliwe jest tworzenie słowników użytkownika - podobnie jak w Wordzie.

Każdy dobry program OCR wyposażony jest też w moduł uczenia, przy czym funkcją tego modułu jest nie tylko korygowanie rozpoznawanych znaków, choć to, oczywiście, ważna funkcja. Dodatkowo jednak możesz tworzyć własne słowniki znaków (których nie należy mylić ze słownikami w znaczeniu opisanym nieco wcześniej). Jeśli na przykład w twoich dokumentach często pojawia się ikona telefonu, wówczas możesz nauczyć program OCR, aby właściwie ją rozpoznawał i zamieniał na odpowiedni znak, zamiast traktować jako element graficzny w tekście. Zwykle tego typu słowniki znaków można w dowolny sposób uaktywniać i wyłączać.

Bardzo ważne są funkcje wstępnej obróbki obrazu, jeszcze przed rozpoznaniem tekstu - m.in. automatyczne prostowanie szpalty tekstu (nie zawsze uda się idealnie prosto ułożyć stronę w skanerze, a lekki skos może niekorzystnie wpływać na precyzję OCR-u) oraz automatyczne usuwanie zabrudzeń z tła. Skuteczne działanie tej funkcji jest wbrew pozorom bardzo istotne. Na przykład Readiris nie do końca poradził sobie z tym zadaniem w wypadku jednego z naszych testowych plików, czego efektem było dużo małych ramek, zawierających dziwne znaczki, umieszczonych w wygenerowanym dokumencie Worda.

W przypadku skomplikowanych dokumentów kolosalne znaczenie mają odpowiednie narzędzia do oznaczania bloków tekstowych i określania ich charakteru. Oczywiście każdy program wyposażony jest w moduł analizy strony, ale w przypadku złożonych układów strony ich skuteczność bywa różna. Jednym z trudniejszych materiałów są gazety codzienne i prasa kolorowa, gdzie wszelkiego rodzaju ramki, podpisy pod zdjęciami, wyróżnienia i inne elementy typograficzne mogą wprowadzać spore zamieszanie. Dlatego każdy program pozwala ręcznie wskazać, które obszary powinny być potraktowane jako tekst, w jakiej kolejności powinny być rozpoznawane, a także jakiego rodzaju danych program powinien oczekiwać na danym obszarze. Można znacząco podnieść dokładność rozpoznawania, wskazując na przykład, że w określonej ramce są tylko dane w układzie tabelarycznym, a w innym miejscu tekst jest na przykład dwuszpaltowy.

Wstępne rozpoznanie

Wyniki testów programów rozpoznających tekst

Wreszcie bardzo istotne są formaty wyjściowe. Każdy program OCR powinien móc zapisywać wynik rozpoznawania w różnych formatach, przy czym im większa elastyczność w tym zakresie, tym lepiej. Jako pewien standard przyjmuje się eksport do formatów Worda, Excela, PowerPointa, PDF, tekstowego i HTML.

FineReader 7.0 potrafi na przykład dodatkowo zapisywać rozpoznany tekst w formacie XML (zgodnym z Wordem 2003). W wypadku większości formatów można ustawić różne opcje, określające, jak mają być traktowane różne elementy materiału źródłowego i jak wiernie powinny być przeniesione.

Jeśli chcesz zachować układ oryginalnego dokumentu, wówczas efekt końcowy nie zawsze będzie zadowalający. Najlepiej z tym zadaniem radzi sobie znowu FineReader 7.0, natomiast Readiris 8.0 - bardzo przeciętnie. Generowane przez niego dokumenty zawierają zbyt wiele elementów zbędnych i trudnych do szybkiej edycji.

FineReader 7.0 Professional

Wstępne rozpoznanie

Jeden z najbardziej znanych programów na rynku okazuje się zwycięzcą w naszym teście. Powodów jest wiele, ale najważniejszy to rewelacyjna dokładność rozpoznawania.

Czasami kolejne wersje programów wprowadzane są głównie z powodów marketingowych - bo o starych wersjach ludzie zapominają. Jednak FineReader 7.0 nie jest przykładem takiej strategii. Poprawiona dokładność rozpoznawania sprawia, że w wielu przypadkach program ten jest po prostu bezbłędny. Gdy do tego dodać polski, wygodny interfejs oraz rozbudowane możliwości, wówczas jest prawie idealny.

W najważniejszym teście rozpoznawania FineReader poradził sobie doskonale praktycznie z każdą z naszych próbek. W przypadku dobrej jakości wydruków laserowych okazał się bezbłędny - nie musieliśmy poprawić nawet przecinka. Jednak nawet w trudniejszych tekstach - na przykład drukowanych różnymi rodzajami czcionek na drukarce atramentowej, zdarzały mu się najwyżej pojedyncze pomyłki. Najpoważniejszym zadaniem był, oczywiście, artykuł z kolorowego miesięcznika - skomplikowany układ strony zawierającej ilustracje stawia spore wymagania wobec programu. W tym przypadku nie obyło się bez małych problemów, ale ogólny wynik rozpoznawania był bardzo dobry. Niepotrzebnie tylko zachowane zostały w tekście wynikowym znaki przeniesienia, mimo że włączyliśmy opcję ich usuwania. Ostatecznie jednak dokładność rozpoznawania wyniosła aż 99,8 procent, co stanowi wynik naprawdę doskonały. Bardziej obrazowo - na typowej stronie PC Worlda mogą wystąpić maksymalnie dwa błędnie rozpoznane wyrazy.

Wrażenie robi również niezwykle rozbudowana i skutecznie działająca funkcja eksportu rozpoznanych tekstów. Mnogość dostępnych formatów (m.in. najnowszy Word XML) i pełna kontrola nad ich opcjami pozwalają idealnie dopasować efekt końcowy do potrzeb.

Jedyną wadą jest nieco mniejsza niż u konkurentów prędkość rozpoznawania, ale to cena nadzwyczajnej precyzji. Różnice nie są wielkie i odczuwalne mogłyby być dopiero w wielostronicowych dokumentach.