Wstępne rozpoznanie


Recognita OmniPage Pro 12 Standard

Wstępne rozpoznanie

Dosłownie o krok za zwycięzcą testu plasuje się program równie znany, powszechnie stosowany i doceniany.

Recognita to w branży OCR synonim rozpoznawania tekstu - program znany na rynku od wielu lat doczekał się kilkunastu kolejnych wersji i został dopracowany w najmniejszych szczegółach. Podobnie jak FineReader, cechuje się świetną dokładnością, bardzo wygodnym interfejsem, a do tego pracuje bardzo szybko.

Z naszymi testowymi dokumentami Recognita poradziła sobie dosłownie o włos gorzej niż FineReader. Średnia dokładność wyniosła 99,7 procent, czyli zaledwie o 0,1 procent gorzej od zwycięzcy. Szczegółowy rozkład wyników był jednak nieco inny - Recognita rzadziej pracowała bezbłędnie, natomiast osiągnęła nieco lepsze rezultaty w tekstach najtrudniejszych, m.in. podczas rozpoznawania kolorowej strony z pisma.

Pod względem przygotowania tekstu do rozpoznawania i późniejszej jego obróbki (weryfikacja poprawności) Recognita osiąga najwyższy poziom. Dostępna jest oczywiście bogata baza słownikowa, zawierająca również słowniki specjalistyczne. We wszystkich operacjach pomaga bardzo wygodny i efektywny interfejs. Mniej doświadczeni użytkownicy mogą skorzystać z funkcji kreatora, który krok po kroku prowadzi przez proces rozpoznawania tekstu.

Funkcje eksportu są mniej rozbudowane niż w FineReaderze. Choć wybór jest spory, to jednak w porównaniu z konkurencją dostępne formaty i ich opcje nie robią oszałamiającego wrażenia. Także pełne zachowanie oryginalnego układu dokumentu jest trudniejsze. Sytuacja wygląda lepiej w przypadku wersji Office (zamiast Standard), jednak kosztuje ona ponad 2000 zł, więc nie jest przeznaczona do małego biura czy domu.

Jako pewną ciekawostkę można potraktować wbudowany w program moduł syntezy mowy, który potrafi odczytywać rozpoznane teksty. Firma wykorzystuje własne rozwiązania, ponieważ jest też jednym z głównych producentów oprogramowania do syntezy i rozpoznawania mowy. Niestety, wbudowany moduł nie potrafi radzić sobie z polskim tekstem i dlatego pozostanie raczej gadżetem.

Readiris 8 Pro Corporate Edition

Wstępne rozpoznanie

Choć to program najdroższy w zestawieniu, to przegrywa z konkurencją pod względem precyzji rozpoznawania i wygody obsługi.

Readiris w starszych wersjach to może najbardziej rozpowszechniony program do OCR na świecie wśród użytkowników indywidualnych, ponieważ jest dodawany do zestawów przez licznych producentów skanerów, w tym przez takich gigantów, jak HP. To, że jest produktem masowym, nie gwarantuje, niestety, świetnych osiągów.

Readiris wypadł zaskakująco gorzej od dwóch konkurentów praktycznie we wszystkich testowych dokumentach. Różnica na niekorzyść była zwykle znacząca, a czasami nawet bardzo. Program zupełnie nie poradził sobie ze stroną z kolorowego magazynu. Zaskakująco skomplikowane okazało się też proste zadanie rozpoznania wydruku z drukarki laserowej. Gdy tekst przygotowany był najbardziej typową czcionką Times New Roman, program osiągnął, podobnie jak konkurenci, 100 procentową dokładność. Gdy jednak wykorzystano mniej popularną (ale również standardową) czcionkę Garamond, dokładność spadła do 96,3 procent. A taki wynik oznacza ponad 20 błędnie rozpoznanych wyrazów na typowej stronie z PCWK. Na pocieszenie pozostaje to, że program działa bardzo szybko. Cóż jednak z tego, skoro potem sporo czasu stracisz na ręczne poprawianie tekstu.

Zadanie będzie tym bardziej żmudne, że program nie oferuje wbudowanego edytora tekstu, który umożliwiałby łatwą edycję z jednoczesnym podglądem oryginalnego dokumentu. Najpierw konieczny jest eksport rozpoznanego pliku do zewnętrznego programu. Funkcja eksportu również działa przeciętnie. Ma problemy z zachowaniem układu strony (zdecydowanie nadużywane są ramki tekstowe w edytorze Word) i często nie potrafi poprawnie połączyć kolejnych wierszy tekstu w akapity.

Interfejs programu wprawdzie wygląda na nieco przestarzały, ale wszystkie narzędzia związane ze wstępną obróbką obrazu są pod ręką. Można wyrównać wiersze, zaznaczyć pola tekstowe i określić ich charakter, a także zdefiniować kilka języków, występujących w rozpoznawanym tekście.