Rozpoznanie na medal

Pojawia się kolejna wersja znanej aplikacji służącej do rozpoznawania tekstu (OCR). Rosyjscy programiści proponują nowy FineReader w dwóch wersjach: Professional dla pojedynczego stanowiska oraz Corporate Edition do przetwarzania tekstów w sieci przez wielu użytkowników.

Pojawia się kolejna wersja znanej aplikacji służącej do rozpoznawania tekstu (OCR). Rosyjscy programiści proponują nowy FineReader w dwóch wersjach: Professional dla pojedynczego stanowiska oraz Corporate Edition do przetwarzania tekstów w sieci przez wielu użytkowników.

Różnice między obiema wersjami dotyczą głównie narzędzi obsługujących współpracę sieciową, a także odpowiednich narzędzi diagnostycznych (na przykład indywidualnych słowników uzupełnianych przez poszczególnych użytkowników). Opis i analiza Corporate Edition zajęłaby zbyt dużo miejsca, dlatego warto się skupić na wersji Professional, która przede wszystkim powinna zainteresować posiadacza domowego skanera.

FineReader 6.0 rozpoznaje nie tylko znaki, lecz wiele elementów formatowania - przede wszystkim tabel - zarówno na użytek edytora tekstu, jak i arkusza kalkulacyjnego. Praktycznie bez wielkich trudności rozpoznaje różne rodzaje czcionek (kroje, wielkości) oraz znaki wydrukowane w tzw. kontrze (jasne litery na ciemnym tle). Program może się także uczyć rozpoznawania nietypowych czcionek lub znaków i interpretować je zgodnie z założeniem użytkownika.

FineReader odczytuje teksty zapisane w postaci plików graficznych, w tym nawet wczesnych wersji PDF. Na uwagę zasługuje jeszcze ogromna liczba obsługiwanych języków - aż 177! Oczywiście, tak jak inne zaawansowane programy tego typu, FineReader 6.0 został wyposażony w słowniki i moduły sprawdzania poprawności pisowni.

Procedura testowa

Do przetestowania aplikacji użyliśmy kilku próbek: 1) tekstu polskiego z lat 80., pisanego na maszynie i powielonego na papierze bardzo słabej jakości; 2) tekstu niemieckiego z książki wydanej w roku 1989, z wyraźnym drukiem; 3) tekstu rosyjskiego z książki wydanej w roku 1954, ze średniej jakości drukiem i na pożółkłym papierze; 4) tekstu polskiego z lat 70., pisanego na maszynie; 5) odbitej przez kalkę kopii tego samego tekstu polskiego, dodatkowo na cienkim papierze bardzo złej jakości. Były one rozpoznawane w rozdzielczości od 200 do 600 dpi w odcieniach szarości oraz trybie LineArt. Nie poprawialiśmy tekstu przed zapisaniem w pliku.

Wyniki

Rezultaty można streścić najkrócej następująco - próbka nr 1: na ogólną liczbę znaków 1471 było tylko 7 błędów, głównie nieco zmienionego formatowania (w dwóch przypadkach chodziło o litery ź oraz š w niemieckich nazwiskach, a program był ustawiony na język polski); próbka nr 2: na ogólną liczbę znaków 3567 nie było żadnych błędów związanych ze znakami. Ten dwukolumnowy tekst dał się dobrze przekształcić w jednokolumnowy, ale między kolumnami był dodatkowy paragraf, który w celu połączenia tekstu trzeba było zlikwidować; próbka nr 3: na ogólną liczbę znaków alfabetu rosyjskiego 997 był tylko jeden błąd - niepotrzebna kropka. Wyniki w wypadku próbek 4 i 5 są również bardzo dobre (aczkolwiek nie idealne). Pokazuje je umieszczone na naszej płycie zestawienie wyników tej części testu.

Oceniając program, skanowaliśmy także tabele. Błędy pojawiały się tylko w próbkach bardzo skomplikowanych. Aplikacja dobrze uporała się z rozpoznawaniem przenoszonych wyrazów: lepiej i bez błędów z przenoszonym wyrazem w sąsiednich wierszach tej samej kolumny, gorzej, gdy kolejne wiersze są umieszczone w różnych kolumnach.

Korzystanie z aplikacji jest dość łatwe i intuicyjne. Podsumowując wyniki testu, program oceniamy bardzo wysoko. FineReader 6.0 poradził sobie z odczytaniem nawet takich dokumentów, których rozpoznanie za pomocą innych programów OCR kończyło się porażką.


Zobacz również