Teraz masz głos

Jesteśmy świadkami przełomu technologicznego: aplikacje do rozpoznawania mowy wchodzą do powszechnego użytku.

Jesteśmy świadkami przełomu technologicznego: aplikacje do rozpoznawania mowy wchodzą do powszechnego użytku.

Dotychczas główną przeszkodą w rozpowszechnieniu tej technologii było czasochłonne i męczące uczenie aplikacji, jak mówi użytkownik. Jednak przy okazji prac nad nowymi wersjami programu, wykorzystującymi instrukcje SSE z procesora Pentium III, udało się opracować nowe algorytmy wyraźnie skracające czas nauki.

Pierwszym pakietem rozpoznawania mowy zoptymalizowanym do Pentium III jest Point & Speak 3.52 firmy Dragon Systems. Nasze testy ostatniej wersji beta wykazały, że dokonał się postęp: na komputerze z Pentium III i 128 MB pamięci RAM program potrzebował tylko 5 minut na czytanie tekstu przez użytkownika i kolejne 2 minuty na przetworzenie uzyskanych plików mowy. W porównaniu z produktami poprzedniej generacji ten program działa dużo szybciej. Zanika czasowy dystans między momentem otwarcia pudełka a rzeczywistym użytkowaniem programu.

Dokładność i szybkość aplikacji również były imponujące. Pierwsze próby dyktowania listu handlowego, artykułów z gazet i krótkich wiadomości e-mailowych za pomocą edytora Microsoft Word oraz Notatnika dały 88 procent dokładności. Później doszliśmy do 94 procent.

Point & Speak współpracuje z aplikacjami Microsoft Office, WordPerfect, Lotus Notes i innymi wymagającymi wpisywania tekstu. Nie można go jednak używać do otwierania, zamykania czy jakiegokolwiek innego sterowania aplikacjami, zaś poprawiania bądź formatowania tekstu dokonuje się ręcznie. Trzeba też dysponować komputerem z Pentium III i co najmniej 48 MB RAM.

Tymczasem konkurent Dragon Systems, firma Lernout & Hauspie, wprowadza do sprzedaży kolejną wersję swego programu do rozpoznawania mowy – Voice Xpress. Jako że stanowi ona znaczący postęp w stosunku do poprzedniego wcielenia o numerze 2.0 (przedstawionego raptem pół roku temu), zdecydowano się użyć od razu oznaczenia 4.0.

Voice Xpress 4.0 ściśle integruje się z pakietem Microsoft Office 2000 i wykorzystuje instrukcje SSE procesora Pentium III. Firma twierdzi, że dzięki znacznemu usprawnieniu algorytmu i optymalizacji do PIII udało się – podobnie jak w przypadku Point & Speak – skrócić czas nauki rozpoznawania mowy użytkownika z 40 do 5 minut. Również ilość błędów zmniejszono o 25 procent. Innymi słowy: uzyskano od 2 do 3 procent wzrostu dokładności. Voice Xpress powinien więc osiągać wskaźnik 95 procent poprawności.

Taka poprawa wydajności jest w pewnym stopniu wynikiem stosowania instrukcji SSE procesora Pentium III – na komputerach z tym CPU wyraźnie zmniejsza się czas rejestracji słów i uzyskuje rozpoznawanie prawie na bieżąco. Jednak ogólne przyspieszenie aplikacji nie jest zależne od procesora i odczują je również posiadacze PII i AMD.

Szkoda tylko, że dla polskich użytkowników rozpoznawanie mowy wciąż jest jeszcze pieśnią przyszłości.


Zobacz również