Głosem pisanie

W rubryce "Technologie jutra" przedstawiliśmy ostatnio dość obszernie budowę i funkcjonowanie serca programu do rozpoznawania mowy, czyli Speech Engine. Dziś pora pokazać, jak złożona teoria realizuje się w praktyce.

W rubryce "Technologie jutra" przedstawiliśmy ostatnio dość obszernie budowę i funkcjonowanie serca programu do rozpoznawania mowy, czyli Speech Engine. Dziś pora pokazać, jak złożona teoria realizuje się w praktyce.

Obecnie na świecie liczą się tylko cztery firmy produkujące tego rodzaju oprogramowanie. Dragon Sys. to pionier w dziedzinie rozpoznawania mowy ciągłej. Jego produkt, Dragon Naturally Speaking, 3 lata temu zdystansował konkurencję, bo umożliwiał mówienie do komputera bez konieczności robienia kłopotliwych dla użytkownika pauz pomiędzy kolejnymi wyrazami. Dziś jest to standard, lecz w tym czasie było to prawdziwe "wejście smoka". Ostatnia edycja produktu ma numer 5.0.

Druga z firm to belgijska Lernount & Hauspie, która zaczynała od tworzenia narodowych wersji programów, a obecnie specjalizuje się w branży rozpoznawania mowy i automatycznych przekładów. Jej nowy produkt to Voice Xpress 5.0. Co prawda nie nadąża za konkurencją, jeśli chodzi o dokładność rozpoznania, ale ma wiele innych cech, dzięki którym może się przydać w pracy i w domu.

IBM jest reprezentowany przez rozwijany od kilku lat produkt ViaVoice. Nowa wersja, oznaczona indeksem Pro Edition 8.0, to aplikacja, którą prócz wyjątkowej wydajności Speech Engine charakteryzuje doskonała integracja z MS Outlookiem 2000 i MS Wordem 2000, w znaczącym stopniu ułatwiająca codzienne kontakty z komputerem.

Firma Philips jest często podawana jako przykład koncernu, którego produkty, mimo dużego zaangażowania działów badawczych i speców od reklamy, rzadko należą do tzw. towarów z górnej półki. Tak jest również w przypadku ostatniej edycji programu FreeSpeech 2000. Aplikacja opiera się na przestarzałej wersji, zakupionej od IBM Speech Engine, czego rezultatem są kiepskie parametry rozpoznania i długi czas nauki.

Wiele osób wie o co najmniej dziwnych powiązaniach kapitałowych na rynku oprogramowania SR. Dwa lata temu Microsoft zainwestował 45 mln dolarów w firmę Lernount & Hauspie, która po roku wykupiła w całości Dragon Sys. Trudno powiedzieć, w jakim stopniu współpraca ta wpłynęła na fakt, że następca pakietu Office 2000 oznaczony cyfrą 10 będzie miał zaimplementowane rozpoznawanie mowy, ale nietrudno przewidzieć, co się stanie z produktami innych firm, gdy gigant z Redmont udostępni tę funkcję "za darmo". W ten sposób, chcąc nie chcąc, świat znów nie będzie miał wyboru w kwestii oprogramowania, które, tak jak kilka lat temu przeglądarki internetowe, na pewno zmieni oblicze komputerów.

Dwa komponenty

Interaktywny podręcznik programu Dragon Naturally Speaking 5.0. Dzięki niemu możesz szybko i bezboleśnie nauczyć się podstawowych funkcji.

Interaktywny podręcznik programu Dragon Naturally Speaking 5.0. Dzięki niemu możesz szybko i bezboleśnie nauczyć się podstawowych funkcji.

Aplikacja do rozpoznawania mowy (Speech Recognition - SR) składa się z dwóch komponentów. Pierwszy to implementacja złożonego algorytmu matematycznego, tzw. Speech Engine (SE), najważniejszy element każdego programu, odpowiedzialny za rozpoznanie obarczone jak najmniejszą liczbą błędów. W ramce "Rozpoznawanie mowy w pigułce" przedstawiliśmy w sposób uproszczony, na czym polega przetwarzanie realizowane przez SE.

Drugi komponent to interfejs pozwalający zainstalować, dostosować i używać Speech Engine zarówno do pisania, jak i do sterowania zasobami systemu operacyjnego. Realizuje skomplikowany proces instalacyjny oraz pozwala na dostrajanie mechanizmu rozpoznawania do indywidualnych cech głosu użytkownika. Odpowiada również za przetwarzanie języka naturalnego, niezbędne do wykonywania poleceń głosowych.

Instalacja

Zanim będziesz mógł mówić do komputera, Speech Engine musi się dostosować do zastanych warunków audio, procesora oraz nauczyć Twojego głosu. Z tego powodu instalacja aplikacji do rozpoznawania mowy trwa dość długo i jest złożona, ale przebiega bardzo podobnie w przypadku każdego z prezentowanych programów.

Najlepsze okno korekcyjne znajduje się w programie Dragon Naturally Speaking. Możesz wysłuchać poprawnej frazy albo nagrać ją na swój sposób. Ważne jest również, że okno umożliwia korektę grup wyrazów.

Najlepsze okno korekcyjne znajduje się w programie Dragon Naturally Speaking. Możesz wysłuchać poprawnej frazy albo nagrać ją na swój sposób. Ważne jest również, że okno umożliwia korektę grup wyrazów.

Na początku trzeba wskazać programowi instalacyjnemu odpowiednie urządzenie audio. Nawet gdy masz jedną kartę dźwiękową, program instalacyjny pokaże Ci ich więcej, bo na fizycznej strukturze karty opiera się wiele nakładek programowych, do których dostęp ma system. Wybierz właściwie. Jeśli się pomylisz, cała instalacja pójdzie na marne. Programy SR zakładają, całkiem słusznie zresztą, że wymiana urządzenia audio, którego charakterystyka próbkowania rzutuje na dalszy proces obróbki, musi pociągnąć za sobą reinstalację Speech Engine, czyli faktycznie całego programu.

Drugi etap instalacji to utworzenie profilu użytkownika. Możesz to wykonywać wiele razy podczas normalnej pracy programu, jednak przynajmniej raz w czasie instalacji. Kreowanie nowego użytkownika składa się z czterech etapów.

Najpierw program zbiera ogólne informacje. W zależności od aplikacji prosi o podanie wieku, płci oraz języka komunikacji. Programy SR są bardzo czułe na najdrobniejsze zmiany akcentów, dlatego jeśli posługujemy się językiem angielskim, program daje nam do wyboru kilka jego odmian: US English, UK English, SE Asia English itp. Najbardziej rozbudowanych informacji potrzebuje Voice Xpress, najmniej FreeSpeech, który chce tylko wiedzieć, czy ma do czynienia z kobietą czy mężczyzną.

Następnie instalator prosi o podanie urządzenia wejściowego do karty dźwiękowej. Najczęściej jest to tzw. headset, czyli zakładane na głowę połączenie słuchawki z mikrofonem. Oprócz standardu możesz również korzystać z mikrofonu wolno stojącego lub podłączanego przez złącze USB. Bardzo często robi się notatki głosowe za pomocą dyktafonu, a później chce je zobaczyć, na papierze. Aby to uzyskać, jako urządzenie wejściowe trzeba zadeklarować nagrywarkę MPEG.

Na kolejnym etapie instalator wykonuje trzy czynności: prosi Cię o ciszę i nagrywa dźwięki tła. Następnie prosi o przeczytanie kilku zdań, a program testuje jakość przetworników analogowo-cyfrowych karty dźwiękowej. Po chwili następuje pierwsze uruchomienie Speech Engine w postaci zminimalizowanej. W zależności od aplikacji czytasz jedno lub dwa krótkie zdania albo pojawiające się na monitorze wyrazy. Jeśli którakolwiek z procedur opisanych w tym akapicie nie zakończy się sukcesem, instalator nie przechodzi dalej, doradzając wymianę sprzętu. Najczęściej przyczyną jest zbyt duży poziom szumów w Twoim otoczeniu.

Ostatni etap instalacji polega na czytaniu tekstu, a w tym czasie program dostraja się do Twojej wymowy. Im krótszy jest ten etap, tym program jest lepszy. Rekordy bije FreeSpeech, który w ogóle nie wymaga tego etapu, ale jest to okupione tragiczną wprost jakością rozpoznania. Typowe wartości wahają się od 6 do 15 minut.

Na koniec uwaga dla tych, którzy chcieliby używać programu ViaVoice 8.0. Firma IBM zgotowała dość przykrą niespodziankę wszystkim, którzy wybrali w ustawieniach regionalnych język inny niż angielski. Program instaluje się prawidłowo, jednak na ostatnim etapie, podczas inicjacji

Speech Engine zawiesza się, a czasami blokuje cały system. Ponieważ zmiana języka wymaga restartu komputera, używanie tego programu w polskich warunkach jest bardzo kłopotliwe, a szkoda, bo oferuje najwyższą dokładność rozpoznania.


Zobacz również