Który syntezator mowy jest najlepszy? Test

Komputer może się komunikować nie tylko za pomocą komunikatów ekranowych. Po instalacji odpowiedniego oprogramowania przeczyta wszystkie komunikaty, e-maile czy napisy do filmu. Sprawdziliśmy, który syntezator mowy może się pochwalić poprawną wymową z uwzględnieniem wszystkich niuansów językowych i najbardziej naturalnym brzmieniem.


Współczesny syntezator mowy to narzędzie, nad którym pracuje cały sztab specjalistów. Głos ludzki jest generowany na podstawie próbek nagranych wcześniej przez lektora w profesjonalnym studiu. Wymaga to dużych nakładów pracy, środków finansowych oraz wiedzy, dlatego na całym świecie jest zaledwie kilka najwyższej jakości syntezatorów mowy, a najlepszy opracowali Polacy.

IVONA

Polski syntezator mowy wraz z pakietem dodatkowych narzędzi pozwalających na wykorzystanie pełni możliwości to aktualnie najlepsze oprogramowanie tego typu na świecie.

Pod względem jakości mowy i funkcjonalności pozostawia konkurencję daleko w tyle. Dysponuje czterema głosami w języku polskim (dwa męskie i dwa żeńskie), charakteryzującymi się bardzo naturalnym brzmieniem.

Użytkownik ma często wrażenie, że słucha innego człowieka, a nie maszyny.

Polski syntezator mowy IVONA jest absolutnie bezkonkurenycjny.

Polski syntezator mowy IVONA jest absolutnie bezkonkurenycjny.

Do syntezatora mowy dołączana jest bezpłatna aplikacja IVONA Player - odtwarzacz umożliwiający odczytywanie tekstów z dowolnych aplikacji, np. edytora tekstu czy przeglądarki internetowej. Za dodatkową opłatą można otrzymać IVONA Readera, odczytującego np. pliki tekstowe, e-booki, e-maile, komunikaty ze Skype'a czy kanałów RSS. Wszystkie teksty łatwo przekształcić na audiobooki w postaci plików MP3. Do dyspozycji są także zegarek-przypominacz oraz monitor poczty przychodzącej.

Dant Free

Włączenie dubbingu w oglądanym filmie nie wymaga żadnej konfiguracji. Wystarczy odpowiedni odtwarzacz i syntezator mowy.

Włączenie dubbingu w oglądanym filmie nie wymaga żadnej konfiguracji. Wystarczy odpowiedni odtwarzacz i syntezator mowy.

To aplikacja bezpłatna, ale od pewnego czasu nierozwijana. Zasada jej działania opiera się nie na nagranych wcześniej próbkach głosu lektora, lecz na obliczeniach matematycznych. Efektem jest nienaturalnie brzmiący głos, co przy szybszej wymowie utrudnia zrozumienie tekstu.

Syntezator mowy Dant dość dobrze radzi sobie z interpretowaniem znaków interpunkcyjnych. Bez trudu również odczytuje liczby oraz wiele popularnych skrótów i zapożyczeń z języka angielskiego. Jego główne zadanie to odczytywanie tekstowej zawartości systemowego Schowka, ale ma wiele dodatkowych funkcji.

Poda aktualną godzinę, skonwertuje tekst na format WAV oraz odczyta zawartość pliku TXT. Nie jest trudny w użyciu, ale wygląda mało atrakcyjnie.

Niuanse językowe

Nawet bardzo naturalne brzmienie głosu syntezatora nie pomoże, jeśli oprogramowanie nim sterujące nie zostanie wcześnie przygotowane na trudne i nietypowe sytuacje. Każda aplikacja tego typu włada tylko jednym językiem naraz. Wiadomo jednak, że w każdym z języków, także polskim, używa się wielu zapożyczeń. Jak więc zachowa się aplikacja dysponująca polskim głosem po natrafieniu na takie słowo, jak "weekend"? Czy usłyszymy "weekend" czy "łikend"?

Kolejnym problemem są skróty. Nie ma możliwości technicznych, aby zaimplementować w programie wszystkie ich interpretacje. Aplikacja musi być na tyle "inteligentna", żeby nie próbować odczytać danego skrótu jako całego wyrazu, bo stanie się niezrozumiały. Najlepszym w tej sytuacji rozwiązaniem jest literowanie. Nie powinno jednak zabraknąć pełnego, poprawnego odczytu najbardziej popularnych skrótów jak np. mgr, dr, ul., czy spółka z o.o. Następnym wyzwaniem dla syntezatorów jest poprawna interpretacja liczb i innych zapisów matematycznych.

Za przykład niech posłuży nam zapis "1234". Zwykły syntezator odczyta go jako ciąg "jeden, dwa, trzy, cztery", nieco lepszy wypowie: "jeden tysiąc dwieście trzydzieści cztery", a wyspecjalizowany: "tysiąc dwieście trzydzieści cztery".