Marilyn Monroe w audiotele?

Pracownicy laboratoriów amerykańskiego koncernu telekomunikacyjnego AT&T stworzyli oprogramowanie, które ich zdaniem zdolne jest do niemal idealnego naśladowania ludzkiego głosu. Program o nazwie Natural Voices potrafi odczytywać tekst pisany z zachowaniem zdefiniowanej intonacji, barwy głosu czy akcentu. Niedługo może dojść zatem do sytuacji, w której zegarynka będzie nas informowała o aktualnej godzinie głosem np. Marilyn Monroe. Może to jednak otworzyć drogę do nowego rodzaju oszustw i nadużyć.

Pracownicy laboratoriów amerykańskiego koncernu telekomunikacyjnego AT&T stworzyli oprogramowanie, które ich zdaniem zdolne jest do niemal idealnego naśladowania ludzkiego głosu. Program o nazwie Natural Voices potrafi odczytywać tekst pisany z zachowaniem zdefiniowanej intonacji, barwy głosu czy akcentu. Jak twierdzą twórcy oprogramowania, jego możliwości są tak duże, że można z jego pomocą z dużą dokładnością odtworzyć głosy np. nieżyjących już sławnych osobistości.

Przedstawiciele amerykańskiego potentata telekomunikacyjnego przyznają jednocześnie, że oprogramowanie ciągle nie jest w 100% dopracowane i wytrawny słuchacz może jeszcze wychwycić różnicę pomiędzy głosem danej osoby, a tym samym głosem reprodukowanym przez Natural Voices. Software ciągle generuje bowiem głos o minimalnie metalicznym pogłosie i ma charakterystyczną, nieco "płaską" intonację. Wiceprezes AT&T Labs Research, dr Lawrence R. Rabiner zapowiada jednak, że po zakończeniu prac nad programem, Natural Voices będzie generować głos niemożliwy do odróżnienia od oryginału. Oczywiście możliwe ma być także zdefiniowanie charakterystycznych cech głosu według własnego uznania.

Aktor - zawód na wymarciu?

Przedstawiciele AT&T uważają, że najbardziej zainteresowane wykorzystaniem Natural Voices powinny być duże koncerny posiadające zautomatyzowane infolinie telefoniczne. Prawdopodobnie zainteresują się nim również firmy prowadzące różnego usługi typu audiotele. Cena aplikacji nie została na razie ustalona. Najprawdopodobniej będzie ona wynosić kilka tysięcy USD.

Powstanie programu o tak ogromnych możliwościach w dziedzinie manipulacji głosem rodzi jednak wątpliwości natury moralnej i prawnej. Nie wiadomo na przykład, kto jest właścicielem praw do głosu nieżyjącej już znanej osobistości. Dr Rabiner uważa, że gwiazdy, podpisując kontrakty z wytwórniami filmowymi lub fonograficznymi będą teraz najprawdopodobniej dodawać specjalną klauzulę, rozstrzygającą tę właśnie kwestię.

Inne nasuwające się pytanie to takie, czy nowa technologia syntezy głosu wyeliminuje konieczność zatrudniania żywych aktorów do podkładania głosu do filmów animowanych (tzw. dubbingu). A może dzięki połączeniu z coraz doskonalszą i bliższą rzeczywistej grafiką komputerową prawdziwi, żywi aktorzy staną się zupełnie zbyteczni także przy kręceniu filmów?

"Halo, mówi Elvis"

Kolejną budzącą wątpliwości kwestią jest możliwość podkładania głosu wygenerowanego za pomocą komputera w rozmowach telefonicznych. Otwiera to szeroko furtkę do nadużyć, gdyż możliwe stanie się imitowanie czyjegoś głosu w całkowicie dowolny sposób. Wiceprezes AT&T uspokaja jednak, że na razie takie obawy nie mają podstaw. Osiągnięcie takich efektów wymaga bowiem dostarczenia programowi dużej ilości danych. By zasymulować głos konkretnej osoby konieczne jest wstępne nagranie 10 do nawet 40 godzin jej głosu. Niemożliwe jest więc takie "przerabianie" głosu w czasie rzeczywistym, co byłoby konieczne w trakcie rozmowy telefonicznej.

Rabiner nie zaprzecza jednak, że w przyszłości może to stanowić pewien problem. "Jeśli oprogramowanie do syntezy głosu osiągnie poziom, do którego zmierza, to przy coraz większych mocach obliczeniowych komputerów już niedługo nie będziemy mogli w 100% zaufać temu, co słyszymy. Zupełnie tak, jak już teraz nie możemy bezgranicznie ufać temu, co widzimy na fotografiach czy w telewizji", dodał.

Próbki głosu wygenerowanego za pomocą Natural Voices można znaleźć na stronie http://www.naturalvoices.att.com