Powstaje translator tłumaczący w 200 językach

Koncern Meta tworzy oprogramowanie tłumaczące w 200 językach. Ma być oparte na licencji open-source.

Fot. Pixabay

Korporacja Meta, właściciel Facebooka, tworzy translator bazujący na sztucznej inteligencji (AI), który może tłumaczyć w 200 różnych językach. Wiele z nich to języki nieobsługiwane przez popularne komercyjne narzędzia. Firma udostępnia projekt na licencji open-source w nadziei, że znajdzie się wielu chętnych do korzystania z usługi oraz do jej rozwijania.

Model oparty na AI i uczeniu maszynowym jest częścią ambitnego projektu badawczo-rozwojowego Mety, mającego na celu stworzenie tak zwanego „uniwersalnego tłumacza mowy”, który firma uważa za ważny dla rozwoju wielu platform – od Facebooka i Instagrama po całe dziedziny, takie jak VR i AR. Tłumaczenie maszynowe nie tylko pozwoli firmie lepiej zrozumieć swoich użytkowników – a tym samym ulepszyć systemy reklamowe, które generują 97% jej przychodów – ale może również być podstawą przyszłych projektów, takich jak okulary rozszerzonej rzeczywistości.

Zobacz również:

  • Używasz Facebooka? Ponad 400 aplikacji może kraść Twoje dane!
  • Sztuczna inteligencja stworzyła akta spraw sądowych, których... nie było

Eksperci od tłumaczenia maszynowego powiedzieli magazynowi The Verge, że najnowsze badania Mety były ambitne i dokładne, ale jednocześnie jakość tłumaczeń modelu w rzadkich językach byłaby prawdopodobnie znacznie niższa niż w przypadku lepiej obsługiwanych języków, takich jak włoski czy niemiecki.

– Głównym wkładem są tutaj dane – powiedział The Verge profesor Alexander Fraser, ekspert w dziedzinie lingwistyki komputerowej z LMU Monachium w Niemczech. – Znaczenie ma 100 nowych języków [które można przetłumaczyć za pomocą modelu Mety].

Osiągnięcia Mety, nieco paradoksalnie, wynikają zarówno z zakresu, jak i przedmiotu jej badań. Podczas gdy większość modeli tłumaczenia maszynowego obsługuje tylko kilka języków, model Mety jest bardzo elastyczny: jest to jeden system, który może tłumaczyć w ponad 40 000 różnych kierunkach między 200 różnymi językami. Meta jednak jest również zainteresowana włączeniem do modelu „języków o niskich zasobach” – języków z mniej niż milionem publicznie dostępnych przetłumaczonych par zdań. W ich skład wchodzi wiele języków afrykańskich i indyjskich, które zwykle nie są obsługiwane przez komercyjne narzędzia do tłumaczenia maszynowego.

Specjalistka AI z koncernu Meta, Angela Fan, która pracowała nad projektem, powiedziała The Verge, że zespół zainspirował się niewielką uwagą, jaką poświęca się językom o niższych zasobach w dziedzinie tłumaczeń.

– Tłumaczenia często nie działają nawet dla języków, którymi mówimy, dlatego właśnie rozpoczęliśmy ten projekt – powiedziała Fan. – Nasza motywacja do ich włączenia to: co trzeba zrobić, aby stworzyć technologię tłumaczeniową, z której mogą skorzystać wszyscy?

Angela Fan twierdzi, że model opisany w artykule jest już testowany pod kątem wsparcia projektu, który pomaga redaktorom Wikipedii tłumaczyć artykuły na inne języki. Techniki opracowane podczas tworzenia modelu zostaną wkrótce zintegrowane z narzędziami tłumaczeniowymi Meta.

„Jak oceniasz tłumaczenie?”

Tłumaczenie jest zawsze trudnym zadaniem, a tłumaczenie maszynowe może być często niestabilne. W przypadku jego zastosowania na dużą skalę na platformach Mety nawet niewielka liczba błędów może przynieść katastrofalne skutki – tak jak stało się to w przypadku, gdy Facebook błędnie przetłumaczył treść postu palestyńskiego mężczyzny z „dzień dobry” na „zranić ich” ‒ co doprowadziło do jego aresztowania przez izraelską policję.

Aby ocenić jakość wyników nowego modelu, Meta stworzyła testowy zestaw danych składający się z 3001 par zdań dla każdego języka objętego modelem, z których każda została przetłumaczona z języka angielskiego na język docelowy przez kogoś, kto jest zarówno profesjonalnym tłumaczem, jak i native speakerem.

Naukowcy przepuścili te zdania przez swój model i porównali tłumaczenie maszynowe z ludzkimi zdaniami referencyjnymi, używając wzorca powszechnego w tłumaczeniu maszynowym znanego jako BLEU (BiLingual Evaluation Understudy).

BLEU pozwala naukowcom generować wyniki liczbowe mierzące dopasowanie par zdań, a Meta twierdzi, że jej model zapewnia poprawę o 44% w wynikach BLEU obsługiwanych języków (w porównaniu z poprzednimi, najnowocześniejszymi pracami). Jednak, jak to często bywa w badaniach nad sztuczną inteligencją, ocena postępów na podstawie punktów odniesienia wymaga kontekstu.

Chociaż wyniki BLEU pozwalają naukowcom porównywać względny postęp różnych modeli tłumaczenia maszynowego, nie zapewniają absolutnej miary zdolności oprogramowania do tworzenia tłumaczeń o jakości ludzkiej.

Nie należy zapominać, że zbiór danych Mety składa się z 3001 zdań, a każde z nich zostało przetłumaczone tylko przez jedną osobę. Stanowi to podstawę do oceny jakości tłumaczenia, ale całkowita moc wyrazu języka nie może zostać uchwycona przez tak mały jego fragment. Ten problem w żaden sposób nie ogranicza się do Mety – dobrze jednak pokazuje zakres wyzwań stojących przed tą dziedziną.

Christian Federmann, główny kierownik ds. badań, który pracuje nad tłumaczeniem maszynowym w firmie Microsoft, powiedział, że projekt Mety jako całość jest „godny pochwały” w jego pragnieniu rozszerzenia zdolności oprogramowania do tłumaczenia maszynowego mniej obsługiwanych języków. Jednak zauważył również, że same wyniki BLEU mogą zapewnić tylko ograniczoną jakość wyjściową.

– Tłumaczenie to twórczy proces, mogący skutkować wieloma różnymi tłumaczeniami, które są równie dobre (lub złe) ‒ powiedział Federmann magazynowi The Verge. – Niemożliwe jest podanie ogólnych poziomów „prawidłowości wyniku BLEU”, ponieważ są one zależne od użytego zestawu testowego, jego jakości referencyjnej, ale także od nieodłącznych właściwości badanej pary językowej.

Angela Fan powiedziała, że wyniki BLEU zostały również uzupełnione oceną człowieka i że ta informacja zwrotna była bardzo pozytywna, a także wywołała zaskakujące reakcje.

– Jednym z naprawdę interesujących zjawisk jest to, że ludzie, którzy posługują się językami o niskich zasobach, często mają większą tolerancję dla jakości tłumaczenia, ponieważ nie mają żadnego innego narzędzia do translacji – powiedziała Fan, która sama mówi w języku o niskich zasobach – w szanghajskim. – Są bardzo skromni i starają się dawać nam wysokie oceny, więc mówimy im „hej, musisz być bardziej precyzyjny, a jeśli zobaczysz błąd – daj znać".

Meta będzie wspierać społeczność

Praca nad tłumaczeniami AI jest często przedstawiana jako coś w 100% pozytywnego, jednak tworzenie tego oprogramowania wywołuje czasem wątpliwości wśród ludzi posługujących się językami o niskich zasobach. Dla niektórych społeczności uwaga Big Tech nie jest mile widziana: nie chcą narzędzi dających dostęp do zasobów ich języka komuś spoza ich środowiska. Dla innych kwestie te są mniej egzystencjalne, a bardziej dotyczą jakości.

Inżynierowie Mety zbadali niektóre z tych zagadnień, przeprowadzając wywiady z 44 osobami posługującymi się językami o niskich zasobach, które wskazały na szereg pozytywnych i negatywnych skutków otwarcia swoich języków na tłumaczenie maszynowe.

Jednym z pozytywnych aspektów jest na przykład to, że takie narzędzia umożliwiają mówcom dostęp do większej liczby mediów i źródeł informacji. Maszynowych translatorów można używać do tłumaczenia bogatych zasobów, takich jak anglojęzyczna Wikipedia i teksty edukacyjne. Jednocześnie jednak jeśli użytkownicy języków o niskich zasobach zaczną częściej korzystać z mediów tworzonych w popularniejszych językach, może to zmniejszyć ich motywację do tworzenia materiałów we własnym języku.

Rozwiązanie tych problemów jest dużym wyzwaniem, a przeszkody napotkane w ramach tego ostatniego projektu pokazują, dlaczego. Badacze z Mety zauważają, na przykład, że spośród 44 użytkowników języka o niskich zasobach, z którymi rozmawiali, aby lepiej poznać specyfikę problemu, większość to „imigranci mieszkający w Stanach Zjednoczonych i Europie, a około jedna trzecia z nich identyfikuje się jako pracownicy techniczni” — co oznacza, że ich perspektywy są prawdopodobnie inne niż w ich społecznościach rodzinnych i od samego początku są stronniczy.

Profesor Fraser z LMU Monachium powiedział, że pomimo tego, badania z pewnością były prowadzone „w sposób, który coraz bardziej angażuje native speakerów” i że takie wysiłki były „godne pochwały”.

– Ogólnie cieszę się, że Meta to robi. Wszystkie firmy, takie jak Google, Meta i Microsoft, które mają duże osiągnięcia w tłumaczeniu maszynowym języków o niskich zasobach, robią dobrą robotę dla świata – powiedział Fraser. – Oczywiście duża część ludzi, którzy pracują nad tym, pochodzi również ze środowiska akademickiego.

Angela Fan z Mety powiedziała, że jej firma próbuje stawić czoła wielu z tych społecznych wyzwań, poszerzając swoją wiedzę specjalistyczną z wielu dziedzin. – Kiedy rozwijamy sztuczną inteligencję, potrzebujemy wielu inżynierów. Wydaje się, że wystarczy powiedzieć: „zaangażujmy doktorantów informatyki; spotkajmy się i zbudujmy AI tylko dlatego, że możemy”.

‒ Jednak tak naprawdę dużo współpracujemy z lingwistami, socjologami, etykami – powiedziała. – Myślę, że tego rodzaju interdyscyplinarne podejście koncentruje się na ludzkich problemach. Staramy się w ten sposób odpowiedzieć na szereg ważnych pytań. Na przykład – komu zależy na tym, aby ta technologia została stworzona? W jaki sposób mamy to zrobić? Jak zamierzamy ją wykorzystać?

Równie ważna, mówi Fan, jest decyzja o jak najszerszym udostępnieniu jak największej liczby elementów projektu – od modelu po zestaw danych ewaluacyjnych i kod szkoleniowy – co powinno pomóc zniwelować brak równowagi sił tkwiący w korporacji pracującej nad taką inicjatywą. Meta oferuje również granty naukowcom, którzy chcą uczestniczyć w takich projektach tłumaczeniowych, ale nie są w stanie sfinansować własnych projektów.

– Myślę, że to bardzo ważne, ponieważ nie jest tak, że jedna firma będzie w stanie całościowo rozwiązać problem tłumaczenia maszynowego – powiedziała Fan. – Musimy to zrobić wspólnie ‒ jako specjaliści z całego świata – dlatego Meta jest zainteresowana wspieraniem wysiłków całej społeczności.

Źródło: The Verge


Nie przegap

Zapisz się na newsletter i nie przegap najnowszych artykułów, testów, porad i rankingów: