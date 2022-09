Czy chińskie projekty tworzenia grafiki za pomocą sztucznej inteligencji mają szanse przetrwać pomimo narzucanej przez władze kontroli treści?

Powstało nowe chińskie oprogramowanie do tworzenia grafiki z wykorzystaniem sztucznej inteligencji (AI). Nazywa się ERNIE-ViLG, a stworzył je gigant technologiczny Baidu. Zadaniem oprogramowania jest tworzenie obrazów oddających specyfikę kulturową Chin. ERNIE-ViLG potrafi podobno stworzyć lepszą grafikę w stylu anime niż DALL-E 2 i inne zachodnie modele AI.

Z ERNIE-ViLG jest jednak pewien problem – na oprogramowanie nałożono ograniczenia. Na przykład nie wygeneruje nam ono widoku Placu Tiananmen, czyli drugiego co do wielkości placu w kraju, który jest ważnym symbolem politycznym.

Gdy pod koniec sierpnia opublikowano wersję demonstracyjną ERNIE-ViLG, użytkownicy szybko odkryli, że niektóre słowa – zarówno nazwiska przywódców politycznych, jak i słowa, które są potencjalnie kontrowersyjne tylko w kontekście politycznym – zostały oznaczone jako „wrażliwe” i wyłączono możliwość generowania na ich podstawie jakichkolwiek wyników. Wydaje się, że wyrafinowany chiński system cenzury w internecie objął także najnowszy trend w sztucznej inteligencji.

To użytkownicy ocenią przydatność cenzurowanej AI

Podobne modele AI często ograniczają użytkownikom możliwość generowania określonych rodzajów treści. DALL-E 2 blokuje treści o charakterze seksualnym, twarze osób publicznych lub obrazy dotyczące leczenia. Jednak w przypadku ERNIE-ViLG trzeba postawić pytanie – gdzie dokładnie przebiega granica między umiarem a cenzurą polityczną?

Model ERNIE-ViLG jest częścią Wenxin, dużego projektu przetwarzania języka naturalnego prowadzonego przez Baidu, chińskiego giganta technologicznego. Został przeszkolony na zestawie danych składającym się ze 145 milionów par obraz-tekst i zawiera 10 miliardów parametrów – wartości, które sieć neuronowa dostosowuje podczas uczenia się, a sztuczna inteligencja wykorzystuje do wykrycia subtelnych różnic między koncepcjami a stylami sztuki.

Oznacza to, że ERNIE-ViLG ma mniejszy zestaw danych treningowych niż DALL-E 2 (650 milionów par) i Stable Diffusion (2,3 miliarda par), ale więcej parametrów (DALL-E 2 ma 3,5 miliarda parametrów, a Stable Diffusion 890 milionów). Baidu wydało wersję demonstracyjną na własnej platformie pod koniec sierpnia, a później na Hugging Face, popularnej międzynarodowej społeczności AI.

Główna różnica między ERNIE-ViLG i modelami zachodnimi polega na tym, że dzieło Baidu rozumie monity napisane po chińsku i rzadziej popełnia błędy, jeśli chodzi o słowa specyficzne kulturowo.

Porównano wyniki pracy różnych modeli pod kątem monitów, które obejmowały chińskie postacie historyczne, gwiazdy popkultury i jedzenie. Okazało się, że ERNIE-ViLG dawał dokładniejsze obrazy niż DALL-E 2 lub Stable Diffusion. Po opublikowaniu, ERNIE-ViLG został dobrze przyjęty przez społeczność japońskiego anime, która odkryła, że może on generować bardziej satysfakcjonującą sztukę anime niż inne modele, prawdopodobnie dlatego, że zawierał jej więcej w swoich danych treningowych.

Pomimo swoich zalet ERNIE-ViLG będzie oceniane przez użytkowników – podobnie jak inne modele – pod kątem tego, na co pozwala. W przeciwieństwie do zachodnich twórców modeli AI Baidu nie opublikowało polityki moderowania treści w ERNIE-ViLG i nie chce komentować tego faktu.

Władza skontroluje także sztuczną inteligencję

Kiedy demo ERNIE-ViLG zostało po raz pierwszy opublikowane na Hugging Face, użytkownicy wprowadzający monity często widzieli komunikat „znaleziono wrażliwe słowa, wprowadź tekst ponownie”, co było zaskakująco szczerym potwierdzeniem istnienia szczególnego mechanizmu filtrowania. Co najmniej od 12 września wiadomość brzmi: „wprowadzona treść nie spełnia odpowiednich warunków, spróbuj ponownie po dostosowaniu”.

W teście przeprowadzonym przez MIT Technology Review okazało się, że w modelu zablokowano szereg chińskich słów: nazwiska głośnych chińskich przywódców politycznych, takich jak Xi Jinping i Mao Zedong; terminy, które można uznać za wrażliwe politycznie, takie jak „rewolucja” i „ściany wspinaczkowe” (metafora korzystania z usługi VPN w Chinach) oraz nazwisko założyciela i dyrektora generalnego Baidu, Yanhong (Robin) Li.

Chociaż słowa takie jak „demokracja” i „rząd” są dozwolone, podpowiedzi łączące je z innymi słowami, takimi jak „demokracja na Bliskim Wschodzie” lub „rząd brytyjski”, są blokowane. Placu Tiananmen w Pekinie również nie można znaleźć w ERNIE-ViLG, prawdopodobnie ze względu na jego związek z brutalnym stłumieniem protestów w roku 1989, do którego odniesienia są mocno cenzurowane w Chinach.

W dzisiejszych Chinach firmy zajmujące się mediami społecznościowymi zwykle mają własne listy wrażliwych słów, zbudowane zarówno na podstawie instrukcji rządowych, jak i własnych decyzji operacyjnych. Oznacza to, że każdy filtr stosowany przez ERNIE-ViLG może różnić się od filtrów używanych przez należącą do Tencent usługę WeChat czy usługę Weibo, której operatorem jest Sina Corporation. Niektóre z tych platform są systematycznie testowane przez grupę badawczą Citizen Lab z Toronto.

Artyści nie lubią cenzury

Badiucao, chińsko-australijski karykaturzysta polityczny (używa pseudonimu, aby chronić swoją tożsamość), był jednym z pierwszych użytkowników, którzy zauważyli cenzurę w ERNIE-ViLG. Wiele jego dzieł bezpośrednio krytykuje chiński rząd i przywódców politycznych, takie też były jedne z pierwszych monitów, które wprowadził do modelu.

– Oczywiście celowo w taki sposób badałem ten "ekosystem". Ponieważ to nowe terytorium, byłem ciekaw, czy już funkcjonuje w nim cenzura – mówi Badiucao. – Wynik testu mnie rozczarował.

Jako artysta Badiucao nie zgadza się z żadną formą ograniczeń w modelach AI, w tym także z podejściem przyjętym przez DALL-E 2, ponieważ uważa, że to on powinien decydować, co jest dopuszczalne w jego sztuce. Mimo to ostrzega, że cenzury kierującej się względami moralnymi nie należy mylić z cenzurą z powodów politycznych. – Inaczej jest, gdy sztuczna inteligencja ocenia, czego nie może wygenerować w oparciu o wspólnie uzgodnione standardy moralne, a inaczej gdy rząd, jako strona trzecia, wchodzi i mówi, że nie możesz tego zrobić, ponieważ szkodzi to jemu lub krajowi – mówi Badiucao.

Trudność w określeniu wyraźnej granicy między cenzurą a zachowaniem umiaru wynika również z różnic między kulturami i reżimami prawnymi, mówi Giada Pistilli, główny etyk w Hugging Face. Na przykład różne kultury mogą różnie interpretować te same obrazy. – Jeśli chodzi o symbole religijne, we Francji zabronione jest ich publiczne eksponowanie, co jest przejawem francuskiego sekularyzmu – mówi Pistilli. – Kiedy jedziesz do USA, sekularyzm oznacza, że każdy symbol religijny jest dozwolony.

W styczniu chiński rząd zaproponował nowe rozporządzenie zakazujące wszelkich treści generowanych przez sztuczną inteligencję, które „zagrażają bezpieczeństwu narodowemu i stabilności społecznej”. Dotyczy ono również modeli generujących grafikę, takich jak ERNIE-ViLG.

– W ich przypadku deweloperzy powinni tłumaczyć cenzurę poprzez publikowanie informacji wyjaśniających decyzje moderacyjne – mówi Pistilli. – Czy treść została ocenzurowana, ponieważ nakazuje tego prawo? Czy zrobili to, ponieważ subiektywnie uznali ją za złą? Zawsze warto przedstawić argumenty i uzasadnienie dokonywanych wyborów.

Chińska AI generująca grafikę przetrwa pomimo rządowych ograniczeń?

Pomimo wbudowanej cenzury ERNIE-ViLG nadal będzie odgrywał ważną rolę w rozwoju AI przetwarzającej tekst na obraz. Pojawienie się chińskiego modelu sztucznej inteligencji wyszkolonego na określonych zestawach danych językowych rekompensuje niektóre ograniczenia modeli głównego nurtu opartych na języku angielskim. Pomoże to w szczególności użytkownikom, którzy potrzebują sztucznej inteligencji rozumiejącej język chiński i generującej zgodnie z nim dokładne obrazy.

Tak jak chińskie platformy mediów społecznościowych rozkwitły pomimo rygorystycznej cenzury, tak samo ERNIE-ViLG oraz inne chińskie modele AI będą z powodzeniem zyskiwać na popularności. Są zbyt przydatne, aby się poddać.

Źródło: MIT Technology Review