Kilka dużych firm pracuje nad automatycznym opisywaniem grafik

Kilku największych graczy na rynku IT pracuje nad systemem, w którym specjalny algorytm byłby w stanie opisać słowami i zdaniami każdy wyświetlany obraz. Czy ma to szanse powodzenia?

Microsoft, Google oraz Baidu wierzą, że jak najbardziej i intensywnie pracują nad rozwojem tego typu technologii. Zresztą dziś nikogo nie dziwi już rozpoznawanie twarzy czy wyszukiwanie obrazem, które jeszcze kilkanaście lat temu było niemal nie do pomyślenia. John Platt, jeden z najważniejszych inżynierów w Microsoft Research, udzielił pewnych wyjaśnień na temat sposobu, w jaki działa system opisujący słowami obraz - jego pierwsza wersja powinna ujrzeć światło dzienne w czerwcu 2015 roku. Prezentowany poniżej obraz pokazuje, że grafika dzielona jest na odrębne obszary, identyfikowane na podstawie pewnych charakterystycznych elementów. Elementy te mają przypisane słowa, które najlepiej je opisują - system zbiera je i stara ułożyć w logiczną całość, co pozwoli uniknąć dziwnych zlepek niepasujących do siebie wyrazów.

Jak widać po powyższym przykładzie - jeszcze nie działa to jak należy. Gęste włosy pani po prawej stronie zostały przez automat pomylone z kocią sierścią, stąd też rejon z puklami został określony jako "kot". Microsoft wspomaga się w systemie dwoma automatycznymi translatorami - BLEU oraz METEOR. Są one testowane, a ten, który okaże się bardziej trafny, stanie podstawowym narzędziem. Drugi będzie jego wsparciem. Jak jednak przyznaje Platt, do sukcesu daleka droga, a czasem system opisuje obrazy dobrze, ale... nie do końca. Drugi przykład to poniższa fotka.

System opisuje ją jako "Kot siedzący na łóżku", co jest prawdą, jednak zignorowany zostaje całkowicie laptop, w który zwierzak się wpatruje, a także trzymająca go na udach kobieta. Jednak nie zapominajmy, że prace są we wczesnym stadium i samo opisanie kota to już pewien sukces. Ciąg dalszy z pewnością nastąpi.


Zobacz również