Bill Yerazunis - człowiek, który spamowi się nie kłania

Większości internautów nazwisko Yerazunis mówi niewiele - ale to może się niedługo zmienić. Bill Yerazunis, inżynier zatrudniony w laboratoriach firmy Mitsubishi Electric jest bowiem autorem zdobywającego coraz większą popularność open-source'owego, uczącego się filtra antyspamowego o nazwie CRM114 Discriminator. Stworzenie tego oprogramowanie nie było częścią jego obowiązków zawodowych - system ów powstał "po godzinach", w ramach osobistej, antyspamowej krucjaty Yerazunisa. "Od roku 2006 sytuacja zdecydowanie się pogarsza - w Sieci krąży coraz więcej spamu. Trzeba było coś z tym zrobić" - mówi w rozmowie z IDG Bill Yerazunis. "Skuteczność niektórych filtrów antyspamowych sięga 90-95% - ale dla mnie to było za mało. I udało mi się stworzyć system, który niekiedy rozpoznaje spam lepiej niż ja" - dodaje twórca CRM114 Discriminator.

Bill Yerazunis był niedawno gościem zorganizowanej przez Massachusetts Institute of Technology konferencji poświęconej spamowi. Udzielił tam m.in. wywiadu przedstawicielce naszego wydawnictwa - Carze Garretson z magazynu Networld.

IDG: Jak zaangażowałeś się w walkę ze spamem?

Bill Yerazunis: Spam mnie wkurzał, więc pewnego dnia po prostu powiedziałem do swojego szefa: 'Trzeba coś z tym zrobić', na co on powiedział: 'Nie martw się, Bill, to nigdy nie będzie poważny problem'. Ale mnie taka odpowiedź nie zadowoliła, więc spytałem, czy mogę się zająć tą sprawę w wolnym czasie. On odparł: 'Cóż, nie mogę ci tego zabronić'... i tak się zaczęło.

CRM114 - open source'owy sposób na spam
Logo projektu CRM114

Logo projektu CRM114

System CRM114 (nazwa pochodzi od odbiornika radiowego, który wykorzystywany był przez bohaterów kultowego filmu "Dr. Strangelove") to system danych, wykorzystujący mechanizm kategoryzacji tekstu.

W odróżnieniu od wielu innych rozwiązań antyspamowych, CRM114 analizuje nie poszczególne słowa zawarte w wiadomości e-mail, lecz całe frazy - dzięki, jak zapewnia twórca systemu - jest on znacznie skuteczniejszy niż inne filtry. System Yerazunisa korzysta również z kilku innych znanych metod identyfikowania spamu - m.in. algorytmu Winnow.

Jak zapewnia autor programu na jego oficjalnej stronie, użytkownicy korzystają z CRM114 m.in. w Linuksie, BSD, Mac OS X oraz Windows (filtr może też integrować się z popularnymi programami pocztowymi). Więcej informacji znaleźć można na stronie CRM114.sourceforge.net.

Podczas początkowych prac opierałem się na "systemie reputacji" - tzn. przyjąłem, że jeśli jakaś wiadomość pochodzi od nadawcy, który wcześniej się ze mną już kontaktował via e-mail, to prawdopodobnie jest ona pożądana. Ale szybko się okazało, że taki system nie działa dobrze. Wtedy zacząłem prace nad systemem heurystycznym. Ale takie rozwiązania mają pewien górny pułap skuteczności (w przypadki SpamAssassin sięga on 95%), a ja chciałem więcej - więc wprowadziłem filtrowanie statystyczne.

Czy prawdą jest, że w 2006 r. spam nasilił się. Dlaczego tak się stało?

Tak, to prawda. Odsetek spamu rósł od lat systematycznie, ale wraz z nim rosła skuteczność filtrów, więc wzrost ten nie był aż tak uciążliwy. Jednak od początku 2006 r. ilość spamu wzrosła drastycznie - blisko dwukrotnie. Z moich ustaleń wynika, iż przyczyną nie jest to, że spamerzy zaczęli stosować jakieś nowe, wysublimowane techniki maskowania spamu. Oni po prostu "pompują" go coraz więcej, a wiele osób korzysta z niewystarczająco skutecznych filtrów. Wzrost liczby wiadomości spamowych związany jest m.in. z popularyzowaniem się spamu giełdowego, poprzez który spamerzy próbują nakłonić internautów do kupowania akcji danej firmy (następuje wtedy zwyżka kursu, a spamerzy szybko zarabiają na sprzedaży akcji, które sami kupili wcześniej).

90% wiadomości email to spam

Aż 90% wiadomości email wysłanych w lutym 2007 to spam. Takie wyniki podała firma SoftScan, bazując na statystykach generowanych za pomocą produkowanego przez nią oprogramowania antyspamowego. Masowe rozsyłanie spamu to przede wszystkim zasługa gigantycznych sieci zombie, czyli komputerów podłączonych do Internetu, służących m.in. spamerom jako serwery do wysyłania wiadomości email. Przejmowanie kontroli nad komputerami i przekształcanie ich w posłuszne zombie ma charakter pandemii. Na około 600 milionów komputerów podłączonych do Internetu około 150 milionów, a więc aż jedna czwarta, to zombie. Więcej informacji na ten temat można znaleźć w tekście "90% wiadomości email to spam".


Zobacz również