Igła w stogu siana

Poszukiwanie wartościowych informacji w Internecie często przypomina szukanie igły w stogu siana. Zgłębiamy Wszystkie Wyszukiwarki Wiedzy, aby pomóc Ci odnaleźć najskuteczniejsze narzędzia w polskim odgałęzieniu Sieci.

Poszukiwanie wartościowych informacji w Internecie często przypomina szukanie igły w stogu siana. Zgłębiamy Wszystkie Wyszukiwarki Wiedzy, aby pomóc Ci odnaleźć najskuteczniejsze narzędzia w polskim odgałęzieniu Sieci.

Przybliżone szacunki mówią, że na całym świecie dostęp do Internetu ma około 400 milionów osób (według danych Global Reach) przy czym liczba ta rośnie w lawinowym tempie. Wraz z powiększaniem się liczby użytkowników wzrasta również liczba stron WWW. Dotychczas zasoby te szacowano na grubo ponad miliard dokumentów przyrastających w tempie miliona dziennie. Z badań, jakie przeprowadziła firma BrightPlanet za pomocą własnej technologii wyszukiwania, nazwanej LexiBot, wynika, że zasoby WWW są 400-500 razy potężniejsze, niż do tej pory sądzono. Mechanizmy wyszukiwania, których używano dotychczas w pomiarach zawartości Sieci, były w stanie przeszukiwać jedynie "powierzchnię" Internetu, nie sięgając głębiej.

Wyszukiwarka portalu Onet.pl oferuje wiele dodatkowych opcji

Wyszukiwarka portalu Onet.pl oferuje wiele dodatkowych opcji

Według BrightPlanet, istnieje ponad 100 tysięcy dostępnych publicznie baz danych, które należą do tak zwanych Deep Web - zasobów zawierających około 7500 terabajtów informacji, w porównaniu z 19 terabajtami dostępnymi na powierzchni Sieci. Strony z Deep Web, w odróżnieniu od "powierzchniowych", charakteryzuje na ogół węższa tematyka, ale zdecydowanie bardziej pogłębiona. Ocenia się, że zawierają prawie 550 miliardów dokumentów, w porównaniu z miliardem dokumentów znajdujących się na powierzchni Sieci. 60 największych witryn "głębokiej Sieci" publikuje razem 750 terabajty danych, czyli 40 razy więcej niż "powierzchnia" WWW. Ponad połowa zawartości "głębokiej Sieci" to tematyczne bazy danych, z których 95 procent gromadzi informacje dostępne publicznie, wolne od opłat czy obowiązkowej rejestracji. Takie morze informacji powoduje jednak, że użytkownikom jest coraz trudniej dotrzeć do potrzebnych i wartościowych danych. Na szczęście, istnieją narzędzia ułatwiające wyszukiwanie informacji.

Sieć roi się od stron mających służyć pomocą w zmaganiach z nią. Te miejsca, nazywane serwisami wyszukującymi, korzystają z pięciu rodzajów narzędzi: wyszukiwarek, katalogów, multiwyszukiwarek, wyszukiwarek specjalistycznych oraz stron ekspertów. To właśnie rodzaj i jakość tych narzędzi decydują o skuteczności wyszukiwania. Postanowiliśmy pomóc Ci w wyborze idealnego serwisu, abyś zawsze mógł uzyskać optymalne wyniki jak najmniejszym kosztem. W tym celu poddaliśmy morderczym testom polskie strony oferujące systemy wyszukujące, poczynając od nowych i mniej znanych (takich jak G7), a na rynkowych gigantach kończąc (Wirtualna Polska, Onet).

Sprawdzian składał się z dwóch części. Pierwsza polegała na wpisywaniu krótkich tematycznych haseł z kilku dziedzin (na przykład historia, biologia, sztuka, ekonomia). Zapytania dotyczyły zarówno szczegółów (na przykład barwy bociana czarnego), jak i kwestii ogólnych (na przykład teorii wzrostu ekonomicznego). W drugiej części postanowiliśmy sprawdzić, co serwisy odpowiedzą na nurtujące nas pytania typu "Czy Święty Mikołaj naprawdę istnieje?" Efekty były niekiedy zaskakujące i śmieszne, a niekiedy żenujące. Zebrane wyniki przedstawiamy w tabeli Zestawienie wyszukiwarek.

Grunt to dobry silnik

Netoskop w Poland.com pozwala określić w skali od 1 do 10, co jest najważniejszym kryterium w poszukiwaniu stron.

Netoskop w Poland.com pozwala określić w skali od 1 do 10, co jest najważniejszym kryterium w poszukiwaniu stron.

Narzędziami wyszukiwawczymi cieszącymi się największą popularnością wśród polskich internautów są wyszukiwarki i katalogi. Każde z nich ma swoje wady i zalety, a różni je także stopień ingerencji człowieka w ich działanie (na przykład weryfikacja).

Wyszukiwarki (w angielskim nazywane search engines, czyli dosłownie silniki szukające) używają zautomatyzowanych programów, zwanych pajączkami (spiders), które wędrując po Sieci, odwiedzają kolejne strony i zapamiętują zapisane na nich informacje (indeksują je). Sposób, w jaki sporządzony indeks stron jest segregowany, filtrowany i uaktualniany, zależy od rodzaju wyszukiwarki. Gdy wpiszesz zapytanie, odpowiedni algorytm przeszukuje zindeksowaną bazę i dobiera najbardziej adekwatne odpowiedzi. Pilnie strzeżoną tajemnicą jest informacja, na jakiej podstawie maszyna dokonuje wartościowania, czy dana strona jest trafna i należy ją podać jako wynikową. Z punktu widzenia internauty, właśnie ten moduł wyszukiwarki w znacznej mierze decyduje o jej jakości.

Katalogi (directories) to narzędzia, które opierają swoje funkcjonowanie prawie w całości na działaniach człowieka. Dokumenty, które do nich trafiają, mogą być dobierane i selekcjonowane przez użytkowników danego katalogu, ochotników lub administratora. W związku z ograniczonymi możliwościami działania ludzi, katalogi zawierają dużo mniej zindeksowanych stron niż wyszukiwarki (największy polski katalog Onet.pl gromadzi opisy 270 tysięcy stron, a najzasobniejsza polska wyszukiwarka - Google w Ahoj.pl - ma ich około miliard 326 milionów). Cechą wyróżniającą katalogi jest ścisły podział zasobów na bloki tematyczne, w których można wyróżnić podkategorie. Taka narzucona hierarchizacja daje pewność, że na przykład pod nazwą "Komputery" nie natkniesz się na zbiór stron "Hodowla koni arabskich". Przyspiesza to znacznie poszukiwania przez ograniczanie zbioru dopuszczalnych wyników i stopniową eliminację niepotrzebnych informacji. Sprawdzanie aktualności zasobów danego katalogu należy do obowiązków zarządzających nim ludzi, co może w praktyce oznaczać, że im więcej mają chęci do pracy, tym mniej nieistniejących lub źle sklasyfikowanych stron napotkasz w katalogu.

Bardzo trudno ocenić, które z dwóch wyżej scharakteryzowanych narzędzi preferują polscy twórcy serwisów wyszukujących, gdyż najczęściej korzystają z obu systemów. Doskonałym przykładem mogą być prawie wszystkie portale internetowe, na przykład Wirtualna Polska, Onet.pl, Poland.com, Arena.pl, Hoga.pl, które mają w swojej strukturze zarówno wyszukiwarkę, jak i katalog. Niektóre w odpowiedzi na zapytanie prezentują odpowiednio posortowane dane zebrane z obu źródeł.

Oczywiście w Sieci można też znaleźć klasyczne (nie obudowane serwisami informacyjnymi) wyszukiwarki i katalogi, takie jak Poland on the Net, Flob.net i Czas na Links! Są to z reguły małe serwisy, których dewizą jest maksymalizacja szybkości działania, dzięki czemu są doskonałe dla osób chcących za wszelką cenę uniknąć przesadnego nagromadzenia efektów wizualnych. Niestety, ich zasoby są znacznie mniej rozległe od oferowanych przez gigantów sektora wyszukiwawczego.

Wielkie szukanie

Większość serwisów umożliwia bezpośredni dostęp do wyszukiwarki i do katalogu. Interia.pl przeszukuje strony zindeksowane w obu tych narzędziach.

Większość serwisów umożliwia bezpośredni dostęp do wyszukiwarki i do katalogu. Interia.pl przeszukuje strony zindeksowane w obu tych narzędziach.

Nasz sprawdzian wykazał kilka charakterystycznych cech polskiego rynku. Mamy do czynienia z kilkoma serwisami, które tworzą ścisłą czołówkę, a ich wyniki różnią się od siebie zaledwie o procenty. Widać, że firmy "portalowe" na bieżąco śledzą nastroje i upodobania klientów oraz dostosowują się do najnowszych światowych trendów, starając się rozszerzać zakres oferowanych usług i podwyższać ich jakość. Stąd częste zmiany w układzie stron, wprowadzenie wyszukiwania we własnych serwisach, możliwość odwiedzenia internetowego sklepu, rozszerzenia opcji zaawansowanych itp.

W naszym teście uwzględniliśmy wszystkie te dodatki, jednak podstawowym kryterium oceny pozostała trafność wyników wyszukiwania, czyli odnośniki, które wyszukiwarki przedstawiły w odpowiedzi na zapytania. Aby uzyskać wiedzę o poprawności działania systemów wyszukiwawczych, przyznawaliśmy także ułamki punktów za odesłania, które były mniej dokładne i dawały niepełną informację. Za strony nieistniejące punkty były odejmowane. W ten sposób wyrównaliśmy szansę wszystkich serwisów - ubogie opcje nie wykluczały konkurentów z rankingu, a marnej skuteczność szukania nie mogły przysłonić fajerwerki graficzne.


Zobacz również