Pecet w goglach

Znalezienie potrzebnej informacji w Internecie odbywa się szybko, łatwo i prosto, ale w dużo mniejszej sieci lokalnej takie nie jest.

Znalezienie potrzebnej informacji w Internecie odbywa się szybko, łatwo i prosto, ale w dużo mniejszej sieci lokalnej takie nie jest.

Staje się coraz trudniejsze i trwa dłużej z każdym kolejnym twardym dyskiem, klienckim pecetem, serwerem, bazą danych i innymi zakamarkami ciągle wzbogacanej sieciowej infrastruktury. Na dodatek wyszukiwanie lokalne powinno być obwarowane ograniczeniami. W przeciwieństwie do ogólnodostępnych danych z Internetu, w małych sieciach rodzinnych czy firmowych pożądany jest pewien zakres poufności. Pracownik nie powinien mieć dostępu do zasobów zastrzeżonych dla dyrektora, podobne ograniczenia powinny obowiązywać w rodzinie.

Co gorsza, każdy z kilku użytkowników sieci przechowuje dane na swój sposób, który uważa za najlepszy. Zazwyczaj w małych grupach nie ma nikogo, kto zajmowałby się zarządzaniem całością przechowywania danych i potrafił wprowadzić pewien porządek. W rezultacie odszukanie dokumentu wypełnionego kilka miesięcy temu przez inną osobę staje się bardzo trudne i pracochłonne.

Czy nie szukamy dziury w całym, skoro jest Google ze stale rozwijaną technologią? Kilka miesięcy temu Paweł Brągoszewski ( http://www.pcworld.pl/artykuly/47032.html ) pisał o mniejszej odmianie wyszukiwarki tego producenta, becie zwanej Google Desktop Search, przystosowanej do pracy na pojedynczych pecetach. Oprócz wielu zalet doszukał się całej listy wad, przede wszystkim dotyczących zabezpieczeń. Znaleziono już pierwsze dziury i błędy, ale nawet bez posługiwania się nimi niepowołana osoba przy klawiaturze może znacznie szybciej znaleźć potrzebne jej informacje. Wykorzystując chwilową przerwę w pracy, zazdrosna żona bez problemu przejrzy korespondencję męża. Desktop Google zbyt chętnie ujawnia zawartość lokalnego komputera nawet tym, którzy chcą jej użyć tylko do przeszukiwania Internetu.

Są także większe wersje, przystosowane do pracy sieciowej. Również konkurencja nie zasypia gruszek w popiele i wybór rozwiązania oszczędzającego najwięcej czasu i pieniędzy nie jest prosty. Nie chodzi tylko o koszt licencji, trzeba dobrze sprecyzować potrzeby, które wyszukiwarka ma zaspokajać.

Okulary pana Hilarego

Google w wersji do peceta wkrótce po swojej instalacji rozpoczyna długi, zwykle kilkugodzinny proces indeksowania plików na twardych dyskach.

Google w wersji do peceta wkrótce po swojej instalacji rozpoczyna długi, zwykle kilkugodzinny proces indeksowania plików na twardych dyskach.

Wyszukiwanie jest jednym z trudniejszych zadań nawet dla istot o wiele inteligentniejszych od komputerów. Może dlatego musiały minąć aż dwie dekady, zanim wyszukiwarki z Internetu zeszły do mniej rozległych sieci, a może powodem była także różnorodność i podatność tych sieci na indywidualne koncepcje. Jednakże w pracy grupowej muszą obowiązywać pewne zasady. Dobrym przykładem jest serwer plików, który powinien odzwierciedlać praktykę korzystania z niego przez strukturę katalogów, system udostępnianych udziałów i systematykę nazw poszczególnych zbiorów danych.

Każda grupa ma tendencję do wyłonienia ze swego grona przynajmniej jednego "bibliotekarza", nawet jeśli formalnie nie obdarzy go tym tytułem. Będzie to osoba najczęściej pytana przez kolegów o organizację struktury plików i pomoc w znalezieniu poszukiwanych danych.

Niestety, ten typ organizacji pracy ma pewną wadę: zależność od wszystkowiedzącego kolegi ogranicza samodzielność i kreatywność pozostałych. Są też mniej typowe przypadki przeszukiwania, które nie pasują do założonej struktury plików i katalogów. Wtedy dotychczasowa organizacja danych na dysku na wiele się nie przyda.

Czego szukać?

Inteligencja programów przeszukujących bywa wystawiana na ciężkie próby. Wkrótce po 11 września 2001 roku wiele banków poproszono o informacje na temat ich kontaktów z osobami wymienionymi na dostarczonej liście. Lista została sporządzona w ONZ, a dobre dwie trzecie nazwisk w wykazie zawierało słowo "mullah". To stało się jasne dopiero po użyciu szarych komórek, kiedy wyszło na jaw, że to samo słowo było rozmaicie zapisywane. Spora część z nich zamiast podwójnego "l" miała jedną lub dwie jedynki. Taki styl tłumaczenia znaków z arabskiego na angielski nie jest niczym niezwykłym. Jeśli dodatkowo zapisze się je za pomocą tekstu niesformatowanego, zwykle wyświetlanego i drukowanego czcionką Courier, w której jedynka i litera l są skrojone wyjątkowo podobnie do siebie, różnica zatrze się całkowicie.

Indeksy zajmują blisko 1 procent opracowanej objętości. Opcjonalnie lokują się w katalogu Google Desktop.

Indeksy zajmują blisko 1 procent opracowanej objętości. Opcjonalnie lokują się w katalogu Google Desktop.

W ten sposób powstaje klasyczny zabójca procesu wyszukiwania. Znalezienie dowodu obecności konkretnego mułły na liście metodą klasycznego porównania znak po znaku nie może przynieść pożądanego skutku. Lepiej utkać pajęczynę z kilku zapytań z relacjami logicznymi między nimi. Do kompletu potrzebujemy programu mogącego takie zapytanie zrozumieć i odpowiednio przeszukać dane.

Jest kilka technologii i języków przydatnych do rozwiązania tego problemu. GREP, PERL, a nawet SQL pozwalają utworzyć kwerendę w postaci pytań w abstrakcyjnej formie, np. "Znajdź wszystkie dokumenty w formacie Worda zawierające słowo "wpłata" w tym samym zdaniu, co rozmaicie pisane "mułła"". Do rozwiązania jest tylko drobny problem. W większości małych sieci nie ma ukrytego guru od PERL-a, który czekałby na atak terrorystyczny w takiej skali tylko po to, aby zademonstrować swe umiejętności kodowania kwerend.

W rzeczywistości jest jeszcze gorzej, w małych sieciach na ogół spotkamy wiele sposobów indeksowania. W większości komputerów działa usługa Microsoft Indexer, ale nie poradzi sobie z przykładowym wyszukiwaniem. Potrzebne jest narzędzie, w którym można jednocześnie założyć filtr na pliki, przeszukać ich zawartość, określić w wybrany sposób trafność znaleziska i uszeregować je według tej cechy. Indeksowanie Microsoftu nie tylko nie poradzi sobie z takim zadaniem, a w dodatku może przeszukać zaledwie jeden serwer. Niewiele firm ogranicza ich liczbę do jednego.

Wejście Google

Wyszukiwarka systemowa z Windows niewiele potrafi.

Wyszukiwarka systemowa z Windows niewiele potrafi.

Pikanterii i wiele ruchu do statecznego rynku produktów oferujących usługę wyszukiwania dodało wejście Google, firmy znanej dotąd z działalności w Internecie. Do pojedynczego komputera oferuje się Google Desktop Search, a do sieci mniejszych wersję Mini, indeksującą do 100 tysięcy dokumentów, oraz Google Search Appliance, wyszukiwarkę bez tego ograniczenia. Reszta graczy z tej części rynku, z których niejedni byli w akcji od dobrych kilku lat i mają wiele do zaoferowania, może zbudzić się w nieprzyjemnej sytuacji. Muszą stawić czoło ikonie wyszukiwania, firmie, której produkt opanował potęgującą się lawinę informacji na naszej planecie.

Co takiego oferuje Google, czego nie daje konkurencja? Dlaczego do większych modeli sieciowych powinniśmy kupować również związany z tym pakietem oprogramowania dodatkowy komputer?

Uruchomienie instalacji Google Search Appliance zupełnie nie przypomina samoczynnej operacji typu plug and play. W pierwszej kolejności należy przygotować serwery do wiwisekcji, potem podłącza się komputer systemowy i mówi mu, w których miejscach struktury sieciowej są zlokalizowane. Mogą to być serwery internetowe, np. Internet Information Server (IIS) Microsoftu, albo bazy danych. Silnik Google rozumie ODBC i SQL, więc serwery tych typów bez żadnych problemów mogą być włączone do przeszukiwanego obszaru. Z naszych obserwacji wynika, że pliki indeksów nie są większe od jednego, dwóch procentów z przeglądanej treści.

System Windows XP też ma swoją wersję indeksowania zawartości plików. Usługę uruchamia się w stosownym menedżerze.

System Windows XP też ma swoją wersję indeksowania zawartości plików. Usługę uruchamia się w stosownym menedżerze.

Usytuowanie serwera IIS w małych sieciach nie jest przesądzone. Administratorzy są podzieleni na dwa przeciwstawne obozy. Jedna grupa gwiżdże na przestrogi i rezygnuje z ulokowania IIS wewnątrz strefy bronionej przez firmową zaporę, druga będzie się ściśle trzymać wnętrza tego szańca. Różnice w usytuowaniu są spowodowane nie tyle technicznymi warunkami, ile podziałem obowiązków. Zagadnienia webowe mają często swojego guru, który także dla zachowania bezpieczeństwa nie powinien angażować się w serwery przeznaczone do użytku wewnętrznego.

Staranne zrealizowanie etapów uruchomienia Appliance jest warte zachodu. Dłuższą chwilę może potrwać indeksowanie przez robota systemu wszystkich wskazanych zasobów, ale zaraz potem uzyskuje się możliwość przeszukiwania danych w sposób znany z wersji internetowej.

Można zatem zbudować kwerendę z listy zapytań połączonych relacjami logicznymi i cieszyć się odszukanymi pozycjami. Tak jak w większej wersji, można się odwołać do postaci tekstowej, pamięci podręcznej czy kopii pozycji. Prezentacja w ten sposób na ekranie peceta wewnętrznych zasobów informacji nie jest zwykłym widokiem.


Zobacz również