Z Sieci na dysk

Błądząc po Internecie wciąż trafiamy na interesujące serwisy online - czasami są na tyle ciekawe, że chcielibyśmy zachować je na twardym dysku. Najprostszym sposobem jest oczywiście zapisanie danej strony WWW z poziomu internetowej przeglądarki. Większość przeglądarek nie potrafi jednak poprawnie zachować niektórych grafik oraz innych elementów multimedialnych umieszczonych na stronie WWW. Co więcej, przeglądarki umożliwiają jedynie ręczne otwieranie i zapisywanie każdej pojedynczej strony WWW, a nie całej zawartości większego serwisu.

Błądząc po Internecie wciąż trafiamy na interesujące serwisy online - czasami są na tyle ciekawe, że chcielibyśmy zachować je na twardym dysku. Najprostszym sposobem jest oczywiście zapisanie danej strony WWW z poziomu internetowej przeglądarki. Większość przeglądarek nie potrafi jednak poprawnie zachować niektórych grafik oraz innych elementów multimedialnych umieszczonych na stronie WWW. Co więcej, przeglądarki umożliwiają jedynie ręczne otwieranie i zapisywanie każdej pojedynczej strony WWW, a nie całej zawartości większego serwisu.

Na szczęście twórcy internetowych aplikacji nie śpią. Na rynku pojawiły się specjalne programy określane wspólnym terminem "pająków" (spiders) czy też robotów. Służą one do pobierania na twardy dysk komputera całych witryn internetowych (lub też ich większych fragmentów). Zasada działania tego typu aplikacji jest bardzo prosta - najpierw odczytują one daną stronę WWW wskazaną jako początkową dla danego procesu pobierania (oczywiście nie musi to być strona główna witryny, a jedynie strona, od której chcemy rozpocząć pobieranie). Następnie analizują jej zawartość, poszukują odwołań (linków) do innych obiektów (grafik, kolejnych stron, plików multimedialnych itd.) i pobierają je na twardy dysk komputera. Wszystkie niezbędne pliki zapisywane są w folderach o nazwach analogicznych do nazw katalogów dostępnych na serwerze http.

Metoda ta ma jednak pewne podstawowe wady - jeśli odnośniki do poszczególnych stron nie są zapisane w "czystym" HTML-u, a ich funkcje spełniają np. skrypty Javy lub animacje Shockwave Flash, to zazwyczaj nie zostaną one w ogóle przeanalizowane. Pająk nie będzie wiedział o ich istnieniu, a co za tym idzie strony, do których można dotrzeć jedynie poprzez takie elementy, nie zostaną przez program pobrane - w związku z tym nie znajdą się wśród zapisanych lokalnie dokumentów HTML.

Szybkie powiadamianie o uaktualnieniach stron w Sieci

Jeśli interesuje Cię konkretna strona internetowa i często sprawdzasz, czy nie ma na niej nowych informacji, warto skorzystać z usług serwisu NetMind (www.netmind.com). Po zdefiniowaniu profilu użytkownika (adres e-mail, hasło, typ klienta pocztowego) wystarczy wprowadzić adresy stron, które serwis powinien monitorować, zaznaczając przy okazji, co jaki czas serwis ma być sprawdzany. Gdy tylko NetMind wykryje zmianę zawartości na stronie WWW, poinformuje Cię o tym stosownym e-mailem, a jeśli sobie tego życzymy do listu zostanie dołączona kopia uaktualnionej strony.

<HR ALIGN="CENTER" WIDTH="50%">

UWAGA:

Gdy autor witryny nie życzy sobie indeksowania zawartości danej strony WWW lub jej części przez internetowe wyszukiwarki, informacje o tym zapisuje w umieszczonym na serwerze pliku robots.txt. Niektóre pająki mogą respektować takie restrykcje dotyczące przeglądania danej witryny przez roboty indeksujące zawartość Sieci. W takiej sytuacji, aby pobrać witrynę, należy nakazać pajączkowi wyłączenie opcji respektowania plików robots.txt.

<HR ALIGN="CENTER" WIDTH="50%">

Czy warto używać programów do pobierania stron WWW?

Tak, ponieważ:

- możesz oglądać wybraną witrynę WWW, kiedy i gdzie tylko chcesz niezależnie od tego czy połączenie internetowe jest aktywne,

- podczas oglądania pobranej witryny internetowej nie jesteś zależny od jakości połączenia sieciowego

- masz łatwiejszy dostęp do kodu HTML witryny.

Nie, bowiem:

- tracisz dostęp do elementów zakodowanych inaczej niż "zwykłe" odnośniki HTML-u (np. Java Script)

- w przypadku często aktualizowanych witryn pobrane materiały szybko stają się nieaktualne

Chcąc ułatwić Ci wybór konkretnego programu, porównaliśmy najpopularniejsze aplikacje pracujące w środowisku Win dows służące do wykonywania lokalnych kopii internetowych witryn. Przygotowaliśmy specjalny system testowy i zrobiliśmy kopię naszej witryny internetowej www.pcworld.com.pl oraz umieściliśmy ją na nieobciążonym serwerze pracującym pod kontrolą systemu MS Internet Information Server 4.0. Serwer połączyliśmy bezpośrednio z komputerem, którego zadaniem było archiwizowanie witryny na dysku twardym za pomocą testowanych programów. Do zestawienia połączenia użyto dwóch kart sieciowych o przepustowości 100Mb/s, co daje pewność, iż w przeciwieństwie do warunków panujących w Internecie, połączenie z serwerem nie ograniczy wydajności aplikacji (w przypadku większości połączeń sieciowych przesłanie 70 MB danych w ciągu 20 minut właściwie nie jest możliwe). Witrynę testową pobieraliśmy z wykorzystaniem domyślnych ustawień programu - jeśli było to możliwe, korzystaliśmy z pomocy odpowiednich kreatorów.


Zobacz również