Big Data - co to takiego i dlaczego warto wiedzieć?

Big Data jest terminem, na którym możesz natknąć się coraz częściej. Ale czy wiesz, co on właściwie oznacza?


Co to jest Big Data?

Zazwyczaj jeśli czegoś nie wiemy, szukamy o tym informacji w internecie. Często pierwszy wyborem jest Wikipedia, w której możemy znaleźć taką oto definicję:

Big data – termin odnoszący się do dużych, zmiennych i różnorodnych zbiorów danych, których przetwarzanie i analiza jest trudna, ale jednocześnie wartościowa, ponieważ może prowadzić do zdobycia nowej wiedzy

Samo gromadzenie i przetwarzanie danych nie jest niczym nowym i istnieje praktycznie od początku istnienia komputerów. Jednak w miarę rozpowszechniania się urządzeń oraz rozwoju internetu zaczęły się gromadzić kolosalne ilości informacji, liczone w tera- i petabajtach. A takie ilości danych do obróbki nie są możliwe do przetworzenia przez zwykłe komputery. Potrzebne są do tego wyspecjalizowane jednostki, mające dostęp do baz danych na całym świecie. Ale po co właściwie je obrabiać? Tutaj zastosowań jest mnóstwo, ale głównym są przede wszystkim analizy, umożliwiające zdobywanie pożądanych informacji (np. odkrywania nowych zjawisk, optymalizacji procesów lub dostarczenia danych w celu podjęcia optymalnej decyzji).

Na początku XXI wieku analityk Doug Laney ustalił kanon wykorzystania Big Data. Składa się on z trzech V:

  • volume (ilość) - gromadzenie jak największej ilości danych z jak największej liczby źródeł; wliczamy w to zarówno informacje na stronach internetowych, jak i dane z sieci społecznościowych, a także dane wymieniane pomiędzy urządzeniami;
  • velocity (szybkość) - dotyczy szybkości przetwarzania danych; ramy czasowe na tę operację wyznaczane są na bazie potrzeb;
  • variety (różnorodność) - wybór formatów dostarczania danych; mogą być bez struktury lub mieć ją ściśle określoną.

W Polsce pojawiła się koncepcja 4W, której definicja również znajduje się w Wikipedii:

  • wykorzystanie – wykorzystaj najpierw wewnętrzne (własne) zasoby danych;
  • wnioskowanie – umiejętnie stosuj techniki analityczne, użyj ekspertów;
  • wzbogacanie – wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych;
  • weryfikacja – koniecznie weryfikuj hipotezy i wnioski.

Big Data - co to takiego i dlaczego warto wiedzieć?

Jak można wykorzystać Big Data?

We współczesnym świecie Big Data jest po prostu wszędzie - opierają się na nim rynki walutowe, firmy analityczne, uczelnie, służba zdrowia, organy ścigania itp. Dzięki szybkiemu dostępowi do wybranych informacji można błyskawicznie uzyskać niezbędne dane. Niezbędne do czego? Przykładów można by mnożyć, dlatego zaprezentuję jeden - firma marketingowa. Dzięki uzyskanym za pomocą Big Data informacjom o nawykach zakupowych konsumentów, a także przeciętnej wieku, stylu życia i dochodach, można przygotować optymalnie dopasowaną do wybranej grupy odbiorców reklamę nowego produktu lub usługi. Dlatego specjalistyczne analizy Big Data są nieocenione dla biznesu, ale także i przemysłu czy edukacji. W przypadku zastosowań komercyjnych Big Data pozwala na stworzenie optymalnych relacji z klientami.

Jednak gromadzenie i analizowanie zachowań użytkowników wywołuje nierzadko kontrowersje - gromadzenie informacji o tym, co użytkownik wyszukuje lub co wpisał na swoim profilu na Faceboooku narusza prywatność. To właśnie rozwój Big Data był jednym z powodów wprowadzenia na terenie Unii Europejskiej RODO oraz innych, podobnych przepisów na świecie. I słusznie - ponieważ Big Data nie jest ograniczone do komputerów i laptopów - informacje zbierane są z każdego urządzenia podpiętego do internetu, w tym smartfonów i Smart TV. Jednak nawet firmy gromadzące dane i szanujące przepisy są w posiadaniu wystarczającej ilości informacji, aby udostępniać zainteresowanym dostęp do swoich zbiorów.

Big Data to nie tylko narzędzie dla dużych graczy

Myśląc "Big Data" mamy przed oczyma kolosalne ilości danych, w związku z czym również odbiorca może wydawać się "duży". Ale z Big Data może korzystać dosłownie każda firma - nawet ta najmniejsza. Popularne systemy CRM korzystają z mechanizmów Big Data, dzięki czemu można w systemie jednym kliknięciem dokonać segregacji klientów lub prowadzić kampanie e-mailowe na dużą skalę. Obecnie istnieje kilkanaście platform internetowych, które powstały w celu umożliwienia gromadzenia i analizy większych ilości danych. Tu warto wymienić cieszące się największą popularnością Hadoop i Apache Spark. Może z nich skorzystać praktycznie każdy, kto ma taką potrzebę.

Grafika: ThisIsEngineering/Pexels