Zbiory i analizy Big Data z impetem wkroczyły w nasze życie. Odgrywają coraz większą rolę w życiu zarówno pojedynczych osób, jak i przedsiębiorstw, organizacji. Przy czym użytkownicy nie zawsze mają świadomość, że ich dane są lub mogą być przetwarzane w systemach Big Data, i że może to mieć związek z bezpieczeństwem informacji.
Z jednej strony można zaobserwować szanse, jakie Big Data daje przedsiębiorstwom. Dostępne stają się narzędzia potrafiące przetwarzać olbrzymie porcje danych typu Big Data (w tym wiadomości e-mail, ruch sieciowy). Pomagają one firmowym ekspertom bezpieczeństwa wykrywać wewnętrzne zagrożenia oraz zewnętrzne ataki, mające na celu wykradanie poufnych informacji. Takie rozwiązania mają już w swej ofercie czołowi producenci systemów informatycznych, np. IBM, RSA Security. Z drugiej strony stosunkowo łatwo zidentyfikować zagrożenia, które niesie wykorzystanie Big Data, np. możliwość naruszania sfery prywatności lub wręcz inwigilacji całych społeczeństw.
Big Data
Firmy gromadzą i przetwarzają co-raz większe ilości danych. Dane te są często liczone w terabajtach lub petabajtach. Od pewnego czasu tak duże zbiory nazywane są Big Data. Sam termin Big Data zaczął pojawiać się w Internecie w pierwszej połowie 2000 roku, kiedy stało się już jasne, że firmy gromadzą i przetwarzają coraz większe ilości danych. Uznaje się, że ojcem tego wyrażenia jest John Mashey, naukowiec pracujący w Silicon Graphics.
Zgodnie z definicją firmy Forrester na Big Data składają się cztery wymiary, są to tzw. 4V:
- volume - ilość danych,
- variety - różnorodność danych,
- velocity - szybkość napływania nowych danych i ich analizy,
- value - wartość informacji.
Dane wykorzystywane w systemach Big Data pochodzą ze zróżnicowanych źródeł. Mogą to być tradycyjne bazy danych, systemy transakcyjne, serwisy społecznościowe, serwisy webowe lub urządzenia. Są to dane różnorodne, dynamicznie się zmieniające, nieprzystosowane do tradycyjnych form analizy i nieustrukturyzowane (zaliczają się do nich materiały audio i video, obrazy, treści z portali społecznościowych - wszelkie informacje niedające się ująć w prosty sposób w tradycyjnych bazach danych).
Nie każdy system informatyczny, w którym są gromadzone i analizowane wielkie ilości danych zaliczany jest do Big Data. Kluczowe są tu bowiem, poza rozmiarem, także ich różnorodność, wartość, szybkie napływanie oraz zaawansowane przetwarzanie i analizowanie. W zależności od branży i stopnia złożoności algorytmu może to oznaczać rozmiar terabajtów lub petabajtów (np. analiza zderzeń cząstek elementarnych w fizyce wysokich energii), jednak w innych zastosowaniach będą to już megabajty bądź gigabajty. Big Data ma zastosowanie wszędzie tam, gdzie dużej ilości danych cyfrowych towarzyszy potrzeba zdobywania nowych informacji lub wiedzy. Szczególne znaczenie odgrywa wzrost dostępności Internetu oraz usług świadczonych drogą elektroniczną, które w naturalny sposób są przystosowane do wykorzystywania baz danych.
Big Data pozwala na analizowanie informacji na bardziej zaawansowanym poziomie, niż robiły to tradycyjne narzędzia. Rozwiązania te znajdują już zastosowanie w takich dziedzinach biznesu jak bankowość, logistyka, telekomunikacja, motoryzacja, marketing czy rozrywka lub polityka. Dane zgromadzone w wielu niekompatybilnych ze sobą systemach teleinformatycznych, bazach i serwisach internetowych zostają przetworzone i połączone, dając spójny obraz badanej sytuacji, firmy czy osoby, niemożliwy do uzyskania tradycyjnymi metodami analitycznymi.
Przykładami wykorzystywania Big Data są z jednej strony kampanie marketingowe prowadzone przez duże sieci handlowe i banki, a z drugiej działania mające na celu bezpieczeństwo i ochronę informacji prowadzone przez firmy i instytucje rządowe.
Big Data jest zagrożeniem, czy szansą dla bezpieczeństwa? Na to pytanie nie ma prostej odpowiedzi. Potencjał analizy ogromnych ilości danych pochodzących z różnych źródeł jest oczywisty i każdy chciałby na nim skorzystać. Problem w tym, że zebrane informacje niejednokrotnie kryją dane wrażliwe. Firmy przetwarzające je są tego świadome i próbują uśpić naszą czujność oferując darmowe usługi. Natomiast instytucje państwowe i służby specjalne po prostu nie przyznają się do takich działań.
Szanse
Analiza danych od lat była stosowana w systemach bezpieczeństwa do wykrywania anomalii i zagrożeń. Specjaliści ds. bezpieczeństwa systemów teleinformatycznych analizowali informacje gromadzone w logach zarządzanych systemów i urządzeń. Pozwalało to wykrywać nietypowe zachowania użytkowników, przewidywać przyszłe awarie, a czasami także naruszenia bezpieczeństwa.
Wykorzystanie narzędzi analitycznych Big Data istotnie rozszerza możliwości w tej dziedzinie. Stają się one ważnym wsparciem personelu odpowiedzialnego za bezpieczeństwo in-formacji. W dużych firmach każdego dnia mogą być generowane nawet terabajty danych, które zawierają informacje mające wpływ na ich bezpieczeństwo. Są to nie tylko informacje o zdarzeniach zapisywane w logach, ale również e-maile wysyłane i otrzymywane przez pracowników, zawartość stron przez nich odwiedzanych itp. Nawet sprawne i doświadczone zespoły nie są w stanie szybko przeanalizować tak wielu danych. Dzięki wykorzystaniu narzędzi analitycznych Big Data umożliwiających przetwarzanie informacji o zagrożeniach w czasie rzeczywistym, firmy mogą znacznie szybciej zareagować na atak - często już w momencie, gdy ma on miejsce. Można je automatycznie analizować pod kątem anomalii wskazujących na działanie złośliwego oprogramowania, nieuprawnionych użytkowników bądź intruzów. Na przykład monitorując profile użytkowników w celu identyfikacji zmian ich lokalizacji, urządzeń używanych do łączenia z siecią lub odwiedzin stron o wysokim poziomie ryzyka. Jeśli pojawiają się jakieś niepokojące sygnały, to wówczas administratorzy zajmujący się bezpieczeństwem mogą zdecydować czy i jakie działania należy podjąć.
Ciekawym przykładem obrazują-cym wykorzystanie Big Data na potrzeby zapewnienia bezpieczeństwa jest opracowany przez Forda nowoczesny samochód hybrydowy Fusion. System komputerowy tego samochodu gromadzi i przetwarza ponad 25 GB danych na godzinę. Na informacje te składają się dane dotyczące samego pojazdu (m.in. jego przyspieszenie, szybkość, odchylenie od kursu), działania kierowcy i jego dane biometryczne (m.in. tętno, częstotliwość oddechów). Pełny obraz sytuacji pozwala na lepsze zrozumienie zachowań kierowców na drodze, przyczynia się do zmniejszenia liczby wypadków.
Zagrożenia
Jest jednak też i zła strona wykorzystania zbiorów i analiz Big Data. Obawa przed inwigilacją ze strony aparatu państwowego nie jest przesadzona. Prowadzanie takich działań potwierdzają informacje ujawniane przez Edwarda Snowdena, byłego współpracownika NSA (National Security Agency - Agencja Bezpieczeństwa Narodowego). To z nich świat dowiedział się, ze NSA od lat wykorzystuje narzędzia (np. XKeyScore, Tempora, Bullrun, EdgeHill), które pozwalają na śledzenie na bieżąco aktywności "celu" w Internecie poprzez analizę e-maili, rozmów za pomocą komunikatorów, aktywności w serwisach społecznościowych, czy też odwiedzanych i wyszukiwanych stron. I nawet szyfrowanie komunikacji nie zawsze zapewnia ochronę przed inwigilacją służb.
Istnieją obawy, że Big Data może być świetnym narzędziem do urzeczywistnienia państwa policyjnego. Państwa, w którym zbędna jest armia tajnych współpracowników i donosicieli, ponieważ każdy użytkownik Sieci, donosi de facto sam na siebie.
Co dalej?
Doniesienia instytucji analitycznych wskazują, że rola Big Data w procesach związanych z zapewnieniem bezpieczeństwa informacji i IT będzie w najbliższych latach systematycznie wzrastała. Dotyczy to zarówno nowych narzędzi analitycznych oraz sprzętu, który będzie niezbędny do gromadzenia i przetwarzania ogromnych ilości różnorakich danych.
Według IDC, do 2020 roku na świecie ma być zgromadzonych 40 zettabajtów danych. Z drugiej zaś strony obecnie tylko 0,5 proc. danych podlega analizie. Wartość rynku rozwiązań informatycznych związanych z Big Data w roku 2014 będzie wynosiła wg IDC ponad 16 miliardów dolarów. Natomiast analitycy Gartnera szacują, że sięgnie nawet 34 mld dolarów.
Barierą dla szerszego wykorzystania możliwości, jakie już dziś daje Big Data, może się okazać brak odpowiednio wykształconej kadry. Z opublikowanego w 2012 roku raportu McKinsey Global Institute wynika, że do 2018 roku tylko w USA będzie brakowało 140-190 tys. odpowiednio przygotowanych analityków. A warto podkreślić, że powinni oni posiadać interdyscyplinarne umiejętności: poza informatyką, będą potrzebować wiedzy z zakresu np. matematyki, socjologii i psychologii.
Janusz Żmudziński