5 kluczowych obszarów, w których duży wpływ wywiera duży wpływ

Zawartość

Jak to się stało
Big Data, duża szansa
Coś do obejrzenia

Źródło: Nmedia /Dreamstime.com

Na wynos:

Big data jest wszędzie dużym biznesem, ale kilka konkretnych obszarów najbardziej wykorzystuje tę technologię.

Kiedy zacząłem ten artykuł, planowałem wymienić różne typy platform dużych zbiorów danych. Ale po trzech dniach próbowania skorygowania wszystkich różnych ofert dużych zbiorów danych - relacyjnych kontra nierelacyjnych, SQL kontra NoSQL i bazy danych kontra framework - w pewnym pozornym porządku, postanowiłem uniknąć tego bałaganu.

Aby dodać obrazę obrażeniom, miałem nadzieję przedstawić osobę, która ukuła termin „duże zbiory danych” jako część artykułu. Ale nawet tego nie mogę zrobić. Nie ma uzgodnionej odpowiedzi. W rzeczywistości istnieje szeroko zakrojony projekt badawczy, który ma na celu ustalenie, kto pierwotnie wymyślił duże zbiory danych. Zamiast tego przyjrzę się niektórym kluczowym sposobom wykorzystywania dużych zbiorów danych. To o wiele ważniejsze. I to jest bardziej interesujące i zaskakujące niż mogłoby się wydawać.

Jak to się stało

Analitycy używający tradycyjnej eksploracji danych od lat manipulują danymi. Ci sami analitycy mają teraz trudności z radzeniem sobie z ilością i różnorodnością danych zapisywanych przez firmy, organizacje prywatne i agencje rządowe.

Wprowadź duże zbiory danych, kolejny krok ewolucyjny w eksploracji danych. Duże zbiory danych zostały zaprojektowane do obsługi ogromnych baz danych i niezliczonych rodzajów danych tworzonych w dzisiejszym cyfrowym świecie. Jeśli „masywny” ma na myśli Google i wszystkie gromadzone przez niego dane, byłbyś na boisku. Co może Cię zaskoczyć, to fakt, że Google jest dopiero czwarty na liście dziesięciu największych baz danych na świecie. W styczniu 2014 r. World Data Center for Climate znalazło się na szczycie listy z 220 terabajtami danych i nikt nie zgaduje co do wielkości baz danych kontrolowanych przez niektóre agencje rządowe.

Oczywiście duże zbiory danych wystartowały, ponieważ umożliwiają manipulowanie ogromnymi ilościami niepodobnych danych oraz odkrywanie niesamowitych - niezwykle szczegółowych i osobistych - rzeczy. John Sumser, analityk branży HR, podaje następujący przykład:

„Dzisiaj tworzymy hipotezy i zbieramy dane. Jutro będziemy robić odwrotność. Stałe, stałe gromadzenie danych pozwoli nam spojrzeć na dane przed sformułowaniem pytań. Oznacza to, że otrzymamy odpowiedzi na pytania, na które nie zadaliśmy” nie wiem, o co zapytać. Nie będziemy myśleć o całej masie rzeczy, które zakładamy, że są faktami ”.

Oczywiście wszyscy słyszeliśmy o niektórych przerażających sposobach wykorzystania tych danych, takich jak zdolność Targetów do rozpoznania ciąży młodej kobiety, zanim jej rodzina się dowie. Ale duże zbiory danych są również wykorzystywane do znacznie mniej złowrogich przyczyn. Oto kilka organizacji, które wykorzystują go najbardziej:

Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.

Jednym z oczywistych obszarów, w którym duże zbiory danych będą pomocne, jest bezpieczne i dokładne przetwarzanie elektronicznych dokumentacji medycznych we wszystkich organizacjach medycznych. Posiadanie dokładnych zapisów zapewni pacjentom lepszą obsługę i zmniejszy liczbę błędów. Sektor opieki zdrowotnej, z oczywistych powodów, dostosowuje duże zbiory danych w wolniejszym tempie, aby dostosować się do rządowych przepisów dotyczących poufności pacjentów.

Jak wspomniano wcześniej, duże zbiory danych są znane z udzielania odpowiedzi na pytania bez zadawania pytań. W dziedzinie opieki zdrowotnej może to oznaczać znalezienie nowego leku lub leczenia, których inaczej nie można byłoby znaleźć. Według McKinsey & Company, duże zbiory danych mogą umożliwić w niedalekiej przyszłości:

Modelowanie predykcyjne procesów biologicznych i leków staje się bardziej wyrafinowane i rozpowszechnione.
Uznano, że pacjenci biorą udział w badaniach klinicznych na podstawie większej liczby źródeł informacji, takich jak media społecznościowe.
Próby są monitorowane w czasie rzeczywistym, aby szybko zidentyfikować kwestie bezpieczeństwa lub operacyjne.
Zamiast trudnych do wykorzystania sztywnych silosów danych, dane są rejestrowane elektronicznie i łatwo przepływają między różnymi jednostkami.

Big Data, duża szansa

Podczas gdy duże zbiory danych są wykorzystywane w niektórych określonych obszarach, oferują możliwości wszystkim organizacjom w następujących obszarach:

Prawie każde urządzenie komputerowe i sieciowe rejestruje dane. Szybko rejestrowana ilość danych staje się niewygodna. Big data może z łatwością zarządzać taką ilością danych, pozwalając administratorom monitorować aktywność sieci, diagnozować problemy lub, w przykładzie podanym przez Rubina, szukać pewnych wzorców ruchu sieciowego, które wskazywałyby na aktywność szkodliwego oprogramowania.

Jeśli czytasz ten artykuł, to dość bezpieczny zakład, że wiesz o problemie Heartbleed otaczającym OpenSSL. Oprócz problemu technicznego istnieje obawa, że luka istnieje od kilku lat. Rubin wspomniał, że duże zbiory danych pozwalają administratorom sieci, we współpracy z analitykami danych, stworzyć program, który będzie przeszukiwał wszystkie dzienniki sieciowe w poszukiwaniu złośliwych uderzeń serca. Ten post EFF wspomina:

„Każdy operator sieci, który ma rozbudowane dzienniki pakietów, może sprawdzić, czy nie ma szkodliwych uderzeń serca, które najczęściej mają ładowność TCP 18 03 02 00 03 01 lub 18 03 01 00 03 01 (a może nawet 18 03 03 00 03 01).”

Poniższy przykład to przykładowe dane wyjściowe polecenia show audit:

Router # pokazuje audyt

* 14 września 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Użytkownik:

* 14 września 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Użytkownik:

* 14 września 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Użytkownik:

* 14 września 18: 37: 32.107:% AUDIT-1-FILESYSTEM: Hash:

330E7111F2B526F0B850C24ED5774EDE Użytkownik:

* 14 września 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Użytkownik:

Jeśli przestrzegasz znaczników czasu, odstęp czasu dla wszystkich tych wpisów był krótszy niż jedna sekunda. Nie chciałbym nawet ekstrapolować tego na dzień, nie mówiąc już o dwa lata!

Coś do obejrzenia

Jeśli spojrzysz na oferty pracy, istnieje ogromna potrzeba ekspertów od dużych zbiorów danych. Zapytałem o to Rubina. Zgodził się, wspominając, że jego uczniowie byli podekscytowani ich perspektywami. Potem zdałem sobie sprawę, że platformy dużych zbiorów danych, w szczególności te uważane za otwarte źródła, postępują zgodnie z harmonogramem bardzo podobnym do tego, jak Linux stał się głównym nurtem.

Uniwersytety przyjmują otwarte wersje platform big data, w szczególności Hadoop, ponieważ są one bezpłatne, a studenci mogą manipulować kodem źródłowym. Tak więc absolwenci, którzy wypełnią wszystkie te oferty pracy, wolą pracować z platformami typu open source, ponieważ to jest to, co wiedzą najlepiej. Ciekawie będzie oglądać.