10 zakazów i zakazów Big Data

Zawartość

Zaangażuj wszystkie sekcje biznesowe w inicjatywę dużych zbiorów danych
Przeanalizuj wszystkie modele infrastruktury do wdrożenia dużych zbiorów danych
Rozważ tradycyjne źródła danych w planowaniu dużych zbiorów danych
Rozważ spójny zestaw danych
Rozpowszechniaj dane
Nigdy nie polegaj na jednym podejściu do analizy dużych zbiorów danych
Nie zaczynaj inicjatywy dużych zbiorów danych, zanim będziesz gotowy
Nie używaj danych w izolacji
Nie ignoruj bezpieczeństwa danych
Nie ignoruj części dotyczącej wydajności analizy dużych zbiorów danych

Źródło: Rawpixelimages / Dreamstime.com

Na wynos:

Big data to nowa i powstająca domena dla większości firm. Sprawienie, by działało, wymaga starannego dostrojenia i stosowania najlepszych praktyk.

Duże zbiory danych są bardzo obiecujące dla wszystkich branż. Jeśli te duże zbiory danych są wykorzystywane skutecznie i wydajnie, mogą mieć znaczący wpływ na podejmowanie decyzji i analizy. Korzyści z dużych zbiorów danych można jednak osiągnąć tylko wtedy, gdy są zarządzane w sposób ustrukturyzowany. Stopniowo opracowywane są najlepsze praktyki w zakresie dużych zbiorów danych, ale istnieją już pewne jasne wskazówki, które dotyczą ich wdrażania.

Poniższe wskazówki oparte są na praktycznym doświadczeniu i wiedzy zebranych z rzeczywistych projektów. Oto moje najlepsze duże zbiory danych i nie.

Zaangażuj wszystkie sekcje biznesowe w inicjatywę dużych zbiorów danych

Inicjatywa w zakresie dużych zbiorów danych nie jest odosobnionym i niezależnym działaniem, a zaangażowanie wszystkich jednostek biznesowych jest niezbędne, aby uzyskać prawdziwą wartość i wgląd. Duże zbiory danych mogą pomóc organizacjom wykorzystać duże ilości danych i uzyskać wgląd w zachowania klientów, zdarzenia, trendy, prognozy itp. Nie jest to możliwe dzięki migawce danych, która przechwytuje tylko część całego wolumenu danych przetwarzanych w dużych danych. W rezultacie firmy coraz bardziej koncentrują się na wszystkich typach danych pochodzących ze wszystkich możliwych ścieżek / jednostek biznesowych, aby zrozumieć prawidłowy wzorzec.

Przeanalizuj wszystkie modele infrastruktury do wdrożenia dużych zbiorów danych

Objętość danych i zarządzanie nimi stanowią poważny problem w każdej inicjatywie dużych zbiorów danych. Ponieważ duże zbiory danych dotyczą petabajtów danych, jedynym rozwiązaniem do zarządzania nimi są centra danych. Jednocześnie przed wybraniem i sfinalizowaniem jakiegokolwiek obiektu magazynowego należy wziąć pod uwagę składnik kosztowy. Usługi w chmurze są często najlepszym wyborem, ale usługi różnych środowisk w chmurze muszą zostać ocenione w celu ustalenia odpowiedniego. Ponieważ pamięć masowa jest jednym z najważniejszych elementów każdej implementacji dużych zbiorów danych, jest to czynnik, który należy bardzo dokładnie ocenić w każdej inicjatywie dużych zbiorów danych. (Zdobądź inną perspektywę w dzisiejszych wyzwaniach Big Data Challenge od Variety, Not Volume or Velocity.)

Rozważ tradycyjne źródła danych w planowaniu dużych zbiorów danych

Istnieją różne źródła dużych zbiorów danych, a ich liczba rośnie z dnia na dzień. Ta ogromna ilość danych jest wykorzystywana jako dane wejściowe do przetwarzania dużych zbiorów danych. W rezultacie niektóre firmy uważają, że tradycyjne źródła danych są bezużyteczne. To nie jest prawda, ponieważ te tradycyjne dane są kluczowym elementem sukcesu każdej historii dużych zbiorów danych. Tradycyjne dane zawierają cenne informacje, dlatego należy ich używać w połączeniu z innymi źródłami dużych zbiorów danych. Rzeczywistą wartość dużych zbiorów danych można ustalić tylko wtedy, gdy weźmie się pod uwagę wszystkie źródła danych (tradycyjne i nietradycyjne). (Dowiedz się więcej w Weź to, Big Data! Dlaczego małe dane mogą spakować większy cios).

Rozważ spójny zestaw danych

W środowisku dużych zbiorów danych dane pochodzą z różnych źródeł. Format, struktura i typy danych różnią się w zależności od źródła. Najważniejsze jest to, że dane nie są czyszczone w środowisku dużych zbiorów danych. Tak więc, zanim zaufasz napływającym danym, musisz sprawdzić spójność poprzez powtarzalne obserwacje i analizy. Po potwierdzeniu spójności danych można je traktować jako spójny zestaw metadanych. Znalezienie spójnego zestawu metadanych poprzez staranne obserwowanie wzorca jest niezbędnym ćwiczeniem przy planowaniu dużych zbiorów danych.

Rozpowszechniaj dane

Ilość danych stanowi poważny problem, jeśli weźmiemy pod uwagę środowisko przetwarzania. Ze względu na ogromną ilość danych, którymi zajmują się duże zbiory danych, przetwarzanie na jednym serwerze nie jest możliwe. Rozwiązaniem jest środowisko Hadoop, które jest rozproszonym środowiskiem komputerowym działającym na sprzęcie towarowym. Daje moc szybszego przetwarzania na wielu węzłach. (Dowiedz się więcej w 7 rzeczach, które należy wiedzieć o Hadoop.)

Nigdy nie polegaj na jednym podejściu do analizy dużych zbiorów danych

Na rynku dostępne są różne technologie przetwarzania dużych zbiorów danych. Podstawą wszystkich technologii dużych zbiorów danych są Apache Hadoop i MapReduce. Dlatego ważne jest, aby ocenić prawidłową technologię dla właściwego celu. Niektóre z ważnych podejść analitycznych to analizy predykcyjne, analizy preskryptywne, analizy, analizy danych strumieniowych itp. Wybór odpowiedniej metody / podejścia jest ważny dla osiągnięcia pożądanego celu. Najlepiej jest unikać polegania na jednym podejściu, ale badać różne podejścia i wybierać idealne dopasowanie do swojego rozwiązania.

Nie zaczynaj inicjatywy dużych zbiorów danych, zanim będziesz gotowy

Zawsze zaleca się rozpoczęcie od małych kroków w przypadku każdej inicjatywy w zakresie dużych zbiorów danych. Zacznij od projektów pilotażowych, aby zdobyć wiedzę specjalistyczną, a następnie przejdź do faktycznego wdrożenia. Potencjał dużych zbiorów danych jest imponujący, ale prawdziwą wartość można osiągnąć tylko wtedy, gdy ograniczymy liczbę błędów i zdobędziemy więcej wiedzy.

Nie używaj danych w izolacji

Źródła dużych zbiorów danych są rozproszone wokół nas i rosną z dnia na dzień. Ważne jest, aby zintegrować wszystkie te dane, aby uzyskać prawidłowy wynik analizy. Na rynku dostępne są różne narzędzia do integracji danych, ale należy je odpowiednio ocenić przed użyciem. Integracja dużych zbiorów danych jest złożonym zadaniem, ponieważ dane z różnych źródeł mają inny format, ale uzyskanie dobrych wyników analizy jest bardzo wymagane.

Nie ignoruj bezpieczeństwa danych

Bezpieczeństwo danych jest ważnym czynnikiem przy planowaniu dużych zbiorów danych. Początkowo (przed jakimkolwiek przetwarzaniem) dane są w petabajtach, więc bezpieczeństwo nie jest ściśle wdrażane. Ale po pewnym przetworzeniu otrzymasz podzbiór danych, który zapewnia pewien wgląd. W tym momencie bezpieczeństwo danych staje się niezbędne. Im bardziej dane są przetwarzane i dostosowywane, tym bardziej cenne stają się dla organizacji. Te precyzyjnie dostosowane dane wyjściowe stanowią własność intelektualną i muszą być zabezpieczone. Bezpieczeństwo danych należy wdrożyć w ramach cyklu życia dużych zbiorów danych.

Nie ignoruj części dotyczącej wydajności analizy dużych zbiorów danych

Wynik analizy dużych zbiorów danych jest użyteczny tylko wtedy, gdy zapewnia dobrą wydajność. Big data oferuje więcej informacji opartych na przetwarzaniu ogromnej ilości danych z większą prędkością. Dlatego ważne jest, aby zarządzać nim skutecznie i wydajnie. Jeśli wydajność dużych zbiorów danych nie będzie zarządzana ostrożnie, spowoduje to problemy i sprawi, że cały wysiłek będzie bez znaczenia.

W naszej dyskusji skupiliśmy się na szczegółach i inicjatywach dotyczących dużych zbiorów danych. Duże zbiory danych to nowy obszar, a jeśli chodzi o wdrażanie, wiele firm wciąż znajduje się w fazie planowania. Konieczne jest zrozumienie najlepszych praktyk w zakresie dużych zbiorów danych, aby zminimalizować ryzyko i błędy. Punkty do dyskusji zostały zaczerpnięte z doświadczeń na żywo z projektu, więc podadzą pewne wskazówki dotyczące sukcesu strategii dużych zbiorów danych.