Dzisiejsze wyzwanie Big Data wynika z różnorodności, a nie objętości lub prędkości

Zawartość

Trzy V dużych zbiorów danych
Rozwiązanie problemu różnorodności danych
Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia

Na wynos:

Zbyt wiele działów IT rzuca wszystko, co mają, w kwestię wielkości i prędkości danych, zapominając o rozwiązaniu podstawowego problemu różnorodności danych.

Według Douga Laneya, wiceprezesa ds. Badań w firmie Gartner, wyzwanie związane z zarządzaniem i wykorzystaniem dużych zbiorów danych wynika z trzech elementów. Laney po raz pierwszy zauważył ponad dekadę temu, że duże zbiory danych stanowią taki problem dla przedsiębiorstwa, ponieważ wprowadzają trudny do zarządzania wolumen, szybkość i różnorodność. Problem polega na tym, że zbyt wiele działów IT rzuca wszystko, co mają, w kwestię wielkości i prędkości danych, zapominając o rozwiązaniu podstawowego problemu różnorodności danych.

W 2001 roku Laney napisał, że „wiodące przedsiębiorstwa coraz częściej będą korzystać ze scentralizowanej hurtowni danych w celu zdefiniowania wspólnego słownictwa biznesowego, które usprawnia współpracę wewnętrzną i zewnętrzną”. Kwestia tego słownictwa - i różnorodność, która powstrzymuje firmy przed jego tworzeniem - pozostaje dziś najmniej poruszanym aspektem zagadki dotyczącej dużych zbiorów danych. (Sprawdź, co mają do powiedzenia inni eksperci. Zobacz ekspertów od Big Data, którzy będą śledzić dalej).

Trzy V dużych zbiorów danych

Wiele firm znalazło metody wykorzystania zwiększonej ilości i prędkości danych. , na przykład, może analizować ogromne ilości danych. Oczywiście dane te są często przedstawiane w kółko w tych samych parametrach. Doprowadziło to do innowacji technologicznych, takich jak bazy danych kolumn, które są obecnie szeroko stosowane przez inne firmy, które mają do czynienia z równie dużymi zasobami podobnych elementów danych.

Pod względem prędkości oswajania dostawcy tacy jak Splunk pomagają przedsiębiorstwom analizować szybko tworzone dane za pomocą plików dziennika, które rejestrują kilka tysięcy zdarzeń na sekundę. Ta analiza zdarzeń o dużej objętości jest ukierunkowana na przypadki użycia związane z monitorowaniem bezpieczeństwa i wydajności. Podobnie jak w przypadku wyzwania dotyczącego ilości danych, wyzwanie prędkości zostało w dużej mierze rozwiązane dzięki wyrafinowanym technikom indeksowania i rozproszonej analizie danych, które umożliwiają skalowanie wydajności przetwarzania ze zwiększoną prędkością danych.

Jednak jeśli chodzi o różnorodność, zbyt wiele przedsiębiorstw wciąż napotyka duży problem w podejściu do analizy dużych zbiorów danych. Problem ten jest spowodowany trzema czynnikami: Po pierwsze, ze względu na wzrost, przejęcia i innowacje technologiczne, które dodają nowe systemy do środowiska, przedsiębiorstwa są zamknięte w wysoce niejednorodnym środowisku, a ta niejednorodność rośnie tylko z czasem. Przedsiębiorstwa muszą śledzić mnóstwo rodzajów systemów i zarządzać dziesiątkami tysięcy typów danych, a także reprezentować te same dane przy użyciu różnych nomenklatur i formatów.

Po drugie, te systemy i typy danych w wielu przypadkach zgłaszają zarówno istotne informacje, jak i informacje, które można bezpiecznie odfiltrować, jako nieistotne dla rozwiązania problemu. Konieczna jest wiarygodna identyfikacja istotnych informacji.

Trzecim wymiarem wyzwania dotyczącego różnorodności jest stała zmienność lub zmiana środowiska. Systemy są aktualizowane, wprowadzane są nowe systemy, dodawane są nowe typy danych i wprowadzana jest nowa nomenklatura. To dodatkowo osłabia naszą zdolność do oswojenia wyzwania dotyczącego różnorodności danych. To dodaje dodatkową warstwę wyzwaniu różnorodności. (Aby uzyskać więcej informacji, zapoznaj się z Big Data: Jak przechwycono, nawalono i wykorzystano do podejmowania decyzji biznesowych).

Rozwiązanie problemu różnorodności danych

Aby rozwiązać problem różnorodności danych, przedsiębiorstwa muszą zacząć od domeny IT, ponieważ często reprezentują zarówno najgorszych przestępców, jak i najgorsze ofiary problemu różnorodności. Pierwszym krokiem jest rozpoczęcie od kompleksowej definicji lub taksonomii wszystkich elementów lub aktywów IT. Jest to podstawa lub podstawa do odniesienia do czegokolwiek w informatyce lub na jej temat oraz umożliwia przedsiębiorstwom zarządzanie rosnącą różnorodnością w stosunku do znanej taksonomii lub terminologii.

Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia

Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.

Następnym krokiem jest identyfikacja wielu sposobów reprezentacji tego samego obiektu w różnych systemach zapisu. Umożliwia to specjalistom IT przeglądanie heterogenicznego środowiska oraz wysoce filtrowanie i kompresowanie danych w odpowiednie i łatwe do zarządzania porcje.

Wreszcie, kierownicy działów IT muszą przyjąć proces ciągłego badania środowiska pod kątem zmian, takich jak wprowadzane nowe typy elementów lub nowa nomenklatura, aby odnosić się do tego samego elementu.

Dzięki tym krokom organizacje IT mogą zarządzać problemem związanym z różnorodnością i uzyskiwać głębokie informacje, które w przeszłości wymykały się zespołom IT. Co więcej, zarządzanie problemem związanym z różnorodnością znacznie poprawia zwrot z inwestycji w narzędzia i techniki, które rozwiązują bardziej tradycyjne problemy dużych zbiorów danych dotyczące wielkości i prędkości.