Analiza Hadoop: łączenie danych wymaga podejścia niezależnego od źródła

Autor: Laura McKinney
Data Utworzenia: 1 Kwiecień 2021
Data Aktualizacji: 16 Móc 2024
Anonim
Analiza Hadoop: łączenie danych wymaga podejścia niezależnego od źródła - Technologia
Analiza Hadoop: łączenie danych wymaga podejścia niezależnego od źródła - Technologia


Źródło: Agsandrew / Dreamstime.com

Na wynos:

Metody niezależne od źródła są idealne do przetwarzania danych do analizy Hadoop.

Czesanie źródeł danych w Hadoop to złożony biznes. Niektóre z tego przyczyn to:

  • Problematyczne są niestandardowe skrypty właściwe dla źródła łączące źródła danych.
  • Korzystanie z narzędzi do integracji danych lub analizy danych wprowadza zbyt dużą niepewność.
  • Dodawanie danych ze źródeł zewnętrznych jest prawie niemożliwe.

Dzisiaj zamierzam omówić, w jaki sposób analityka Hadoop jest ulepszana poprzez technologie niezależne od źródła, które ułatwiają łączenie wewnętrznych i zewnętrznych źródeł danych. Oprócz opisu działania metod niezależnych od źródła, wyjaśnię również, dlaczego analityka Hadoop potrzebuje wbudowanych funkcji inteligencji i transferu wiedzy, zrozumienia relacji i charakterystyki danych oraz skalowalnej i wysokowydajnej architektury.



  • Metody niezależne od źródła obejmują elastyczny model rozpoznawania jednostek, który umożliwia dodawanie nowych źródeł danych przy użyciu statystycznie wiarygodnych, powtarzalnych procesów analizy danych. Te procesy wykorzystują algorytmy do gromadzenia wiedzy z danych oraz oceny, analizy i określenia najlepszego podejścia integracyjnego.
    Bez względu na to, jak fragmentaryczne lub niekompletne są oryginalne rekordy źródłowe, technologie analityczne Hadoop powinny być niezależne od źródła i być w stanie ujednolicić dane bez zmiany lub manipulowania danymi źródłowymi. Technologie te powinny również tworzyć indeksy jednostek na podstawie treści danych oraz atrybutów dotyczących osób i ich istnienia na świecie. Aby to osiągnąć, muszą zrozumieć treść danych, konfigurację, strukturę i wzajemne relacje komponentów.
  • Wbudowana wiedza z zakresu analizy danych i integracji danych umożliwia czyszczenie, standaryzację i korelację danych z dużą dokładnością i precyzją. Narzędzia do wizualizacji i raporty pomagają analitykom oceniać dane i wyciągać z nich wnioski, a także dostrajać system w oparciu o wiedzę zdobytą na różnych etapach procesu.
  • Zrozumienie relacji między jednostkami skutkuje dokładniejszymi procesami rozstrzygania podmiotów. Ponieważ istoty w świecie rzeczywistym są nie tylko sumą ich atrybutów, ale także ich powiązań, wiedza o relacjach powinna być wykorzystywana do wykrywania, gdy rekordy są takie same. Jest to szczególnie ważne przy obsłudze przypadków narożnych i dużych zbiorów danych.
  • Charakterystyka danych poprawia analizę, rozdzielczość i łączenie danych poprzez identyfikację i zapewnianie informacji dla źródeł danych. Może to pomóc w sprawdzeniu poprawności treści, gęstości i dystrybucji danych w kolumnach uporządkowanych informacji. Charakteryzację danych można również wykorzystać do identyfikacji i wydobywania ważnych danych związanych z bytem (imię i nazwisko, adres, data urodzenia itp.) Ze źródeł nieustrukturyzowanych i częściowo ustrukturyzowanych w celu korelacji ze źródłami strukturalnymi.
  • Skalowalna, równoległa architektura szybko wykonuje analizy, nawet jeśli obsługuje setki ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych źródeł danych oraz dziesiątki miliardów rekordów.

Hadoop zmienia sposób, w jaki świat wykonuje analizy. Po dodaniu nowych analiz niezależnych od źródła do ekosystemów Hadoop organizacje mogą łączyć kropki w wielu wewnętrznych i zewnętrznych źródłach danych i uzyskiwać informacje, które wcześniej nie były możliwe.


Ten artykuł został pierwotnie opublikowany na stronie Novetta.com. Zostało tu wydane za pozwoleniem. Novetta zachowuje wszelkie prawa autorskie.