Operacyjny Hadoop w architekturze danych nowej generacji

Autor: Roger Morrison
Data Utworzenia: 20 Wrzesień 2021
Data Aktualizacji: 1 Lipiec 2024
Anonim
Hadoop Tutorial - Architecture
Wideo: Hadoop Tutorial - Architecture

Zawartość



Źródło: Romeo1232 / Dreamstime.com

Na wynos:

Hadoop będzie kluczowym graczem w architekturze danych nowej generacji ze względu na jego zdolność do obsługi ogromnych ilości danych.

Narzędzie Hadoop zaczyna wykraczać poza przetwarzanie dużych danych i analizy, ponieważ branża zaczyna żądać od niego więcej. Hadoop stale spełnia różnorodne wymagania związane z architekturą danych przedsiębiorstwa, zachowując swoje pierwotne zalety. Lista tego, co Hadoop może zrobić i obecnie robi, jest dość długa. Hadoop jest teraz w stanie przetwarzać ogromne ilości obciążeń transakcyjnych, czego wcześniej oczekiwano od tradycyjnych technologii. W przyszłości istnieje wiele możliwości dla Hadoop w przyszłości. Na przykład systemy transakcyjne oparte na SQL mogą wykorzystywać silnik SQL Hadoop, a Hadoop doda także wiele możliwości RDBMS. Można powiedzieć, że Hadoop staje się hybrydą przetwarzania danych i możliwości analitycznych z możliwościami architektury korporacyjnej.


Co to jest architektura danych nowej generacji?

Mówiąc prościej, architektura danych nowej generacji jest rozwiniętą formą architektury danych. Wszystko, w tym modele danych, zasady danych, zasady i standardy regulujące sposób gromadzenia, przechowywania, aranżowania, analizowania lub przetwarzania danych, integracji, wykorzystywania i wydawania danych, ewoluowało w ramach architektury danych nowej generacji.

Główną różnicą między wcześniejszą architekturą danych a architekturą danych nowej generacji jest zdolność tego ostatniego do gromadzenia, przechowywania i przetwarzania ogromnych ilości danych, znanych również jako duże zbiory danych, w czasie rzeczywistym. Architektura wykonuje wszystkie te złożone zadania bez uszczerbku dla standardów prywatności, bezpieczeństwa i zarządzania danymi.

Architektura danych nowej generacji stoi przed wieloma wyzwaniami. Nie jest łatwo obsłużyć objętość, prędkość i różnorodność dużych zbiorów danych. Dodaj do tego wymagania optymalizacji obciążenia systemu, poprawy wydajności, szybkości i dokładności oraz redukcji kosztów. Nie trzeba dodawać, że poprzednia architektura danych nie musiała sprostać takim wymaganiom.


Dlatego dyrektorzy IT i architekci informacji chcą znaleźć rozwiązanie, które pomoże im osiągnąć swoje cele. Operacyjny Hadoop był w centrum uwagi od pewnego czasu. W kolejnych rozdziałach omówimy, w jaki sposób operacyjny Hadoop może rozwiązać problemy.

Oczekiwania od Hadoopa w związku z architekturą następnej generacji

Firmy są pod rosnącą presją, aby dostarczać lepsze wyniki, a efekty spływają do oczekiwań stawianych technologiom. Dlatego nie oczekuje się, że Hadoop będzie przetwarzał dane. CIO i CTO chcą więcej od Hadoop. Poniżej znajduje się lista oczekiwań firmy Hadoop. W rzeczywistości Hadoop spełnia już niektóre z tych oczekiwań.

Oczekuje się, że Hadoop będzie współpracować z systemami transakcyjnymi opartymi na SQL i posiadającymi funkcje tworzenia, odczytu, aktualizacji i usuwania. Systemy transakcyjne będą wykorzystywać silnik SQL. Systemy będą również miały pełną zgodność z POSIX (Portable Operating System Interface) i będą mogły przetwarzać duże ilości transakcji.

Oczekuje się, że Hadoop będzie obsługiwał takie funkcje, jak tworzenie kopii zapasowych, odporność na awarie, odzyskiwanie i odzyskiwanie po awarii. Aby Hadoop mógł ewoluować w system z funkcjami RDBMS, musi być kompatybilny z istniejącymi narzędziami IT.

Hadoop już pracuje nad spełnieniem oczekiwań, co widać po niektórych zmianach. Hadoop może zapewniać analizę w czasie rzeczywistym i szybkie odpowiedzi w oparciu o wsparcie zarządzania zasobami zapewniane przez YARN. YARN to nie tylko menedżer zasobów, ale także rozproszony system operacyjny dla dużych zbiorów danych. Wiadomo, że działają inne rozwiązania, takie jak Apache Storm, rozproszone architektury w pamięci, takie jak Apache Spark, Apache Hive, Drill i MapR-FS (wysokiej wydajności zamiennik HDFS), aby oferować różne pełne możliwości bazy danych, takich jak tworzenie kopii zapasowych, odzyskiwanie po awarii, odporność na awarie itp. (Aby uzyskać więcej informacji na temat YARN, zobacz Jakie są zalety architektury Hadoop 2.0 (YARN)?)

Jakie wartości może dodać Hadoop do architektury danych nowej generacji?

Wartości, które Hadoop może dodać do architektury danych nowej generacji, można zobaczyć z dwóch perspektyw: po pierwsze, czy spełnia on opisane powyżej oczekiwania, i po drugie, czy robi coś dodatkowego. Poniżej podano istotne wartości, które może przynieść operacyjny Hadoop.

Hadoop jest teraz w stanie zapewnić większą skalowalność i zarządzanie danymi na swojej platformie za pośrednictwem HDFS. System danych został włączony za pośrednictwem aplikacji YARN firmy Hadoop. Strategia ta stanowi zmianę w architekturze danych na poziomie podstawowym. Teraz Hadoop może przechowywać różne rodzaje danych, takie jak transakcyjne bazy danych, bazy danych wykresów i baz danych dokumentów, a dane te są dostępne za pośrednictwem aplikacji YARN. Nie ma potrzeby kopiowania ani przenoszenia danych do innych lokalizacji.

Poprawiona wydajność jako architektura danych przedsiębiorstwa

Operacyjny Hadoop jest na dobrej drodze, aby stać się podstawowym systemem architektury danych przedsiębiorstwa. W miarę, jak Hadoop bardziej wkracza w architekturę danych korporacyjnych, silosy danych będą eliminowane, ponieważ linie między nimi zostaną wyeliminowane. Nastąpi szybka poprawa w prawie wszystkich aspektach. Ulepszenia zostaną wprowadzone w postaci bardziej wydajnych formatów plików, lepszej wydajności silnika SQL, ulepszonych systemów plików i niezawodności, która zaspokoi potrzeby aplikacji korporacyjnych.

Różnica między Hadoop a innymi technologiami

W przeszłości główną różnicą między technologiami Hadoop a technologiami przedsiębiorstwa do przetwarzania danych były możliwości przetwarzania, raportowania i analizy dużych zbiorów danych w Hadoop. Teraz, gdy operacyjny Hadoop staje się coraz bardziej częścią architektury danych korporacyjnych, różnica między jednostkami staje się coraz bardziej rozmyta. Tak więc operacyjny Hadoop staje się doskonałą alternatywą dla istniejącej architektury danych przedsiębiorstwa.

Wniosek

Biorąc pod uwagę oczekiwania i postępy, Hadoop będzie w centrum zainteresowania branży już od dłuższego czasu. Ale warto nie skupiać się zbytnio na Hadoop i po prostu ignorować inne technologie. Wynika to z faktu, że inne technologie będą robić postępy przy tych samych parametrach, a nawet mogą wyprzedzić Hadoop. Monopol na rynku nigdy nie jest dobry. Dobrze, że twórcy technologii innych niż Hadoop mogą być zmotywowani do dostarczania lepszych produktów, a nawet wtyczek, które pomagają Hadoop poprawić jego wydajność.