Kudu: Zmieniacz gry w ekosystemie Hadoop?

Wideo: What is APACHE KUDU? What does APACHE KUDU mean? APACHE KUDU meaning, definition & explanation

Zawartość

Co to jest Kudu?
Jaki jest obecny stan Kudusa?
Jak Kudu może uzupełniać HDFS / HBase?
Funkcje frameworka Kudu
Jak Kudu może zmienić ekosystem Hadoop?
Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia
Wniosek

Źródło: Agsandrew / Dreamstime.com

Na wynos:

Kudu to projekt typu open source, który pomaga efektywniej zarządzać pamięcią masową.

Kudu to nowy projekt typu open source, który zapewnia możliwość aktualizacji pamięci. Jest uzupełnieniem HDFS / HBase, która zapewnia przechowywanie sekwencyjne i tylko do odczytu. Kudu jest bardziej odpowiedni do szybkiej analizy szybkich danych, co jest obecnie potrzebą biznesu. Zatem Kudu to nie tylko kolejny projekt ekosystemu Hadoop, ale ma on potencjał zmiany rynku. (Aby uzyskać więcej informacji na temat Hadoop, zobacz 10 najważniejszych warunków Hadoop, które musisz znać i rozumieć).

Co to jest Kudu?

Kudu to specjalny rodzaj systemu przechowywania, który przechowuje uporządkowane dane w postaci tabel. Każda tabela ma wstępnie zdefiniowane liczby kolumn. Każdy z nich ma klucz podstawowy, który w rzeczywistości jest grupą jednej lub więcej kolumn tej tabeli. Ten klucz podstawowy służy do dodawania ograniczenia i zabezpieczania kolumn, a także działa jako indeks, który umożliwia łatwą aktualizację i usuwanie. Te tabele to seria podzbiorów danych zwanych tabletami.

Jaki jest obecny stan Kudusa?

Kudu jest naprawdę dobrze rozwinięty i ma już wiele funkcji. Jednak nadal będzie wymagać dopracowania, co można zrobić łatwiej, jeśli użytkownicy zasugerują i wprowadzą pewne zmiany.

Kudu jest całkowicie otwartym oprogramowaniem i ma licencję Apache Software License 2.0. Jest również przeznaczony do przesłania do Apache, aby można go było rozwijać jako projekt Inkubatora Apache. Pozwoli to na szybszy rozwój i dalszy wzrost liczby odbiorców. Po pewnym czasie rozwój Kudu zostanie opublikowany i przejrzyście. Wiele firm, takich jak AtScale, Xiaomi, Intel i Splice Machine, połączyło siły, aby przyczynić się do rozwoju Kudu. Kudu ma również dużą społeczność, w której duża liczba odbiorców już przedstawia swoje sugestie i wkład. Tak więc ludzie napędzają rozwój Kudu.

Jak Kudu może uzupełniać HDFS / HBase?

Kudu nie ma być zamiennikiem HDFS / HBase. W rzeczywistości jest przeznaczony do obsługi zarówno HBase, jak i HFDS i działa obok nich, aby zwiększyć ich funkcje. Jest tak, ponieważ HBase i HDFS nadal mają wiele funkcji, które czynią je bardziej wydajnymi niż Kudu na niektórych komputerach. Ogólnie rzecz biorąc, takie maszyny uzyskają więcej korzyści z tych systemów.

Funkcje frameworka Kudu

Główne cechy frameworka Kudu są następujące:

Niezwykle szybkie skanowanie kolumn tabeli - najlepsze formaty danych, takie jak Parquet i ORCFile, wymagają najlepszych procedur skanowania, które doskonale rozwiązuje Kudu. Takie formaty wymagają szybkiego skanowania, które może wystąpić tylko wtedy, gdy dane kolumnowe są poprawnie zakodowane.
Niezawodność działania - platforma Kudu zwiększa ogólną niezawodność Hadoop, zamykając wiele luk i luk w Hadoop.
Łatwa integracja z Hadoop - Kudu można łatwo zintegrować z Hadoop i jego różnymi komponentami w celu zwiększenia wydajności.
Całkowicie otwarte oprogramowanie - Kudu to system typu open source z licencją Apache 2.0. Ma dużą społeczność programistów z różnych firm i środowisk, którzy regularnie ją aktualizują i proponują zmiany.

Jak Kudu może zmienić ekosystem Hadoop?

Kudu został zbudowany, aby pasował do ekosystemu Hadoop i poprawiał jego funkcje. Może także integrować się z niektórymi kluczowymi komponentami Hadoop, takimi jak MapReduce, HBase i HDFS. Zadania MapReduce mogą albo dostarczać dane, albo pobierać dane z tabel Kudu. Tych funkcji można również używać w Spark. Specjalna warstwa sprawia, że niektóre komponenty Spark, takie jak Spark SQL i DataFrame, są dostępne dla Kudu. Chociaż Kudu nie zostało opracowane tak, aby zastąpić te funkcje, szacuje się, że po kilku latach będzie wystarczająco rozwinięty, aby to zrobić. Do tego czasu integracja między Hadoop i Kudu jest naprawdę bardzo przydatna i może wypełnić główne luki w ekosystemie Hadoop. (Aby dowiedzieć się więcej o Apache Spark, zobacz Jak Apache Spark pomaga w szybkim rozwoju aplikacji).

Kudu można wdrożyć w różnych miejscach. Niektóre przykłady takich miejsc podano poniżej:

Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia

Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.

Przesyłanie strumieniowe danych wejściowych w czasie zbliżonym do rzeczywistego - w miejscach, w których dane wejściowe muszą być odbierane jak najszybciej, Kudu może wykonać niezwykłą robotę. Przykładem takiego miejsca są firmy, w których napływa duża ilość dynamicznych danych z różnych źródeł i należy je szybko udostępnić w czasie rzeczywistym.
Aplikacje szeregów czasowych o różnych wzorcach dostępu - Kudu doskonale nadaje się do aplikacji opartych na szeregach czasowych, ponieważ łatwiej jest konfigurować tabele i skanować je przy użyciu. Przykładem takiego wykorzystania są domy towarowe, w których stare dane należy szybko znaleźć i przetworzyć, aby przewidzieć przyszłą popularność produktów.
Starsze systemy - wiele firm, które uzyskują dane z różnych źródeł i przechowują je na różnych stacjach roboczych, poczuje się jak w domu dzięki Kudu. Kudu jest niezwykle szybki i może skutecznie integrować się z Impala w celu przetwarzania danych na wszystkich komputerach.
Modelowanie predykcyjne - badacze danych, którzy chcą dobrej platformy do modelowania, mogą korzystać z Kudu. Kudu może uczyć się z każdego zestawu wprowadzonych do niego danych. Naukowiec może wielokrotnie uruchamiać i ponownie uruchamiać model, aby zobaczyć, co się stanie.

Wniosek

Chociaż Kudu jest wciąż w fazie rozwoju, ma wystarczający potencjał, aby być dobrym dodatkiem do standardowych komponentów Hadoop, takich jak HDFS i HBase. Ma wystarczający potencjał, aby całkowicie zmienić ekosystem Hadoop, wypełniając wszystkie luki, a także dodając kilka dodatkowych funkcji. Jest również bardzo szybki i wydajny i może pomóc w szybkiej analizie i przechowywaniu dużych tabel danych. Jednak pozostaje jeszcze wiele do zrobienia, aby można było z niej korzystać bardziej efektywnie.