7 rzeczy, które warto wiedzieć o Hadoop

Zawartość

Jak zaczął się Hadoop?
Co jest takiego ważnego w Hadoop?
Co to jest schemat przy odczycie?
Co to jest Hive?
Jakie dane analizuje Hadoop?
Czy możesz podać prawdziwy przykład Hadoop?
Czy Hadoop jest już przestarzały, czy po prostu zmienia się?

Źródło: Pressureua / Dreamstime.com

Na wynos:

Hadoop pomaga analizować dane od lat, ale prawdopodobnie jest więcej niż kilka rzeczy, o których nie wiesz.

Co to jest Hadoop? To żółty zabawkowy słoń. Nie tego się spodziewałeś? A co powiesz na to: Doug Cutting - współtwórca projektu oprogramowania typu open source - pożyczył imię od syna, który nazwał swojego zabawkowego słonia Hadoop. Krótko mówiąc, Hadoop to platforma programowa opracowana przez Apache Software Foundation, która służy do opracowywania intensywnych danych rozproszonych. I jest to kluczowy element w innym czytniku modnych słów, który nigdy nie wydaje się mieć dość: dużych zbiorów danych. Oto siedem rzeczy, które powinieneś wiedzieć o tym unikalnym, darmowo licencjonowanym oprogramowaniu.

Jak zaczął się Hadoop?

Dwanaście lat temu Google zbudował platformę do manipulowania ogromnymi ilościami danych, które gromadził. Podobnie jak firma często, Google udostępnił swój projekt publicznie w formie dwóch dokumentów: Google File System i MapReduce.

W tym samym czasie Doug Cutting i Mike Cafarella pracowali nad nową wyszukiwarką Nutch. Obaj zmagali się także z tym, jak obsługiwać duże ilości danych. Następnie dwaj badacze dowiedzieli się o artykułach Google. To szczęśliwe skrzyżowanie zmieniło wszystko, wprowadzając Cutting i Cafarella do lepszego systemu plików i sposób śledzenia danych, co ostatecznie doprowadziło do stworzenia Hadoop.

Co jest takiego ważnego w Hadoop?

Dzisiaj zbieranie danych jest łatwiejsze niż kiedykolwiek. Posiadanie wszystkich tych danych stwarza wiele możliwości, ale istnieją również wyzwania:

Ogromne ilości danych wymagają nowych metod przetwarzania.
Przechwytywane dane są w nieustrukturyzowanym formacie.

Aby sprostać wyzwaniom związanym z manipulowaniem ogromnymi ilościami nieuporządkowanych danych, firma Cutting i Cafarella opracowali dwuczęściowe rozwiązanie. Aby rozwiązać problem ilości danych, Hadoop wykorzystuje środowisko rozproszone - sieć serwerów towarowych - tworząc równoległy klaster przetwarzania, który zapewnia większą moc obliczeniową dla przypisanego zadania.

Następnie musieli zmierzyć się z nieuporządkowanymi danymi lub danymi w formatach, których standardowe systemy relacyjnych baz danych nie były w stanie obsłużyć. Firma Cutting i Cafarella zaprojektowały Hadoop do pracy z dowolnym rodzajem danych: uporządkowanym, nieustrukturyzowanym, obrazami, plikami audio, a nawet. W białej księdze Cloudera (integrator Hadoop) wyjaśniono, dlaczego jest to ważne:

„Dzięki wykorzystaniu wszystkich danych, nie tylko zawartości bazy danych, Hadoop pozwala odkryć ukryte relacje i ujawnia odpowiedzi, które zawsze były poza zasięgiem. Możesz zacząć podejmować więcej decyzji na podstawie twardych danych zamiast przeczuć i wyglądać w kompletnych zestawach danych, nie tylko próbki i podsumowania. ”

Co to jest schemat przy odczycie?

Jak wspomniano wcześniej, jedną z zalet Hadoop jest jego zdolność do obsługi nieustrukturyzowanych danych. W pewnym sensie jest to „kopanie puszki w dół drogi”. Ostatecznie dane potrzebują jakiejś struktury w celu ich analizy.

W tym momencie wchodzi w grę schemat odczytu. Schemat w odczycie to połączenie formatu, w jakim znajdują się dane, gdzie można je znaleźć (pamiętaj, że dane są rozproszone na kilku serwerach) i co należy zrobić z danymi - nie jest to proste zadanie. Mówi się, że manipulowanie danymi w systemie Hadoop wymaga umiejętności analityka biznesowego, statystyki i programisty Java. Niestety niewiele osób ma takie kwalifikacje.

Co to jest Hive?

Jeśli Hadoop miał odnieść sukces, praca z danymi musiała zostać uproszczona. Tak więc publiczność open source zaczęła pracować i stworzyła Hive:

„Hive zapewnia mechanizm do rzutowania struktury na te dane i przeszukiwania danych za pomocą języka podobnego do SQL o nazwie HiveQL. Jednocześnie język ten pozwala również tradycyjnym programistom map / redukować na podłączanie własnych niestandardowych maperów i reduktorów, gdy jest to niewygodne lub nieefektywne w wyrażaniu tej logiki w HiveQL. ”
Hive umożliwia najlepsze z obu światów: personel bazy danych zaznajomiony z poleceniami SQL może manipulować danymi, a programiści znający schemat procesu odczytu nadal mogą tworzyć niestandardowe zapytania.

Jakie dane analizuje Hadoop?

Analityka internetowa to pierwsza rzecz, jaka przychodzi na myśl, analiza dzienników sieciowych i ruchu internetowego w celu optymalizacji stron internetowych. , na przykład, zdecydowanie zajmuje się analityką internetową, używając Hadoop do sortowania terabajtów danych gromadzonych przez firmę.

Firmy używają klastrów Hadoop do przeprowadzania analizy ryzyka, wykrywania oszustw i segmentacji klientów. Firmy użyteczności publicznej używają Hadoop do analizy danych czujników z ich sieci elektrycznej, co pozwala im zoptymalizować produkcję energii elektrycznej. Duże firmy, takie jak Target, 3M i Medtronics, wykorzystują Hadoop do optymalizacji dystrybucji produktów, oceny ryzyka biznesowego i segmentacji klientów.

Uniwersytety są również inwestowane w Hadoop. Brad Rubin, profesor nadzwyczajny na University of St. Thomas Graduate Programs in Software, wspomniał, że jego wiedza specjalistyczna w Hadoop pomaga w sortowaniu dużej ilości danych zebranych przez grupy badawcze na uniwersytecie.

Czy możesz podać prawdziwy przykład Hadoop?

Jednym z bardziej znanych przykładów jest TimesMachine. New York Times ma kolekcję całostronicowych zdjęć TIFF z gazety, powiązane metadane oraz artykuł z lat 1851–1922 o wartości terabajtów danych. Derek Gottfrid z NYT, korzystając z systemu EC2 / S3 / Hadoop i specjalistycznego kodu:

„Połknięto 405 000 bardzo dużych obrazów TIFF, 3,3 miliona artykułów w SGML i 405 000 plików xml mapujących artykuły do prostokątnych regionów w TIFF. Dane te zostały przekonwertowane na bardziej przyjazne dla sieci 810 000 obrazów PNG (miniatury i pełne obrazy) oraz 405 000 plików JavaScript. „
Korzystając z serwerów w chmurze Amazon Web Services, Gottfrid wspomniał, że byli w stanie przetworzyć wszystkie dane wymagane dla TimesMachine w mniej niż 36 godzin.

Czy Hadoop jest już przestarzały, czy po prostu zmienia się?

Hadoop istnieje już od ponad dekady. Wiele osób twierdzi, że jest przestarzała. Jeden ekspert, dr David Rico, powiedział: „Produkty IT są krótkotrwałe. W psich latach produkty Googles mają około 70, podczas gdy Hadoop ma 56 lat”.

Może być trochę prawdy w tym, co mówi Rico. Wygląda na to, że Hadoop przechodzi gruntowny przegląd. Aby dowiedzieć się więcej na ten temat, Rubin zaprosił mnie na spotkanie grupy użytkowników Twin Cities Hadoop, a tematem dyskusji było Wprowadzenie do YARN:

„Apache Hadoop 2 zawiera nowy silnik MapReduce, który ma wiele zalet w stosunku do poprzedniej implementacji, w tym lepszą skalowalność i wykorzystanie zasobów. Nowa implementacja oparta jest na ogólnym systemie zarządzania zasobami do uruchamiania aplikacji rozproszonych o nazwie YARN”.Hadoop zyskuje dużo szumu w bazach danych i kręgach zarządzania treścią, ale wciąż jest wiele pytań i tego, jak najlepiej go wykorzystać. To tylko kilka. Jeśli masz więcej, po naszej stronie. Odpowiedz na najlepsze na Techopedia.com.