Apache Pig

Autor: Robert Simon
Data Utworzenia: 16 Czerwiec 2021
Data Aktualizacji: 13 Móc 2024
Anonim
Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn
Wideo: Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn

Zawartość

Definicja - Co oznacza świnia Apache?

Apache Pig to platforma służąca do analizy dużych zbiorów danych. Składa się z języka wysokiego poziomu do wyrażania programów do analizy danych oraz infrastruktury do oceny tych programów. Jedną z najważniejszych cech Pig jest to, że jej struktura reaguje na znaczną równoległość.


Pig działa na platformie Hadoop, zapisuje dane i odczytuje dane z rozproszonego systemu plików Hadoop (HDFS) i wykonuje przetwarzanie za pomocą jednego lub więcej zadań MapReduce. Apache Pig jest dostępny jako open source.

Apache Pig jest również znany jako Pig Programming Language lub Hadoop Pig.

Wprowadzenie do Microsoft Azure i Microsoft Cloud | W tym przewodniku dowiesz się, na czym polega przetwarzanie w chmurze i jak Microsoft Azure może pomóc w migracji i prowadzeniu firmy z chmury.

Techopedia wyjaśnia Apache Pig

Apache Pig składa się z dwóch części: języka Pig Latin i silnika Pig. Język Pig Latin jest językiem skryptowym, który pozwala użytkownikom zilustrować sposób, w jaki przepływ danych z jednego lub więcej danych wejściowych musi zostać odczytany i przetworzony, a także lokalizację, w której należy go przechowywać.

Niektóre z kluczowych właściwości Pig Latin są następujące:


  • Łatwy w programowaniu: Skomplikowane zadania składające się z różnych połączonych transformacji danych są wyraźnie kodowane jako sekwencje przepływu danych. Ułatwia to pisanie, zrozumienie i utrzymanie.
  • Możliwości optymalizacji: sposób, w jaki zadania są kodowane, pozwala systemowi zoptymalizować automatyczne wykonywanie. Pozwala to użytkownikowi zwracać uwagę na semantykę zamiast wydajności.
  • Rozszerzalność: użytkownicy mogą tworzyć własne funkcje do przetwarzania specjalnego przeznaczenia. Silnik Pig odpowiada za wykonanie przepływu danych zapisanych w Pig Latin. Podobnie jak standardowy system zarządzania relacyjnymi bazami danych (RDBMS), Apache Pig składa się z analizatora składni, optymalizatora i sprawdzania typu, a także operatorów przetwarzających dane. Pig nie obejmuje transakcji, katalogu danych ani możliwości bezpośredniego zarządzania przechowywaniem danych lub stosowania ram wykonania.