Dlaczego Hadoop to idealne dopasowanie do sekwencjonowania genomu

Autor: Roger Morrison
Data Utworzenia: 19 Wrzesień 2021
Data Aktualizacji: 5 Móc 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Wideo: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Zawartość


Źródło: A3701027 / Dreamstime.com

Na wynos:

Sekwencjonowanie genomu wymaga potężnych narzędzi technologicznych do obsługi wszystkich swoich danych, a Hadoop jest w stanie sprostać zadaniu.

Genomika kliniczna to fascynujący temat, w którym ludzie pracują nad najnowocześniejszymi technologiami, aby przetwarzać szybkie i dokładne wyniki. Na rynku dostępnych jest wiele sekwencerów genomowych, które wytwarzają petabajty danych sekwencji, a wzrost sekwencjonowania spowoduje wytworzenie eksabajtów danych w najbliższej przyszłości. Tutaj Hadoop jest idealną platformą do przetwarzania złożonego przepływu pracy w genomice. Hadoop może przechowywać i sortować ogromne ilości informacji, a także może dokonywać sensownych analiz. (Aby dowiedzieć się, ile danych to naprawdę pociąga za sobą, przeczytaj artykuł Understanding Bits, Bytes and their Multiples.)

Teraźniejszość i przyszłość genomiki

Dzisiaj mapowanie genomu osiągnęło szczyt rozwoju. Wiele osób związanych z przemysłem genomicznym pęka z ciekawości, a ponieważ pojawiają się nowe możliwości, lepsza technologia jest potrzebna na godzinę. Sekwencjonowanie genomu jest bardzo powtarzalnym i wymagającym dużej ilości zasobów zadaniem. W samym 2013 r. Wyprodukowano około 15 petabajtów danych i tylko 2000 sekwencerów. Ta zadziwiająca ilość obejmowała 300 KB zsekwencjonowanych danych ludzkiego genomu. Przy takim tempie tworzenia danych można oszacować, że do 2018 r. Powstanie około jednego eksabajta danych. Będzie to spowodowane wzrostem sekwencerów, które będą generować coraz więcej danych na przebieg. Innym powodem jest pojawienie się niezwykle wydajnych i tanich maszyn do sekwencjonowania genomu. Od 2008 r. Cena tych maszyn stale spada. Wynika to z możliwości potężnych maszyn nowej generacji, które wkroczyły na rynek.


Potrzeby przemysłu mapowania genomu

Złożone algorytmy są wykorzystywane do przetwarzania danych zebranych z ludzkiego genomu. Następnie należy zapisać te informacje. Może być w przyszłości sprawdzony w celu porównania z oryginalnymi danymi. Zadanie przetwarzania i przechowywania 100 GB danych nie jest zbyt trudne, szczególnie w przypadku potężnych maszyn pracujących w centrach sekwencjonowania. Badania pokazują, że tę ilość danych można przetworzyć w zaledwie około 1000 godzin procesora, więc jest to bardzo łatwe. Przy tym postępie technicznym widać, że przemysł genomu wkrótce przetworzy tysiące gigabajtów w ciągu zaledwie kilku sekund.

Jednak techniki zarządzania i przechowywania danych nie ewoluują tak szybko, dzięki czemu można oczekiwać dużej utraty cennych danych. Jest to naprawdę niepożądane, ponieważ poważnie utrudni postęp w genomice człowieka. Tak więc potrzeba wydajnej techniki zarządzania danymi, którą można łatwo zaktualizować, jest bardzo wysoka. Może to być skuteczne szczególnie w najbliższej przyszłości, gdzie mapowanie genomu zostanie przeniesione z dużych laboratoriów z potężnymi komputerami do małych szpitali i laboratoriów.


Czego można się spodziewać w rozwiązaniu?

Tempo odkrywania i rozwijania nowych technik sekwencjonowania genomu jest niezwykle wysokie. Tempo to może być bardzo korzystne dla nauk medycznych w postaci silnego kroku w kierunku wyeliminowania poważnych chorób. Jednak tempo to może być również bardzo trudne.

Wyzwanie polega na zarządzaniu dużą ilością danych generowanych przez projekty sekwencjonowania. Potrzebne jest zatem skuteczne rozwiązanie, które pomoże w przechowywaniu i przetwarzaniu dużych zbiorów danych. To rozwiązanie musi być tanie i szybkie, a jednocześnie adaptacyjne. Analiza dostarczona przez to rozwiązanie musi być również dokładna i stała. Jakie jest rozwiązanie tego problemu? Niewątpliwie jest to Hadoop. (Aby uzyskać więcej informacji na temat korzystania z Hadoop, zobacz 5 statystyk na temat Big Data (Hadoop) jako usługi).

Dlaczego Hadoop jest najlepszym rozwiązaniem do sekwencjonowania genomu

Przemysł genomiczny potrzebuje doskonałego rozwiązania, które może pomóc mu skutecznie zarządzać danymi, przetwarzać je i przechowywać do przyszłego użytku. To rozwiązanie wydaje się idealnie pasować do oprogramowania Hadoop. Hadoop można więc uznać za idealne oprogramowanie do zarządzania dużymi danymi, które może znacznie poprawić obecne techniki przechowywania danych w branży genomicznej.

Dzięki możliwościom Hadoop w czasie rzeczywistym sekwencery genomu mogą analizować i przechowywać duże ilości danych jednocześnie w czasie rzeczywistym. Umożliwia to również przyszłe wykorzystanie danych. Hadoop może pokonać wiele starszych systemów, ponieważ jest znacznie szybszy i bardziej niezawodny od nich.

Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia

Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.

Co jeszcze może zrobić Hadoop?

Dzięki Hadoop otwarto wiele możliwości i możliwości w dziedzinie genomiki i sekwencjonowania genów. Hadoop oferuje opcje obliczeń równoległych, dzięki którym możliwe jest szybsze sekwencjonowanie. Ponadto za pomocą funkcji MapReduce w Hadoop bardzo łatwo można zmapować dużą liczbę genów. Z tego powodu sekwencjonowanie za pomocą Hadoop stanie się naprawdę „nowej generacji” i będzie znacznie mniej skomplikowane.

Możliwości dla Hadoop

Hadoop ma kilka możliwości w branży genomu, ale najlepsze z nich pochodzi z artykułu Lyndy Chin „Sens sensów danych genomowych raka” w czasopiśmie Genes & Development. W tym artykule omawia, w jaki sposób współczesna genomika otworzyła nowe drzwi, co doprowadziło do wielu pozytywnych wyników, takich jak odkrycie informacji genomowej na temat raka. Z tego powodu jesteśmy bliżej odkrycia samego lekarstwa na raka. Jednak wymaga to nieco więcej uwagi i potężnej aplikacji do zarządzania danymi w celu uzyskania lepszych możliwości badawczych w tej dziedzinie. To może być najlepsza okazja, aby Hadoop udowodnił swoją szybkość, moc i dokładność.

Kusza: platforma zarządzania danymi nowej generacji

Kusza, która jest potokiem oprogramowania przeznaczonym do analizy ponownego sekwencjonowania genomu, jest jednym z najlepszych rozwiązań. Było to wynikiem integracji w Hadoop między szybkim algorytmem do wyrównywania zsekwencjonowanych danych, który nazywa się Bowtie, a potężnym algorytmem, który porównuje i analizuje zsekwencjonowane dane, tj. Genotyper o nazwie SoapSNP. Jest zbudowany na Apache Hadoop i jest oparty na implementacji frameworku MapReduce. Kusza jest przenośna, skalowalna i nadaje się również jako narzędzie do przetwarzania w chmurze.

Dzięki tej potężnej integracji kompletny genom można zbadać w ciągu jednego dnia w lokalnym klastrze posiadającym 10 węzłów. W przypadku 40-węzłowego klastra proces jest jeszcze szybszy i kończy się w ciągu zaledwie trzech godzin, a całkowity koszt to mniej niż 100 USD! Badanie przeprowadzone w celu przetestowania dokładności kuszy wykazało, że można porównać każdy genom z dokładnością 99 procent. Inną przydatną funkcją Crossbow jest to, że działa na chmurze. Dzięki temu Crossbow umożliwi tysiącom przyszłych centrów sekwencjonowania, takich jak szpitale, sekwencjonowanie dużych ilości danych genomu bez potrzeby użycia potężnych, kosztownych komputerów i technologii.

Inne oprogramowanie Genomics oparte na Hadoop

Wiele firm uznało siłę Hadoop w zmienianiu świata genomiki. Odpowiednio zmodyfikowali Hadoop, aby wykorzystać jego potencjał do zaawansowanego sekwencjonowania genomu. Niektóre przykłady znanych rozwiązań do sekwencjonowania genomu opartych na Hadoop podano poniżej:

  • Hadoop-BAM: Jest to potężne narzędzie do zarządzania danymi, które wykorzystuje funkcję MapReduce w Hadoop do różnych działań związanych z genomiką, takich jak genotypowanie. Działa to w formacie Binary Alignment / Map.
  • Cloudburst: To rozwiązanie oparte na Hadoop zostało stworzone w 2009 roku. Jest niezwykle wydajne w porównywaniu sekwencji genomu i mapowaniu poszczególnych genów. Jest to również jedna z pierwszych aplikacji zaprojektowanych do tego celu.

Wniosek

Integracja dużych zbiorów danych z przemysłem genomicznym okazuje się być dobrodziejstwem we współczesnych czasach. Platformy te są skuteczne w odkrywaniu metod leczenia wielu chorób, takich jak rak. Dane znalezione na podstawie mapowania genomu można wykorzystać do sformułowania informacji zapobiegawczych takich chorób. Pojawienie się dużych zbiorów danych można uznać za punkt zwrotny w świecie genomiki, a jeśli informacje są mądrze wykorzystywane, być może również w szerszej dziedzinie opieki zdrowotnej. Jedynym sposobem na rozwinięcie tego pola jest użycie odpowiednich narzędzi do zarządzania danymi, takich jak Hadoop.