Wykorzystanie Firehose: czerpanie wartości biznesowej z analizy strumieniowej: transkrypcja seminarium internetowego

Wideo: How to Create New Member Welcome Packages that Stop Your Members from Quitting

Na wynos: Prowadząca Rebecca Józefwiak omawia analizy strumieniowe z najlepszymi ekspertami branżowymi.

Obecnie nie jesteś zalogowany. Zaloguj się lub zarejestruj, aby zobaczyć wideo.

Rebecca Jóźwiak: Panie i panowie, witam i witamy w Hot Technologies 2016! Dzisiejszy tytuł brzmi „Wykorzystanie Firehose: czerpanie korzyści biznesowych z analizy strumieniowej”. To Rebecca Jozwiak. Jestem drugim zastępcą gospodarza webcastu, ilekroć nasz drogi Eric Kavanagh nie może tu być, więc miło jest widzieć tak wielu z was dzisiaj.

Ten odcinek różni się nieco od naszych pozostałych. Rozmawialiśmy o tym, co jest gorące i oczywiście ten rok jest gorący. Ostatnie kilka lat było gorących. Zawsze pojawiają się nowe rzeczy. Dzisiaj mówimy o analizach strumieniowych. Analizy strumieniowe same w sobie są czymś nowym. Oczywiście streaming, dane centralne, dane RFID, niekoniecznie są nowe. Ale w obliczu architektur danych od dziesięcioleci tak bardzo koncentrujemy się na danych w spoczynku. Bazy danych, systemy plików, repozytoria danych - wszystko w celu głównie przetwarzania wsadowego. Ale teraz, gdy przechodzimy do tworzenia wartości z przesyłania strumieniowego danych, emocji związanych z danymi, niektórzy nazywają to żywymi strumieniami, naprawdę wymagają one architektury opartej na strumieniu, a nie danych w architekturze spoczynkowej, do których jesteśmy przyzwyczajeni i musi być w stanie obsługa szybkiego przetwarzania, przetwarzania w czasie rzeczywistym lub prawie w czasie rzeczywistym. Musi być w stanie zaspokoić nie tylko Internet przedmiotów, ale Internet wszystkiego.

Oczywiście idealnie byłoby, gdyby obie architektury mieszkały obok siebie, że tak powiem, myły jedną rękę drugiej. Chociaż dane sprzed kilku dni, dane sprzed kilku tygodni, dane sprzed kilku lat nadal mają wartość, analitykę historyczną, analizę trendów, to dane bieżące napędzają obecnie inteligencję na żywo i dlatego analizy strumieniowe stały się tak ważne.

Mówię dziś o tym więcej. Nasz naukowiec danych, Dez Blanchfield, dzwoni z Australii. Jest teraz dla niego wcześnie rano. Mamy naszego głównego analityka, dr Robina Bloora. Dołącza do nas Anand Venugopal, szef produktu w StreamAnalytix w Impetus Technologies. Naprawdę koncentrują się na aspekcie analizy strumieniowej tego miejsca.

Dzięki temu zamierzam przekazać to Dezowi.

Dez Blanchfield: Dziękuję Ci. Muszę przejąć kontrolę nad ekranem i przejść do przodu.

Rebecca Jóźwiak: Proszę bardzo.

Dez Blanchfield: Podczas gdy przeglądamy slajdy, pozwólcie, że omówię główny temat.

Mam zamiar utrzymać go na dość wysokim poziomie i utrzymam go około 10 minut. To bardzo duży temat. Uczestniczyłem w wydarzeniu, w którym spędziliśmy dwa do trzech dni, zagłębiając się w szczegóły dotyczące przetwarzania strumienia i obecnych ram, które opracowujemy i co powinno oznaczać robienie analiz w tych strumieniach o dużej objętości.

Wyjaśnimy, co rozumiemy przez analizowanie strumieniowe, a następnie zbadamy, czy można uzyskać wartość biznesową, ponieważ tak właśnie szukają firmy. Chcą, aby ludzie wyjaśniali im bardzo szybko i zwięźle, gdzie mogę uzyskać wartość, stosując jakąś formę analizy do naszych danych strumieniowych?

Co to jest analiza strumieniowa?

Analizy strumieniowe umożliwiają organizacjom pozyskiwanie wartości z danych o dużej objętości i dużej prędkości, które napływają przez firmę w różnych formach w ruchu. Istotna różnica polega na tym, że mieliśmy długą historię opracowywania analiz, obiektywów i widoków danych, które przetwarzaliśmy w spoczynku od dziesięcioleci od wynalezienia komputera mainframe. Ogromna zmiana paradygmatu, którą widzieliśmy w ciągu ostatnich trzech do pięciu lat w tak zwanej „skali internetowej”, wykorzystuje zasoby danych napływających do nas w czasie rzeczywistym lub zbliżonym do czasu rzeczywistego, a nie tylko przetwarza i szuka korelacji zdarzeń lub wyzwalacze zdarzeń, ale przeprowadzają bardzo szczegółowe i dogłębne analizy tych strumieni. To znacząca zmiana w stosunku do tego, co robiliśmy wcześniej, czyli gromadzenia danych, umieszczania ich w jakimś repozytorium, tradycyjnie dużych baz danych, dużych platform dużych danych, takich jak platforma Hadoop, i wykonywania przetwarzania w trybie wsadowym w tym celu i uzyskiwania jakiś wgląd.

Bardzo dobrze radzimy sobie z tym bardzo szybko i próbujemy dużo ciężkiego żelaza, ale nadal naprawdę przechwytujemy dane, przechowujemy je, a następnie patrzymy na nie i uzyskujemy wgląd w to lub analizy. Przejście na wykonywanie tych analiz w miarę przesyłania danych było bardzo nowym i ekscytującym obszarem wzrostu dla rodzajów rzeczy wokół dużych zbiorów danych. Wymaga całkowicie innego podejścia do przechwytywania, przechowywania, przetwarzania i wykonywania analiz.

Jednym z kluczowych czynników zmiany i skupienia się na przeprowadzaniu analiz w strumieniu jest to, że można uzyskać znaczącą wartość biznesową dzięki szybszemu i łatwiejszemu uzyskiwaniu tych informacji w miarę dostarczania danych, gdy firma jest udostępniana informacji. Pomysł przetwarzania na koniec dnia nie ma już znaczenia w niektórych branżach. Chcemy móc przeprowadzać analizy w locie. Do końca dnia wiemy już, co się wydarzyło, niż do końca dnia i wykonywania 24-godzinnej pracy wsadowej i uzyskiwania tych spostrzeżeń.

Analityka strumieniowa polega na wykorzystaniu bezpośrednio do tego strumienia, podczas gdy strumienie danych są zwykle wieloma strumieniami bardzo dużych ilości danych i danych, które przychodzą do nas bardzo, bardzo szybko i uzyskują wgląd lub analizy dotyczące tych strumieni, gdy przychodzą do nas w przeciwieństwie do nich aby pozwolić temu wyjść w spoczynku i przeprowadzić na nich analizy.

Jak wspomniałem, mieliśmy dziesięciolecia wykonywania analiz, które nazywam analizą wsadową. Umieściłem tutaj naprawdę fajne zdjęcie. To jest zdjęcie dżentelmena stojącego przed fałszywym komputerem, który został stworzony przez RAND Corporation przed laty, i tak właśnie wyglądali komputer w domu. Co ciekawe, nawet wtedy mieli taką koncepcję wszystkich tych małych tarcz, a te tarcze reprezentowały informacje przychodzące z domu i przetwarzane w czasie rzeczywistym i informujące o tym, co się dzieje. Prostym przykładem jest zestaw ciśnienia barometrycznego i temperatury, które możemy zobaczyć, gdzie widzimy, co dzieje się w czasie rzeczywistym. Ale wyobrażam sobie, że jeszcze w tym czasie, kiedy RAND Corporation połączyła tę małą makietę, tak naprawdę już myśleli o przetwarzaniu danych i przeprowadzaniu analiz na ich podstawie, gdy będzie w formacie strumieniowym. Nie jestem pewien, dlaczego umieścili koło kierownicy w komputerze, ale to całkiem fajne.

Od czasu wynalezienia er mieliśmy widok na przechwytywanie danych i przeprowadzanie analiz wsadowych. Jak powiedziałem teraz z wielką zmianą i widzieliśmy to od graczy takich jak internet, których wszyscy znamy, są to marki domowe, jak i LinkedIn, to interaktywne zachowanie, które mamy z tymi platformami społecznościowymi, wymaga nie tylko przechwytują, przechowują, a następnie przetwarzają w trybie wsadowym, ale w rzeczywistości przechwytują i napędzają analizy w locie ze strumieni danych, które przechodzą. Kiedy coś tweetuję, nie tylko muszą przechwytywać, przechowywać i robić coś później, ale muszą też móc natychmiast umieścić je z powrotem w moim strumieniu i udostępnić je innym osobom, które mnie śledzą. To jest model przetwarzania wsadowego.

Dlaczego mielibyśmy pójść tą drogą? Dlaczego organizacje inwestują czas, wysiłek i pieniądze, nawet rozważając wyzwanie związane z analizą strumieniową? Organizacje mają ogromne pragnienie, aby uzyskać wzrost wydajności w stosunku do swoich konkurentów w branżach, w których działają, i że wzrost wydajności można szybko wdrożyć za pomocą prostej analizy strumieniowej i można rozpocząć od prostego śledzenia danych w czasie rzeczywistym, które już mamy zaznajomiony z. Mam tam zrzut ekranu z Google Analytics. To prawdopodobnie pierwszy raz, kiedy naprawdę otrzymaliśmy praktyczne analizy konsumenckie. Gdy ludzie odwiedzali Twoją witrynę, a liczba trafień jest coraz mniejsza, a fragment kodu JavaScript na dole strony HTML jest osadzony w Twojej witrynie, te małe kody były tworzone w czasie rzeczywistym z powrotem do Google. analizując strumienie danych przychodzących z każdej strony w witrynie, każdego obiektu w witrynie w czasie rzeczywistym, a one zwracają się do Ciebie na tej naprawdę uroczej stronie internetowej na pulpicie wykresu w czasie rzeczywistym, uroczych histogramów i linii wykres pokazujący X liczbę osób, które historycznie trafiły na Twoją stronę, ale oto, ilu jest teraz.

Jak widać na tym zrzucie ekranu, w tej chwili jest napisane 25. Na tej stronie było 25 osób w momencie wykonania zrzutu ekranu. To pierwsza prawdziwa szansa, jaką zagraliśmy na narzędziu analitycznym klasy konsumenckiej. Myślę, że wiele osób naprawdę to rozumie. Właśnie zrozumieli moc wiedzy o tym, co się dzieje i jak mogą na to zareagować. Kiedy myślimy o skali awioniki, latających samolotów, w samych Stanach Zjednoczonych dziennie jest około 18 700 lotów krajowych. Jakiś czas temu przeczytałem artykuł - to było około sześć lub siedem lat temu - że ilość danych, które były wytwarzane przez te samoloty, wynosiła około 200 do 300 megabajtów w starym modelu inżynieryjnym. W dzisiejszych projektach samolotów te generują około 500 gigabajtów danych lub około pół terabajta danych na lot.

Kiedy bardzo szybko wykonujesz matematykę, to 18 700 lotów krajowych co 24 godziny w samej amerykańskiej przestrzeni powietrznej, jeśli wszystkie nowoczesne samoloty wytwarzają około pół terabajta, to przechodzą 43 do 44 petabajtów danych i dzieje się, gdy samoloty są w powietrzu. Dzieje się tak, gdy lądują i robią zrzuty danych. Wtedy idą do sklepu i mają pełny zrzut danych od zespołów inżynierów, aby zobaczyć, co dzieje się w łożyskach, kołach i silnikach. Niektóre z tych danych muszą być przetwarzane w czasie rzeczywistym, aby mogli podjąć decyzję, czy istnieje prawdziwy problem, gdy samolot był w powietrzu lub gdy był na ziemi. Po prostu nie możesz tego zrobić w trybie wsadowym. W innych branżach, które widzimy w dziedzinie finansów, zdrowia, produkcji i inżynierii, zastanawiają się również, jak mogą uzyskać ten nowy wgląd w to, co dzieje się w czasie rzeczywistym, w przeciwieństwie do tego, co właśnie jest przechowywane w bazach danych na semestr.

Istnieje również koncepcja postępowania z danymi jako tym, co nazywam łatwo psującym się towarem lub psującym się towarem - że wiele danych traci na czasie wartość. Coraz częściej dotyczy to aplikacji mobilnych i narzędzi mediów społecznościowych, ponieważ to, co ludzie mówią i co zyskuje na popularności, jest tym, na co chcesz odpowiedzieć. Kiedy myślisz o innych częściach naszego życia z logistyką i wysyłką żywności, rozumiemy w tym sensie pojęcie łatwo psującego się towaru. Ale pomyśl o danych przechodzących przez Twoją organizację i o jej wartości. Jeśli ktoś robi teraz z tobą interesy i możesz z nim wchodzić w interakcje w czasie rzeczywistym, nie chcesz czekać godzinę, aby dane mogły zostać przechwycone i wprowadzone do systemu takiego jak Hadoop, a następnie naciśnij ten przycisk, nie będzie w stanie sobie z tym teraz poradzić, a Ty będziesz mógł to zrobić natychmiast na żądanie klienta. Jest taki termin, w którym często się pojawiasz, gdy ludzie mówią o tym, że masz strumień danych w czasie rzeczywistym, który może dać ci personalizację, i tę melodię personalizacji w systemie, którego używasz do swoich indywidualnych doświadczeń. Kiedy więc trafisz na narzędzie takie jak Google Search, jeśli wykonam zapytanie i wykonasz to samo zapytanie, niezmiennie nie otrzymamy dokładnie tych samych danych. Otrzymujemy zasadniczo to, co nazywam doświadczeniem celebryty. Jestem traktowany jednorazowo. Dostaję swoją własną wersję tego, co dzieje się w tych systemach, na podstawie profili i danych, które zostały dla mnie zebrane, i mogłem przeprowadzać analizy w czasie rzeczywistym w strumieniu.

Pomysł, że dane są nietrwałym towarem, jest na razie realny, a wartość danych zmniejszanych w czasie jest czymś, z czym musimy sobie dziś poradzić. To nie jest wczoraj. Uwielbiam to zdjęcie niedźwiedzia chwytającego łososia wyskakującego z rzeki, ponieważ naprawdę maluje dokładnie to, co widzę, przesyłając analitykę. To ogromna rzeka danych, która nadchodzi do nas, wąż ognia, jeśli chcesz, a niedźwiedź siedzi pośrodku potoku. Będzie przeprowadzał analizy w czasie rzeczywistym na temat tego, co się wokół niego dzieje, tak aby mógł właściwie skonstruować swoją zdolność do chwytania tych ryb w powietrzu. To nie jest tak, jak zanurzanie się w strumieniu i chwytanie jednego. Ta rzecz skacze w powietrzu i musi być we właściwym miejscu we właściwym czasie, aby złapać tę rybę. W przeciwnym razie nie dostanie śniadania ani lunchu.

Organizacja chce zrobić to samo ze swoimi danymi. Chcą wyodrębnić wartość z ogromnych ilości danych w ruchu. Chcą przeprowadzać analizy tych danych i danych o wysokiej prędkości, więc nie chodzi tylko o ilość danych, które do nas docierają, ale o szybkość, z której pochodzą. Na przykład w zakresie bezpieczeństwa są to wszystkie routery, przełączniki, serwery, zapory ogniowe i wszystkie zdarzenia pochodzące z tych oraz dziesiątki tysięcy, jeśli nie setki tysięcy urządzeń, w niektórych przypadkach dane łatwo psujące się. Kiedy myślimy o tym w Internecie przedmiotów i Internecie przemysłowym, mówimy w końcu o milionach, jeśli nie miliardach czujników, a ponieważ dane, przez które przechodzą analizy, przeprowadzamy teraz analizę złożonych zdarzeń w rzędach wielkości i prędkości, których nigdy wcześniej nie widzieliśmy i musimy sobie z tym poradzić dzisiaj. Musimy zbudować wokół tego narzędzia i systemy. To prawdziwe wyzwanie dla organizacji, ponieważ z jednej strony mamy bardzo duże marki, które zajmują się majsterkowaniem, upiec je sam, gdy mają taką możliwość, zestaw umiejętności i inżynierię. Ale w przypadku przeciętnej organizacji tak nie jest. Nie mają zestawów umiejętności. Nie mają możliwości ani czasu, ani nawet pieniędzy, aby zainwestować w rozwiązanie tego problemu. Wszyscy dążą do tej koncepcji podejmowania decyzji w czasie zbliżonym do rzeczywistego.

Skorzystaj z przypadków, na które się natknąłem i dotyczą one każdego szerokiego spektrum każdego sektora, jaki możesz sobie wyobrazić, ludzie siedzą i zwracają uwagę i mówią, w jaki sposób możemy zastosować pewne analizy do naszych danych strumieniowych? Mówimy o usługach internetowych na skalę internetową. Istnieją tradycyjne platformy mediów społecznościowych oraz internetowe sklepy internetowe i sprzedaż detaliczna - na przykład aplikacje. Wszyscy starają się dać nam to doświadczenie gwiazd w czasie rzeczywistym. Ale kiedy przechodzimy do większej liczby usług stosu technologii, usług telefonicznych, głosu i wideo, widzę ludzi chodzących robiąc FaceTime na telefonach. To po prostu eksploduje. Dziwi mnie, że ludzie wyciągają przed siebie telefon i rozmawiają ze strumieniem wideo znajomego, a nie trzymają go przy uchu. Ale wiedzą, że mogą to zrobić, dostosowali się i podobało im się to doświadczenie. Opracowywanie tych aplikacji i platform, które je dostarczają, musi przeprowadzać analizy w czasie rzeczywistym dotyczące tego ruchu i profili ruchu, aby mogli wykonywać proste czynności, takie jak perfekcyjne przekierowanie tego wideo, aby jakość głosu w otrzymany film jest odpowiedni, aby uzyskać dobre wrażenia. Nie możesz wsadowo przetwarzać tego rodzaju danych. To nie uczyniłoby strumienia wideo w czasie rzeczywistym funkcjonalną usługą.

W transakcjach finansowych istnieje wyzwanie dotyczące zarządzania. Nie jest w porządku, aby dojść do końca dnia i dowiedzieć się, że złamałeś prawo, przenosząc prywatne dane wokół tego miejsca. W Australii mamy bardzo interesujące wyzwanie, w którym przenoszenie danych związanych z prywatnością na morzu jest nie-nie. Nie możesz zabrać mojego PID, moich prywatnych danych identyfikacyjnych, za granicę. W Australii obowiązują przepisy prawne, które to zapobiegają. Dostawcy usług finansowych, w szczególności usług rządowych i agencji, muszą przeprowadzać ze mną analizy w czasie rzeczywistym swoich strumieni danych i instrukcji, aby upewnić się, że to, co mi dostarczają, nie opuści wybrzeża. Wszystkie rzeczy muszą pozostać lokalnie. Muszą to robić w czasie rzeczywistym. Nie mogą złamać prawa i prosić o wybaczenie później. Wykrywanie oszustw - jest to dość oczywiste, o którym słyszymy przy transakcjach kartami kredytowymi. Ale ponieważ rodzaje transakcji, które przeprowadzamy w usługach finansowych, zmieniają się bardzo, bardzo szybko, są pewne rzeczy, które PayPal robi najpierw w wykrywaniu oszustw w czasie rzeczywistym, gdzie pieniądze nie przepływają z jednej rzeczy do drugiej, ale są transakcja finansowa między systemami. Platformy aukcyjne w serwisie eBay, wykrywanie oszustw musi odbywać się w czasie rzeczywistym w biurze transmisji strumieniowej.

Pojawia się tendencja do wydobywania i przekształcania aktywności obciążenia w strumieniach, więc nie chcemy przechwytywać niczego, co trafi do strumienia. Naprawdę nie możemy tego zrobić. Ludzie nauczyli się, że dane bardzo szybko się psują, jeśli wszystko uchwycimy. Sztuką jest teraz przeprowadzanie analiz na tych strumieniach i przeprowadzanie na nich ETL i po prostu przechwytywanie potrzebnych informacji, potencjalnie metadanych, a następnie przeprowadzanie analiz predykcyjnych, w których możemy właściwie powiedzieć, co się stanie nieco dalej na ścieżkach właśnie widzieliśmy w strumieniu na podstawie przeprowadzonych przez nas analiz.

Dostawcy energii i usług użyteczności publicznej odczuwają tak ogromne pragnienie konsumentów, by żądać ustalania cen na żądanie. Mogę zdecydować, że chcę kupić zieloną energię o określonej porze dnia, ponieważ jestem sam w domu i nie używam wielu urządzeń. Ale jeśli mam przyjęcie obiadowe, być może chcę mieć włączone wszystkie moje urządzenia i nie chcę kupować taniej energii i czekać na jej dostarczenie, ale chcę zapłacić za więcej kosztów, aby uzyskać tę moc. Stało się już to żądanie cen, szczególnie w obszarze mediów i energii. Na przykład Uber to klasyczny przykład rzeczy, które możesz robić każdego dnia, a wszystko to zależy od cen na żądanie. Istnieje kilka klasycznych przykładów ludzi w Australii, którzy korzystają z biletów o wartości 10 000 USD z powodu ogromnego popytu w sylwestra. Jestem pewien, że poradzili sobie z tym problemem, ale analizy strumieniowe są przeprowadzane w czasie rzeczywistym w samochodzie, mówiąc, ile powinienem zapłacić.

Internet przedmiotów i strumienie czujników - właśnie o tym zarysowaliśmy i naprawdę właśnie odbyła się podstawowa rozmowa na ten temat, ale zobaczymy ciekawą zmianę w tym, jak technologia sobie z tym radzi, ponieważ kiedy nie mówisz tylko około tysięcy lub dziesiątek tysięcy, ale setki tysięcy i potencjalnie miliardy urządzeń przesyłających strumieniowo do Ciebie, prawie żaden ze stosów technologii, który mamy teraz, nie jest zaprojektowany, aby sobie z tym poradzić.

W tym miejscu zobaczymy kilka naprawdę popularnych tematów, takich jak bezpieczeństwo i ryzyko cybernetyczne. To dla nas bardzo prawdziwe wyzwania. W sieci jest naprawdę fajne narzędzie o nazwie North, w którym można usiąść i obejrzeć na stronie różne cyberataki w czasie rzeczywistym. Kiedy na to patrzysz, myślisz „och, to ładna, urocza mała strona”, ale po około pięciu minutach zdajesz sobie sprawę z ilości danych, które system wykonuje analizy na różnych strumieniach różnych urządzeń na całym świecie które są do nich karmione. Zaczyna zastanawiać się, w jaki sposób wykonują to na skraju tego rekordu, i zapewnia ci ten prosty, mały ekran, który mówi ci, co lub coś innego atakuje w czasie rzeczywistym i jakie rodzaje ataków. Ale to naprawdę fajny mały sposób, aby po prostu dobrze zapoznać się z tym, co analityka strumieniowa może potencjalnie zrobić dla Ciebie w czasie rzeczywistym, po prostu oglądając tę stronę i wyczuwając objętość i wyzwanie związane z przyjmowaniem strumieni, przetwarzaniem zapytań analitycznych na i reprezentowanie ich w czasie rzeczywistym.

Myślę, że rozmowa, którą prowadzę przez resztę sesji, dotyczy wszystkich tego rodzaju rzeczy z jednego interesującego punktu widzenia, z mojego punktu widzenia, i jest to wyzwanie dla majsterkowiczów, upiecz je sam, pasuje do niektórych klasyczne jednorożce, które są w stanie zbudować tego rodzaju rzeczy. Mają miliardy dolarów na zbudowanie tych zespołów inżynierów i budowę swoich centrów danych. Ale dla 99,9% organizacji, które chcą zwiększyć wartość swojej działalności w zakresie analityki strumieniowej, muszą uzyskać dostępną usługę. Muszą kupić produkt od razu po wyjęciu z pudełka i na ogół potrzebują usług konsultingowych i profesjonalnej obsługi, aby pomóc im we wdrożeniu go. Odzyskują tę wartość z powrotem w firmie i sprzedają ją z powrotem jako działające rozwiązanie.

W związku z tym oddam ci, Rebecca, ponieważ uważam, że właśnie o tym teraz szczegółowo opiszemy.

Rebecca Jóźwiak: Doskonały. Dziękuję bardzo, Dez. To świetna prezentacja.

Teraz przekażę piłkę Robinowi. Zabierz to.

Robin Bloor: W porządku. Ponieważ Dez zajął się drobiazgowym przetwarzaniem strumieni, wydawało mi się, że nie ma sensu go ponownie omawiać. Więc zamierzam przyjąć całkowicie strategiczny pogląd.Patrząc niemal z bardzo wysokiego poziomu na to, co się do cholery dzieje, i pozycjonując to, ponieważ myślę, że może to pomóc ludziom, szczególnie nam ludziom, którzy wcześniej nie byli obozowani w przetwarzaniu strumieni na dużej głębokości.

Przetwarzanie strumieni istnieje już od dłuższego czasu. Nazywaliśmy to CEP. Wcześniej istniały systemy czasu rzeczywistego. Oryginalne systemy sterowania procesami przetwarzały strumienie informacji - oczywiście nic nie posunęło się tak daleko, jak obecnie. Ta grafika, którą widzisz na slajdzie tutaj; wskazuje na wiele rzeczy, ale wskazuje ponad wszystko - na fakt, że na dole widnieje szereg opóźnień, które pojawiają się w różnych kolorach. To, co faktycznie wydarzyło się od wynalezienia obliczeń komputerowych lub komercyjnych, które pojawiło się około 1960 roku, polega na tym, że wszystko stało się coraz szybsze. Kiedyś mogliśmy polegać na sposobie, w jaki to naprawdę wychodziło, jeśli lubisz fale, ponieważ tak to wygląda. To zależy od tego. Ponieważ wszystko to wynikało z prawa Mooresa, a prawo Mooresa dałoby nam około dziesięciokrotnie większą prędkość w okresie około sześciu lat. Potem, kiedy faktycznie dotarliśmy do około 2013 roku, wszystko się zepsuło i nagle zaczęliśmy przyspieszać w tempie, którego nigdy nie byliśmy, co jest dziwnie niespotykane. Dostawaliśmy współczynnik około dziesięciu w kategoriach wzrostu prędkości, a zatem zmniejszenia opóźnień co około sześć lat. Przez sześć lat od około 2010 roku mamy wielokrotność co najmniej tysiąca. Trzy rzędy wielkości zamiast jednego.

Tak się dzieje i dlatego branża w ten czy inny sposób wydaje się poruszać z fantastyczną prędkością - bo tak jest. Po przejściu przez znaczenie tej konkretnej grafiki, czasy odpowiedzi w rzeczywistości są w skali algorytmicznej w dół osi pionowej. Czas rzeczywisty to prędkość komputera, szybsza niż ludzie. Czasy interaktywne są pomarańczowe. To wtedy, gdy wchodzisz w interakcję z komputerem, w którym naprawdę chcesz opóźnienie od jednej dziesiątej do około jednej sekundy. Powyżej jest transakcja, w której myślimy o tym, co robisz na komputerze, ale jeśli to wyjdzie za około piętnaście sekund, stanie się nie do zniesienia. Ludzie po prostu nie będą czekać na komputer. Wszystko zostało zrobione partiami. Wiele rzeczy, które zostały zrobione wsadowo, schodzi teraz bezpośrednio do przestrzeni transakcyjnej, bezpośrednio do przestrzeni interaktywnej, a nawet do przestrzeni czasu rzeczywistego. Podczas gdy wcześniej faliste z bardzo małymi ilościami danych moglibyśmy zrobić niektóre z nich, teraz możemy zrobić z bardzo dużymi ilościami danych przy użyciu niezwykle skalowanego środowiska.

Zasadniczo wszystko to mówi, że tak naprawdę to czas transakcji i interaktywnej reakcji człowieka. Strasznie dużo z tego, co dzieje się teraz ze strumieniami, polega na informowaniu ludzi o rzeczach. Niektóre z nich idą szybciej i dobrze informują, więc jest w czasie rzeczywistym. Następnie bierzemy licencję, aby po prostu upaść jak kamień, dzięki czemu natychmiastowa analiza jest wykonalna i nawiasem mówiąc dość przystępna. Nie tylko prędkość spadła, a góra właśnie się zapadła. Prawdopodobnie największy wpływ tych wszystkich spośród wszystkich różnych aplikacji, możesz wykonać te analizy predykcyjne. Powiem ci dlaczego za minutę.

To tylko sklep z narzędziami. Masz oprogramowanie równoległe. Mówimy o tym w 2004 roku. Skalowalna architektura, wielordzeniowe układy, zwiększenie pamięci, konfigurowalny procesor. Dyski SSD są teraz znacznie szybsze niż wirujący dysk. Możesz pożegnać się z wirującym dyskiem. Dyski SSD są również w wielu rdzeniach, więc znowu coraz szybciej. Wkrótce się pojawi, mamy memristor od HP. Mamy 3D XPoint od Intela i Microna. Obiecuje to, że i tak sprawi, że wszystko pójdzie coraz szybciej. Kiedy naprawdę myślisz o dwóch nowych technologiach pamięci, z których obie sprawią, że całość stanie się fundamentem małego kawałka, pojedyncza płytka drukowana idzie o wiele szybciej, nawet nie widzieliśmy jej końca.

Technologia strumieni, która jest następna, pozostanie. Będzie musiała być nowa architektura. Mam na myśli, że Dez wspomniał o tym w kilku punktach swojej prezentacji. Przez dziesięciolecia postrzegaliśmy architekturę jako połączenie stert danych i potoków danych. Mieliśmy tendencję do przetwarzania hałd i przesyłania danych między hałdami. Teraz zasadniczo zmierzamy w kierunku architektury danych Lambda, która łączy przetwarzanie przepływów danych ze stertami danych. Kiedy faktycznie przetwarzasz strumień zdarzeń przychodzących w stosunku do danych historycznych jako przepływ danych lub sterta danych, to właśnie mam na myśli architekturę Lambda. To jest w powijakach. To tylko część obrazu. Jeśli weźmiesz pod uwagę coś tak złożonego jak Internet wszystkiego, o czym wspomniał również Dez, w rzeczywistości zdasz sobie sprawę, że istnieją różnego rodzaju problemy z lokalizacją danych - decyzje dotyczące tego, co powinieneś przetwarzać w strumieniu.

Chodzi mi o to, że kiedy przetwarzaliśmy wsadowo, przetwarzaliśmy strumienie. Po prostu nie mogliśmy tego zrobić pojedynczo. Po prostu czekamy, aż pojawi się duża kupa rzeczy, a następnie przetwarzamy wszystko naraz. Przechodzimy do sytuacji, w której możemy przetwarzać rzeczy w strumieniu. Jeśli możemy przetwarzać rzeczy w strumieniu, wówczas stosy danych, które przechowujemy, będą danymi statycznymi, do których musimy się odwoływać, aby przetwarzać dane w strumieniu.

To prowadzi nas do tej konkretnej rzeczy. Wspomniałem o tym wcześniej w jakiejś prezentacji z biologiczną analogią. Sposób, w jaki chciałbym, abyś myślał, to moment, w którym jesteśmy ludźmi. Mamy trzy różne sieci do przetwarzania predykcyjnego w czasie rzeczywistym. Nazywa się je somatyczne, autonomiczne i jelitowe. Jelito jest twoim żołądkiem. Autonomiczny układ nerwowy opiekuje się walką i lotami. W rzeczywistości dba o szybkie reakcje na środowisko. Somatyczny, który dba o ruch ciała. Są to systemy czasu rzeczywistego. Ciekawą rzeczą - lub myślę, że jest dość interesująca - jest to, że wiele z nich jest bardziej przewidywalnych niż można sobie wyobrazić. To tak, jakbyś rzeczywiście patrzył na ekran około 18 cali od twarzy. Wszystko, co możesz wyraźnie zobaczyć, wszystko, co twoje ciało jest w stanie wyraźnie zobaczyć, to w rzeczywistości prostokąt o wymiarach 8 × 10. Wszystko poza tym jest tak naprawdę rozmyte, jeśli chodzi o twoje ciało, ale twój umysł wypełnia luki i sprawia, że nie jest rozmazany. W ogóle nie widać rozmycia. Widzisz to wyraźnie. W rzeczywistości twój umysł stosuje metodę predykcyjną strumienia danych, abyś mógł zobaczyć tę przejrzystość. To trochę dziwna rzecz, ale możesz naprawdę patrzeć na sposób działania układu nerwowego i sposób, w jaki potrafimy się poruszać i zachowywać się rozsądnie - przynajmniej niektórzy z nas - rozsądnie i nie wpadając na nic przez cały czas.

Wszystko to odbywa się za pomocą szeregu neuronowych skal analitycznych. To, co się stanie, to to, że organizacje będą miały ten sam rodzaj rzeczy i będą budować ten sam rodzaj rzeczy i będzie to przetwarzanie strumieni, w tym wewnętrznych strumieni organizacji - rzeczy, które dzieją się wewnątrz to, co dzieje się poza nim, natychmiastowe reakcje, które należy podjąć, są oczywiście karmieniem istoty ludzkiej do podejmowania decyzji, aby wszystko to się działo. Właśnie tam idziemy, o ile widzę.

Jedną z konsekwencji tego jest to, że poziom aplikacji do przesyłania strumieniowego idzie dobrze. Będzie o wiele więcej niż teraz. W tej chwili zbieramy nisko wiszący owoc robienia rzeczy, które są oczywiste.

W każdym razie taki jest wniosek. Analizy strumieniowe są kiedyś niszą, ale stają się głównym nurtem i wkrótce zostaną ogólnie przyjęte.

Po tym przekażę to Rebecce.

Rebecca Jóźwiak: Dziękuję bardzo, Robin. Świetna prezentacja jak zwykle.

Anand, jesteś następny. Podłoga jest twoja.

Anand Venugopal: Fantastyczny. Dziękuję Ci.

Nazywam się Anand Venugopal i jestem szefem produktu w StreamAnalytix. Jest to produkt oferowany przez Impetus Technologies z Los Gatos w Kalifornii.

Impetus ma naprawdę wspaniałą historię, będąc dostawcą rozwiązań big data dla dużych przedsiębiorstw. Więc jako firma usługowa przeprowadziliśmy wiele wdrożeń analizy strumieniowej i wyciągnęliśmy wiele wniosków. W ciągu ostatnich kilku lat zmieniliśmy się również, by stać się firmą produktową i firmą zorientowaną na rozwiązania, a analiza strumieniowa kieruje procesem przekształcania Impetus w firmę w dużej mierze opartą na produktach. Istnieje kilka kluczowych, bardzo, bardzo kluczowych aktywów, które Impetus wyczyścił dzięki naszej ekspozycji na przedsiębiorstwa, a StreamAnalytix jest jednym z nich.

Mamy 20 lat w branży i istnieje ogromna mieszanka produktów i usług, co czyni nas ogromną przewagą. StreamAnalytix narodził się ze wszystkich wniosków wyciągniętych z naszych pierwszych pięciu lub sześciu implementacji streamingu.

Poruszę kilka rzeczy, ale analitycy, Dez i Robin, wykonali fantastyczną robotę, zajmując się ogólną przestrzenią, więc pominę wiele treści, które się pokrywają. Prawdopodobnie pójdę szybko. Oprócz prawdziwych przypadków przesyłania strumieniowego widzimy wiele przyspieszania wsadowego, w których dosłownie bardzo ważne są procesy wsadowe w przedsiębiorstwach. Jak widać, cały cykl wykrywania zdarzenia, analizowania go i działania na nim może w rzeczywistości zająć tygodnie w dużych przedsiębiorstwach i wszyscy starają się go skrócić do minut, a czasem sekund i milisekund. Tak więc wszystko szybciej niż wszystkie te procesy wsadowe są kandydatami do przejęcia firmy i to bardzo dobrze mówi, że wartość danych dramatycznie maleje z wiekiem, więc im więcej wartości znajduje się w początkowej części w ciągu kilku sekund, które się właśnie wydarzyły. Idealnie byłoby, gdybyś mógł przewidzieć, co się stanie, to najwyższa wartość, ale zależy to od dokładności. Następną najwyższą wartością jest to, że kiedy jest tam, kiedy to się dzieje, możesz ją przeanalizować i zareagować. Oczywiście wartość dramatycznie zmniejsza się po tym, głównym restrykcyjnym BI, w którym się znajdujemy.

To interesujące. Możesz spodziewać się radykalnie naukowej odpowiedzi na pytanie, dlaczego analiza strumieniowa. W wielu przypadkach widzimy to, ponieważ jest to teraz możliwe i ponieważ wszyscy wiedzą, że partia jest stara, partia jest nudna, a partia nie jest fajna. Wszyscy mają już dość wykształcenia na temat tego, że możliwe jest przesyłanie strumieniowe i każdy ma teraz Hadoop. Teraz w dystrybucjach Hadoop wbudowana jest technologia przesyłania strumieniowego, niezależnie od tego, czy chodzi o przesyłanie strumieniowe Storm czy Spark, i oczywiście kolejki, takie jak Kafka itp.

Przedsiębiorstwa, które widzimy, wskakują w to i zaczynają eksperymentować z tymi przypadkami i widzimy dwie szerokie kategorie. Jeden ma coś wspólnego z analizą i doświadczeniem klienta oraz drugą inteligencją operacyjną. Nieco później omówię niektóre szczegóły. Cały zakres obsługi klienta i doświadczenia klienta, a my w Impetus StreamAnalytix, zrobiliśmy to na wiele różnych sposobów, tak naprawdę chodzi o to, aby naprawdę, naprawdę uchwycić wielokanałowe zaangażowanie konsumenta w czasie rzeczywistym i zapewnić mu bardzo, bardzo wrażliwe wrażenia które dziś nie są powszechne. Jeśli przeglądasz Internet, na stronie internetowej Bank of America, szukałeś niektórych produktów i po prostu dzwonisz do call center. Czy powiedzieliby: „Hej Joe, wiem, że badałeś niektóre produkty bankowe, czy chciałbyś, żebym cię wypełnił?” Nie oczekujesz tego dzisiaj, ale takie doświadczenie jest naprawdę możliwe dzięki analityce strumieniowej. W wielu przypadkach robi to ogromną różnicę, zwłaszcza jeśli klient zaczął szukać sposobów wyjścia z umowy z tobą, sprawdzając klauzule dotyczące wcześniejszego wypowiedzenia lub warunki wcześniejszego wypowiedzenia na swojej stronie internetowej, a następnie zadzwonić, a ty nie możesz bezpośrednio skonfrontuj ich na ten temat, ale tylko pośrednio złóż ofertę dotyczącą pierwszej promocji, ponieważ system wie, że ta osoba szuka przedwczesnego rozwiązania umowy, a ty złożysz tę ofertę w tym momencie, możesz bardzo dobrze chronić tego klienta i chronić ten zasób .

To byłby jeden przykład, a wiele usług dla klientów to bardzo dobre przykłady. Wdrażamy dzisiaj, obniża koszty w call center, a także zapewnia dramatyczne zachwycające doświadczenia klientów. Dez wykonał świetną robotę, podsumowując niektóre przypadki użycia. Możesz patrzeć na ten wykres przez kilka minut. Sklasyfikowałem to jako obszary pionowe, poziome i obszary kombi, Internet Rzeczy, aplikacja mobilna i call center. Wszystkie są pionami i poziomymi. To zależy od tego, jak na to spojrzysz. Podsumowując, widzimy wiele zastosowań horyzontalnych, które są dość powszechne w różnych branżach branżowych, i istnieją konkretne przypadki zastosowań wertykalnych, w tym usługi finansowe, opieka zdrowotna, telekomunikacja, produkcja itp. Jeśli naprawdę zadajesz sobie pytanie lub mówisz sobie że „och, nie wiem, jakie są przypadki użycia. Nie jestem pewien, czy w mojej firmie lub naszym przedsiębiorstwie jest jakaś wartość biznesowa dla analizy strumieniowej ”- zastanów się, pomyśl dwa razy. Porozmawiaj z większą liczbą osób, ponieważ istnieją przypadki użycia, które są ważne w Twojej firmie. Zajmę się wartością biznesową, w jaki dokładnie sposób obliczana jest wartość biznesowa.

Na dole piramidy znajduje się konserwacja zapobiegawcza, bezpieczeństwo, ochrona przed odejściem itp. Tego rodzaju przypadki użycia stanowią ochronę przychodów i aktywów. Jeśli Target chroniłby swoje naruszenie bezpieczeństwa, które miało miejsce przez wiele godzin i tygodni, CIO mógłby uratować jego pracę. Może zaoszczędzić dziesiątki lub setki milionów dolarów itp. Analizy strumieniowania w czasie rzeczywistym naprawdę pomagają w ochronie tych aktywów i ochronie przed stratami. To bezpośrednia wartość dodana dla biznesu właśnie tam.

Następna kategoria staje się bardziej opłacalna, obniżając koszty i uzyskując większe przychody z bieżącej działalności. To wydajność obecnego przedsiębiorstwa. Są to wszystkie przypadki użycia, które nazywamy inteligencją operacyjną w czasie rzeczywistym, w których uzyskujesz głęboki wgląd w to, jak zachowuje się sieć, jak zachowują się operacje twoich klientów, jak zachowuje się proces biznesowy i jesteś w stanie dostosować wszystko to w czasie rzeczywistym, ponieważ otrzymujesz informacje zwrotne, otrzymujesz powiadomienia. Otrzymujesz odchylenia, rozbieżności w czasie rzeczywistym i możesz szybko działać i rozdzielać proces, który wychodzi poza granice.

Możesz także potencjalnie zaoszczędzić dużo pieniędzy na kosztownych ulepszeniach kapitału i rzeczach, które uważasz za konieczne, które mogą nie być konieczne, jeśli zoptymalizujesz usługę sieciową. Słyszeliśmy o przypadku, w którym duży operator telekomunikacyjny odłożył aktualizację infrastruktury sieciowej o 40 milionów dolarów, ponieważ odkrył, że ma wystarczającą pojemność do zarządzania obecnym ruchem, czyli poprzez optymalizację i lepsze wykonywanie inteligentnego routingu ruchu i tym podobne. Wszystko to jest możliwe tylko przy pomocy mechanizmu analizy i działania w czasie rzeczywistym, który działa na podstawie tych spostrzeżeń w czasie rzeczywistym.

Kolejnym poziomem wartości dodanej jest sprzedaż podwyższona, sprzedaż krzyżowa, w której istnieją możliwości uzyskania większych przychodów i zysków z bieżących ofert. To klasyczny przykład, który wielu z nas wie o tym, czego doświadczyli. Zastanawiasz się, gdzie w życiu jesteś gotów kupić produkt, który nie jest Ci oferowany. W wielu, wielu przypadkach tak się dzieje. Masz w głowie rzeczy, które chcesz kupić, o których wiesz, że chcesz kupić, że masz listę rzeczy do zrobienia lub coś, co powiedziała ci żona lub jeśli nie masz żony, ale naprawdę chciałeś kupić i albo robisz zakupy na stronie internetowej, albo wchodzisz w interakcję ze sklepem detalicznym, witryna sklepu po prostu nie ma wady, nie ma inteligencji, by obliczyć, czego możesz potrzebować. Dlatego nie zapewniają bezpieczeństwa swojej firmie. Jeśli analityka strumieniowa mogłaby zostać wdrożona, aby naprawdę dokonywać dokładnych prognoz i które są naprawdę możliwe na podstawie tego, co najbardziej pasuje do tego konkretnego oszustwa, tego klienta w tym momencie w tej lokalizacji, istnieje wiele dodatków i sprzedaży krzyżowej, a to znowu pochodzi analityka strumieniowa - możliwość podjęcia decyzji skłonnej do tego, co ten klient prawdopodobnie kupi lub zareaguje w tym momencie prawdy, kiedy będzie taka możliwość. Dlatego uwielbiam to zdjęcie, które Dez pokazał niedźwiedziowi, który właśnie chciał zjeść tę rybę. To wszystko.

Uważamy również, że istnieje duża kategoria dramatycznych, transformacyjnych zmian w przedsiębiorstwie polegających na oferowaniu całkowicie nowych produktów i usług opartych wyłącznie na obserwacji zachowań klientów, a wszystko na podstawie obserwacji zachowania innego przedsiębiorstwa. Jeśli, powiedzmy, operator telekomunikacyjny lub kablowy naprawdę obserwuje wzorce użytkowania klientów w tym segmencie rynku, który ogląda, jaki program w jakim czasie itp., To w rzeczywistości tworzą produkty i usługi, które są prawie żebrane w jakiś sposób. Cała koncepcja zachowania na wielu ekranach w tej chwili, w której prawie teraz przyjmujemy za pewnik, że możemy oglądać treści telewizyjne lub kablowe w naszych aplikacjach mobilnych. Niektóre z tych przykładów pochodzą z nowych produktów i usług, które są nam oferowane.

Wchodzę w to: „Jakie są aspekty architektury analityki strumieniowej?”. Ostatecznie staramy się to zrobić. Jest to architektura Lambda, w której łączysz dane historyczne z danymi w czasie rzeczywistym i widzisz je jednocześnie. Właśnie to umożliwia Sigma. Wszyscy mamy dziś architekturę partii i obraz przedsiębiorstwa. Gromadzimy się w jakimś stosie BI i stosie wykorzystania oraz dodanej architekturze Lambda. Jako warstwa prędkości lub potrzeba i Lambda chodzi o połączenie tych dwóch spostrzeżeń i zobaczenie ich w połączony sposób, w bogaty sposób, który łączy oba spostrzeżenia.

Istnieje inny paradygmat zwany architekturą Kappa, który jest proponowany tam, gdzie hipoteza jest taka, że warstwa prędkości jest jedynym mechanizmem wejściowym, który będzie trwał w dłuższej perspektywie. Wszystko przejdzie przez tę warstwę prędkości. Nie będzie nawet mechanizmu ETL offline. Cała ETL się wydarzy. Czyszczenie, czyszczenie danych, jakość ETL - wszystko to stanie się na drutach, ponieważ pamiętaj, że wszystkie dane narodziły się w czasie rzeczywistym. W pewnym momencie był to czas rzeczywisty. Przyzwyczailiśmy się do umieszczania tego na jeziorach, rzekach i oceanach, a następnie na analizie statycznej, że zapomnieliśmy, że dane narodziły się w pewnym momencie w czasie rzeczywistym.Wszystkie dane rodzą się jako zdarzenie w czasie rzeczywistym, które miało miejsce w czasie, a większość danych na jeziorze właśnie została zapisana w bazie danych do późniejszej analizy, a my mamy teraz przewagę w architekturze Lambda i Kappa w rzeczywistości widząc go, analizując, przetwarzając go wstępnie i reagując na nie, gdy nadejdzie. Właśnie to umożliwiają te technologie. Kiedy spojrzysz na to jako ogólny obraz, wygląda to tak, jakby w środku był Hadoop, MPP i hurtownie danych, które już masz.

Podnosimy to, ponieważ ważne jest, aby nie tylko rozmawiać o nowych technologiach na wyspie. Muszą się zintegrować. Muszą mieć sens w obecnej sytuacji korporacyjnej, a jako dostawcy rozwiązań obsługujących przedsiębiorstwa jesteśmy bardzo wrażliwi na to. Pomagamy przedsiębiorstwom w integracji całości. Po lewej stronie znajdują się źródła danych zasilające zarówno warstwy Hadoop, jak i hurtowni danych, a także warstwę czasu rzeczywistego na górze, a każda z tych jednostek jest komputerami magazynowymi, jak widać, a warstwa zużycia danych znajduje się po prawej stronie bok. Nieustannie podejmowane są wysiłki, aby przenieść większość zgodności, zarządzania, bezpieczeństwa, zarządzania cyklem życia itp., Które są obecnie dostępne, wszystkie zostały zgromadzone w tej nowej technologii.

Jedną z rzeczy, które próbuje zrobić analityka strumieniowa, jeśli spojrzysz na krajobraz dzisiaj, jest wiele rzeczy dzieje się w krajobrazie technologii przesyłania strumieniowego, a z punktu widzenia klienta korporacyjnego jest tak wiele do zrozumienia. Jest tyle rzeczy do nadążenia. Po lewej stronie znajdują się mechanizmy gromadzenia danych - NiFi, Logstash, Flume, Sqoop. Oczywiście złożyłem oświadczenie, że nie jest ono wyczerpujące. Wchodząc w kolejki, a następnie wchodząc do silników strumieniowych open source - Storm, Spark Streaming, Samza, Flink, Apex, Heron. Czapla prawdopodobnie nie jest jeszcze open source. Nie jestem pewien, czy to jest, z. Te mechanizmy przesyłania strumieniowego prowadzą następnie do lub obsługują konfiguracyjny komponent aplikacji analitycznej, taki jak złożone przetwarzanie zdarzeń, uczenie maszynowe, analiza predykcyjna, moduł alarmowy, streaming ETL, filtry operacji statystycznych wzbogacania. To wszystko nazywamy teraz operatorami. Zbiór tych operatorów po połączeniu razem może potencjalnie również zawierać niektóre niestandardowe wnioski, jeśli zajdzie taka potrzeba, stanie się aplikacją strumieniową działającą na silniku strumieniowym.

W ramach tego łańcucha komponentów musisz także przechowywać i indeksować dane w swojej ulubionej bazie danych, ulubionym indeksie. Być może będziesz musiał rozdzielić pamięć podręczną i ponownie, która prowadzi do warstwy wizualizacji danych po prawej stronie w górnej części do produktów komercyjnych lub produktów open source, ale ostatecznie potrzebujesz jakiegoś produktu do wizualizacji tych danych w czasie rzeczywistym. Ponadto musisz czasem wymyślić inne aplikacje. Wszyscy widzieliśmy, że wartości wyprowadzane tylko z akcji podjętej przez wgląd, ta akcja będzie wyzwalaczem ze stosu analitycznego na inny stos aplikacji, który może się zmienić, to coś po stronie IVR lub wywołać call center połączenie wychodzące lub coś takiego. Musimy zintegrować te systemy i mechanizm klastra przesyłania strumieniowego, aby uruchomić inne aplikacje do pobierania danych.

To jest ogólny stos od przejścia od lewej do prawej. Następnie masz warstwy usług, środkowy monitoring, ogólną warstwę zabezpieczeń, itp. Przechodząc do tego, jakie produkty znajdują się w przestrzeni korporacyjnej, którą widzą klienci, jak dystrybucje Hadoop, które wszystkie mają transmisję strumieniową, jak powiedziałem, i jest komercyjny lub pojedynczy - rozwiązania sprzedawców, które oczywiście są u naszych konkurentów. W krajobrazie jest także wiele innych, o których być może nie wspomnieliśmy tutaj.

To, co tam widzisz, jest szeroko widoczne dla użytkowników korporacyjnych. Jak widać, złożony i szybko ewoluujący krajobraz technologiczny do przetwarzania strumieniowego. Musimy uprościć wybór i wygodę użytkowania. Uważamy, że przedsiębiorstwa naprawdę potrzebują funkcjonalnej abstrakcji tego wszystkiego w jednym kompleksowym, łatwym w obsłudze interfejsie, który łączy wszystkie te technologie, które sprawiają, że jest naprawdę prosty w obsłudze i nie ujawnia wszystkich ruchomych części oraz problemy degradacji i wydajności oraz problemy z utrzymaniem cyklu życia w przedsiębiorstwie.

Abstrakcja funkcjonalności jest jedna. Druga część to abstrakcja silnika przesyłania strumieniowego. Silniki przesyłania strumieniowego i domeny typu open source pojawiają się teraz co trzy, cztery lub sześć miesięcy. To był Storm przez długi czas. Pojawiła się Samza i teraz jest Spark Streaming. Flink podnosi głowę i zaczyna zwracać na siebie uwagę. Nawet mapa drogowa Spark Streaming, one umożliwiają potencjalnie użycie innego silnika do czystego przetwarzania zdarzeń, ponieważ zdają sobie również sprawę, że Spark został zaprojektowany do zadań wsadowych i robią sposób w swojej wizji architektury i mapie drogowej, aby potencjalnie mieć inny silnik do przetwarzania strumieniowego oprócz bieżącego wzorca mikropasowania w Spark Streaming.

To rzeczywistość, z którą musicie się zmagać, że będzie wiele ewolucji. Naprawdę musisz chronić się przed tym przepływem technologii. Ponieważ domyślnie będziesz musiał wybrać jeden, a następnie żyć z nim, co nie jest optymalne. Jeśli patrzysz na to z innej strony, walczysz między: „okej, muszę kupić zastrzeżoną platformę, w której nie ma blokady, nie ma dźwigni otwartego źródła, może być bardzo wysoki koszt i ograniczony elastyczność w porównaniu z tymi wszystkimi stosami oprogramowania typu open source, w których musisz to zrobić sam. ”Ponownie, jak powiedziałem, wprowadzenie na rynek wiąże się z dużymi kosztami i opóźnieniami. Mówimy, że StreamAnalytix jest przykładem doskonałej platformy, która łączy klasę korporacyjną, niezawodnego, pojedynczego dostawcy, profesjonalnej obsługi - wszystko to, czego naprawdę potrzebujesz jako przedsiębiorstwa i siły elastyczności ekosystemu open source gdzie pojedyncza platforma łączy je razem - Ingest, CEP, analityka, wizualizacja i tak dalej.

Ma również bardzo, bardzo unikalną cechę, która łączy wiele różnych technologii pod jednym doświadczeniem użytkownika. Naprawdę uważamy, że w przyszłości będzie można korzystać z wielu silników przesyłania strumieniowego, ponieważ różne przypadki użycia naprawdę wymagają różnych architektur przesyłania strumieniowego. Jak powiedział Robin, istnieje całe spektrum opóźnień. Jeśli naprawdę mówisz o poziomie opóźnienia w milisekundach, dziesiątkach, a nawet setkach milisekund, naprawdę potrzebujesz w tej chwili Storma, dopóki nie będzie innego równie dojrzałego produktu o mniejszej łagodności lub łagodniejszych ramach czasowych i opóźnieniach może za kilka sekund, trzech, cztery, pięć sekund, ten zakres, wtedy możesz użyć Spark Streaming. Potencjalnie istnieją inne silniki, które mogłyby to zrobić. Podsumowując, w dużym przedsiębiorstwie pojawią się różnego rodzaju przypadki użycia. Naprawdę chcesz, aby dostęp i ogólność miały wiele silników z jednym doświadczeniem użytkownika i właśnie to staramy się stworzyć w StreamAnalytix.

Szybki przegląd architektury. Przeróbmy to trochę, ale zasadniczo po lewej stronie znajduje się wiele źródeł danych - Kafka, RabbitMQ, Kinesis, ActiveMQ, wszystkie te źródła danych i kolejki przychodzące na platformę przetwarzania strumieniowego, gdzie utwórz aplikację, w której możesz przeciągać i upuszczać od operatorów takich jak ETL, wszystkie rzeczy, o których rozmawialiśmy. Poniżej znajduje się wiele silników. Obecnie mamy Storm i Spark Streaming jako jedyną w branży i pierwszą platformę streamingową klasy korporacyjnej z obsługą wielu silników. To bardzo wyjątkowa elastyczność, którą oferujemy oprócz wszystkich innych możliwości posiadania pulpitów nawigacyjnych w czasie rzeczywistym. Wbudowany silnik CET. Mamy płynną integrację z indeksami Hadoop i NoSQL, indeksami Solr i Apache. Możesz wylądować w swojej ulubionej bazie danych, bez względu na to, czym ona jest, i budować aplikacje naprawdę szybko, bardzo szybko wchodzić na rynek i być gotowym na przyszłość. To nasza cała mantra w StreamAnalytix.

Po tym myślę, że zakończę moje uwagi. Zapraszamy do nas, aby uzyskać więcej pytań. Chciałbym, aby głos był otwarty na pytania i odpowiedzi oraz dyskusję panelową.

Rebecca, do ciebie.

Rebecca Jóźwiak: Świetnie, dobrze. Dziękuję bardzo. Dez i Robin, czy masz jakieś pytania, zanim przekażemy je publiczności?

Robin Bloor: Mam pytanie. Z powrotem założę słuchawki, żebyś mnie słyszał. Jedną z interesujących rzeczy, jeśli mógłbyś mi to powiedzieć, wiele z tego, co widziałem w przestrzeni open source, wygląda na to, co powiedziałbym niedojrzałemu. W pewnym sensie tak, możesz robić różne rzeczy. Ale wygląda na to, że patrzymy na oprogramowanie w jego pierwszej lub drugiej wersji w rzeczywistości, a ja po prostu zastanawiałem się nad twoim doświadczeniem jako organizacji, jak bardzo postrzegasz niedojrzałość środowiska Hadoop jako problematyczne, czy też jest to coś, co nie „ stwarzasz zbyt wiele problemów?

Anand Venugopal: To rzeczywistość, Robin. Masz całkowitą rację. Niedojrzałość niekoniecznie polega wyłącznie na stabilności funkcjonalnej i rzeczach, ale może także na niektórych przypadkach. Ale niedojrzałość polega bardziej na gotowości do użycia. Gdy pojawiają się produkty typu open source, a nawet jeśli są oferowane przez dystrybucję Hadoop, wszystkie są produktami o wielu różnych możliwościach, komponenty po prostu połączone. Nie współpracują ze sobą płynnie i nie zostały zaprojektowane z myślą o płynnym korzystaniu z interfejsu użytkownika, tak dobrze, jak Bank of America, Verizon lub AT&T, aby wdrożyć aplikację do analizy strumieniowej w ciągu kilku tygodni. Na pewno nie są do tego przeznaczone. Właśnie dlatego weszliśmy. Łączymy to i ułatwiamy zrozumienie, wdrożenie itp.

Sądzę, że funkcjonalna dojrzałość tego istnieje. Wiele dużych firm używa dziś na przykład Storm. Wiele dużych firm bawi się dziś za pomocą Spark Streaming. Każdy z tych silników ma swoje ograniczenia w tym, co mogą zrobić, dlatego ważne jest, aby wiedzieć, co możesz i czego nie możesz zrobić z każdym silnikiem, i nie ma sensu łamać głowy o ścianę i mówić: „Spójrz wybrałem Spark Streaming i to nie działa dla mnie w tej konkretnej branży. ”To nie zadziała. Będą przypadki użycia, w których Spark Streaming będzie najlepszą opcją, i będą przypadki użycia, w których Spark Streaming może w ogóle nie działać. Dlatego naprawdę potrzebujesz wielu opcji.

Robin Bloor: Cóż, w większości przypadków musisz mieć zespoły ekspertów. To znaczy, nawet nie wiem od czego zacząć. Rozsądna współpraca wykwalifikowanych osób. Interesuje mnie, w jaki sposób angażujesz się i jak to się dzieje. Czy dlatego, że konkretna firma poszukuje określonej aplikacji, czy widzisz coś, co nazwałbym strategicznym przyjęciem, w którym chcą, aby cała platforma robiła wiele rzeczy.

Anand Venugopal: Widzimy przykłady obu, Robin. Niektóre z dziesięciu najlepszych marek, o których wszyscy wiedzą, podchodzą do tego w bardzo strategiczny sposób. Wiedzą, że będą mieli różne przypadki użycia, więc oceniają platformy, które będą odpowiadały tej potrzebie, czyli różnorodne różne przypadki użycia w wielu dzierżawach do wdrożenia w przedsiębiorstwie. Zaczynają się także historie przypadków użycia jednorazowego. W firmie hipotecznej istnieje szczególny przypadek użycia typu monitorowania działalności biznesowej, nad którym nie wyobrażasz sobie pierwszego przypadku użycia, ale jest to rozwiązanie biznesowe lub przypadek użycia, który wymyślili, a następnie połączyliśmy kropki z streamingiem . Powiedzieliśmy: „Wiesz co? Jest to świetny przypadek dla analizy strumieniowej i właśnie w ten sposób możemy ją wdrożyć. ”Tak to się zaczęło. Następnie w tym procesie uczą się i mówią: „Och, wow, jeśli możemy to zrobić, a jeśli jest to ogólna platforma, to możemy podzielić aplikację, nałożyć ją na platformę i zbudować na niej wiele różnych aplikacji. Platforma."

Robin Bloor: Dez, masz jakieś pytania?

Anand Venugopal: Dez prawdopodobnie jest niemy.

Dez Blanchfield: Przepraszamy, niema. Właśnie sam miałem dobrą rozmowę. Postępując zgodnie z pierwotną obserwacją Robina, masz całkowitą rację. Myślę, że wyzwaniem jest teraz to, że przedsiębiorstwa mają ekosystem oraz środowisko kulturowe i behawioralne, w którym wolne i otwarte oprogramowanie jest czymś, co jest im znane i mogą używać narzędzi takich jak Firefox jako przeglądarka i ma przyzwoitą żywotność, aż stanie się stabilna i bezpieczna. Ale niektóre z tych bardzo dużych platform, z których korzystają, są firmowymi platformami firmowymi. Dlatego przyjęcie platform, które uważam za otwarte, nie zawsze jest dla nich łatwe do przejścia kulturowo lub emocjonalnie. Widziałem to tylko w przypadku przyjmowania małych programów, które były lokalnymi projektami, w których podstawową koncepcją było korzystanie z dużych zbiorów danych i analiz. Myślę, że jednym z kluczowych wyzwań, jestem pewien, że widziałeś je teraz w różnych organizacjach, jest ich chęć uzyskania rezultatu, ale jednocześnie utknięcie jednej stopy w starej puszce, gdzie mogliby to kupić „Wstaw dużą markę” Oracle, IBM i Microsoft. Te nowe i znane marki powstają dzięki platformom Hadoop i jeszcze więcej. Pojawiają się kolejne ekscytujące marki, które mają najnowocześniejsze technologie, takie jak stream.

Jakie są rodzaje rozmów, w których uczestniczyłeś? Wiem, że dziś rano mamy ogromną frekwencję i jestem pewien, że wszyscy myślą: „Jak przejść przez całą tę trudną warstwę od płyty do poziomu zarządzania, och, to zbyt otwarte źródło i zbyt krwawa przewaga? „Jak przebiegają rozmowy z klientami i jak przebijasz się do punktu, w którym łagodzisz tego rodzaju obawy, aby rozważyć przyjęcie podobnych do StreamAnalytix?

Anand Venugopal: Naprawdę łatwo jest nam sprzedawać naszą ofertę wartości, ponieważ klienci naturalnie przechodzą na otwarte oprogramowanie jako preferowaną opcję. Niełatwo się po prostu poddają i mówią: „Dobra, teraz przejdę do oprogramowania typu open source”. W rzeczywistości przechodzą bardzo zaangażowaną ocenę dużego produktu, powiedzmy, że jest to IBM lub typowy produkt, ponieważ mają te relacje z dostawcami. Nie potraktowaliby nas ani silnika open source przeciwko temu produktowi. Przejdą od sześciu do ośmiu do dwunastu tygodni oceny. Przekonają się, że chcę osiągnąć pewien poziom wydajności i stabilności, a potem podejmują decyzję, mówiąc: „Wow, wiesz co, naprawdę mogę to zrobić”.

Na przykład dzisiaj mamy telekomunikację na pierwszym poziomie, która ma analizy strumieniowe działające w produkcji na szczycie stosu i oceniają to w stosunku do innego bardzo, bardzo dużego znanego dostawcy i zostali przekonani dopiero po tym, jak udowodniliśmy wszystko wydajność, stabilność i wszystkie te rzeczy. Nie biorą tego za pewnik. Odkryli, że otwarte źródła są kompetentne dzięki ich ocenom i zdają sobie sprawę, że w najgorszym przypadku: „Być może są te dwa przypadki użycia, których być może nie mogę zrobić, ale większość moich przypadków użycia akceleracji w dzisiejszych czasach jest wyjątkowo możliwa dzięki open source stos. ”I umożliwiamy korzystanie z niego. To jest właśnie tam największa atrakcja. Chcieli open source. Naprawdę chcą wyjść z sytuacji, w której sprzedawca był przyzwyczajony przez wiele, wiele lat. Potem przychodzimy i mówimy: „Wiesz co, sprawimy, że open source będzie dla ciebie o wiele łatwiejszy i bardziej przyjazny”.

Dez Blanchfield: Myślę, że drugim wyzwaniem, jakie stoją przed przedsiębiorstwami, jest wprowadzenie tradycyjnego operatora zasiedziałego. Często są one pokoleniowo za najnowocześniejszymi ekscytującymi rzeczami, o których tu mówimy, i nie mam na myśli tego negatywnego. Chodzi o to, że w rzeczywistości musi przejść pokolenie i podróż, aby wydać to, co uważają za stabilne platformy, stare cykle rozwoju i integracji z UATN, testy i dokumentację oraz marketing i sprzedaż. Podczas gdy w typie, który robisz, myślę, że chciałbym pomyśleć o tym, że patrząc na niektóre z twoich ostatnich wydań zeszłej nocy wykonując jakieś prace badawcze, masz ten miks teraz, gdzie masz kompetencje z góry, z punktu widzenia doradztwa i wdrożenia, ale masz także stos, który możesz wdrożyć. Myślę, że to jest miejsce, gdzie obecni będą walczyć przez pewien czas. Widzieliśmy wielu takich jak ja na rynku. Często znajdują się w czymś, co nazywam węzłami doganiania, podczas gdy z tego, co mówisz, kiedy rozmawiasz i wdrażasz.

Czy możesz podać nam kilka przykładów niektórych pionowych granic, które widziałeś w adopcji? Na przykład istnieje naprawdę niszowe środowisko, takie jak nauka rakietowa i umieszczanie satelitów w kosmosie oraz zbieranie danych z Marsa. Na świecie robi to tylko garstka ludzi. Ale istnieją duże dziedziny, takie jak na przykład zdrowie, w aeronautyce, w żegludze i logistyce, w produkcji i inżynierii, co jest kilkoma przykładami większych i bardziej rozległych sektorów przemysłu, w których do tej pory widziałeś naprawdę dobre adopcja w?

Anand Venugopal: Telco jest dobrym przykładem.

Zamierzam szybko naprawić tutaj moje slajdy. Czy możesz zobaczyć slajd tutaj, studium przypadku 4?

Jest to przypadek dużego telekodowania przyjmującego dane z dekodera i wykonującego z nim wiele rzeczy. Patrzą na to, co naprawdę robią klienci w czasie rzeczywistym. Patrzą na to, gdzie w dekodach występują błędy w czasie rzeczywistym. Próbują poinformować centrum telefoniczne, jeśli ten klient dzwoni teraz, informacje o łączu kodowym z dekodera tego klienta, informacje dotyczące biletu serwisowego szybko korelują, czy dekoder tego konkretnego klienta ma problem, czy nie nawet wcześniej klient mówi słowo. Każda firma kablowa, każda duża firma telekomunikacyjna próbuje to zrobić. Pobierają dane z dekodera, analitykę w czasie rzeczywistym, analitykę kampanii, aby mogli umieszczać swoje reklamy. Istnieje ogromny przypadek użycia.

Jak już powiedziałem, istnieje ta firma hipoteczna, która jest znowu ogólnym wzorcem, w którym duże systemy biorą udział w przetwarzaniu danych. Dane przepływające przez system A do systemu B do systemu C i są to regulowane przedsiębiorstwa, w których wszystko musi być spójne.Często systemy nie są ze sobą zsynchronizowane, jeden system mówi: „Przetwarzam sto pożyczek o łącznej wartości 10 milionów dolarów”. System mówi: „Nie, przetwarzam 110 pożyczek innych inna liczba. ”Muszą rozwiązać to naprawdę szybko, ponieważ w rzeczywistości przetwarzają te same dane i dokonują różnych interpretacji.

Niezależnie od tego, czy jest to karta kredytowa, proces kredytowy, proces biznesowy, czy jest to proces biznesowy hipoteczny, czy coś innego, pomagamy im w korelacji i uzgadnianiu w czasie rzeczywistym, aby zapewnić synchronizację tych procesów biznesowych. To kolejny interesujący przypadek użycia. Jest pewien główny wykonawca rządowy USA, który szuka ruchu DNS w celu wykrycia anomalii. Istnieje zbudowany przez nich model szkolenia offline, który dokonuje oceny na podstawie tego modelu na podstawie ruchu w czasie rzeczywistym. Niektóre z tych interesujących przypadków użycia. Jedna z głównych linii lotniczych patrzy na kolejki bezpieczeństwa i starają się przekazać ci takie informacje, że: „Hej, to twoja brama do twojego samolotu na lot. Dzisiaj kolejka TSA trwa około 45 minut w porównaniu z dwiema godzinami w porównaniu do czegoś innego. ”Aktualizację tę otrzymujesz z góry. Nadal nad tym pracują. Ciekawy przypadek użycia Internetu Rzeczy, ale świetny przypadek analizy strumieniowej skierowanej na zadowolenie klienta.

Rebecca Jóźwiak: To jest Rebecca. Gdy zajmujesz się przypadkami użycia, członek publiczności zastanawia się: „Czy to studia przypadków, czy inicjatywy te są kierowane od strony analitycznej systemów informatycznych domu, czy raczej są kierowane firma, która ma na myśli konkretne pytania lub potrzeby? ”

Anand Venugopal: Myślę, że widzimy około 60 procent, 50 procent do 55 procent, w dużej mierze bardzo proaktywne, entuzjastyczne inicjatywy technologiczne, które się zdają, które są dość bystre i rozumieją pewne wymagania biznesowe i prawdopodobnie mają jednego sponsora, którego zidentyfikowali, ale te zespoły technologiczne przygotowują się do nadchodzących ataków biznesowych przypadków, a potem, kiedy już zbudują taką możliwość, wiedzą, że mogą to zrobić, a następnie idą do biznesu i agresywnie sprzedają to. W 30 do 40 procent przypadków widzimy, że firma ma już konkretny przypadek użycia, który prosi o możliwość analizy strumieniowej.

Rebecca Jóźwiak: To ma sens. Mam jeszcze jedno nieco bardziej techniczne pytanie od członka widowni. Zastanawia się, czy systemy te obsługują zarówno strumienie danych ustrukturyzowanych, jak i nieustrukturyzowanych, takie jak osady strumieni lub postów w czasie rzeczywistym, czy też należy je wstępnie filtrować?

Anand Venugopal: Produkty i technologie, o których mówimy, bardzo szybko obsługują zarówno dane ustrukturyzowane, jak i nieustrukturyzowane. Można je skonfigurować. Wszystkie dane mają jakąś strukturę, niezależnie od tego, czy są to pliki XML, czy cokolwiek innego. Istnieje pewna struktura pod względem podawania znacznika czasu. Być może istnieje inny obiekt blob, który musi zostać przeanalizowany, aby można było wstrzykiwać analizy do strumienia w celu analizy struktur danych. Jeśli jest ustrukturyzowany, mówimy po prostu systemowi: „Ok, jeśli istnieją wartości oddzielone przecinkami, a pierwsza to ciąg, druga to data”. Możemy więc wprowadzić tę analizę składniową do warstw wyświetlanych w górę i łatwo przetwarzają zarówno dane ustrukturyzowane, jak i nieustrukturyzowane.

Rebecca Jóźwiak: Mam inne pytanie od publiczności. Wiem, że trochę minęła godzina. Ten uczestnik chce wiedzieć, wydaje się, że aplikacje do przesyłania strumieniowego w czasie rzeczywistym mogą rozwijać zarówno potrzebę, jak i okazję do ponownej integracji z systemami transakcyjnymi, na przykład systemami zapobiegania oszustwom. W takim przypadku, czy systemy transakcyjne muszą zostać odpowiednio dostosowane?

Anand Venugopal: To połączenie, prawda? To połączenie systemów transakcyjnych. Czasami stają się źródłem danych, w których analizujemy transakcje w czasie rzeczywistym, aw wielu przypadkach, powiedzmy, że istnieje przepływ aplikacji, a tutaj próbuję wyświetlić statyczną stronę wyszukiwania danych, a następnie w naszym przypadku, w którym jakiś rodzaj przesyłania strumieniowego i szukasz statycznej bazy danych, takiej jak HBase lub RDBMS, aby wzbogacić dane przesyłane strumieniowo i dane statyczne razem, aby podjąć decyzję lub uzyskać wgląd analityczny.

Obserwujemy również inny trend w branży - konwergencję OLAP i OLTP - i dlatego masz bazy danych takie jak Kudu i bazy danych w pamięci obsługujące zarówno transakcje, jak i przetwarzanie analityczne w tym samym czasie. Warstwa przetwarzania strumieniowego byłaby całkowicie w pamięci i będziemy patrzeć na niektóre z tych transakcyjnych baz danych lub współpracować z nimi.

Rebecca Jóźwiak: Myślę, że mieszane obciążenie pracą było jedną z ostatnich przeszkód do skoku. Dez, Robin, czy macie jeszcze jakieś pytania?

Dez Blanchfield: Skoczę do ostatniego pytania i podsumuję to, jeśli nie masz nic przeciwko. Pierwszym wyzwaniem, z którym borykają się organizacje przez ostatnią dekadę, prowadzące do tego ekscytującego wyzwania analizy strumieniowej, pierwszą rzeczą, którą zwykle odkładają na stół, gdy zaczynamy rozmowę na temat tego całego wyzwania, jest to, gdzie dostajemy zestaw umiejętności? Jak przekwalifikować zestaw umiejętności i jak uzyskać tę zdolność wewnętrznie? Posiadanie Impetusa i trzymanie go za rękę trzyma nas przez podróż, a następnie wdraża jako wielki pierwszy krok i robi to sensownie.

Ale w przypadku średnich i dużych organizacji, jakie rzeczy widzisz w tej chwili, aby się na to przygotować, aby zbudować tę zdolność wewnętrznie, uzyskać wszystko z podstawowego słownictwa wokół tego i co mogą zrobić z organizacja wokół przejścia na tego rodzaju środowisko i przebudowanie istniejącego personelu technicznego od IT od CEO, aby mogli sami uruchomić to po zbudowaniu i wdrożeniu? Krótko mówiąc, z jakimi wyzwaniami i jak je rozwiązują, z jakimi klientami się mierzysz, jakie rodzaje problemów znaleźli i jak przechodzą przez to przekwalifikowanie oraz odzyskanie doświadczenia i wiedzy, aby przygotować się na to i być w stanie operować?

Anand Venugopal: Często niewielka grupa osób, które próbują wyjść i kupić platformę analityczną przesyłania strumieniowego, jest już dość sprytna, ponieważ jest świadoma Hadoop, już zdobyła umiejętności Hadoop MapReduce i ponieważ ściśle współpracuje z dostawcą dystrybucji Hadoop, są albo znajome. Na przykład wszystko dostaje Kafkę. Coś z tym robią, a streaming Storm lub Spark jest w domenie open source. Zdecydowanie ludzie znają go lub budują wokół niego umiejętności. Ale zaczyna się od małej grupy ludzi, którzy są wystarczająco wykwalifikowani i inteligentni. Uczestniczą w konferencjach. Uczą się i zadają inteligentne pytania dostawcom, aw niektórych przypadkach uczą się u dostawców. Ponieważ sprzedawcy przychodzą i prezentują się na pierwszym spotkaniu, mogą nie wiedzieć rzeczy, ale czytają razem, a potem zaczynają się nimi bawić.

Ta niewielka grupa ludzi jest zalążkiem, a potem zaczyna rosnąć i wszyscy teraz zdają sobie sprawę, że pierwszy przypadek użycia biznesowego zostaje zoperacjonalizowany. Zaczyna się fala i widzieliśmy na szczycie Spark w zeszłym tygodniu, gdzie duże przedsiębiorstwo, takie jak Capital One, było w pełni sił. Wybierali Sparka. Rozmawiali o tym. Edukują wielu swoich ludzi w Spark, ponieważ wnoszą swój wkład także w wielu przypadkach jako użytkownicy. To samo widzimy w wielu, wielu dużych przedsiębiorstwach. Zaczyna się od kilku niewielkich grup bardzo inteligentnych ludzi, a następnie rozpoczyna się fala ogólnego wykształcenia i ludzie wiedzą, że raz starszy wiceprezes lub dyrektor wyższego szczebla są w pogodzie i chcą postawić na to, a słowo się rozejdzie i wszyscy zaczynają podnosić te umiejętności.

Dez Blanchfield: Jestem pewien, że świetnie się bawisz, budując tych mistrzów.

Anand Venugopal: Tak. Robimy dużo edukacji, pracując z początkowymi mistrzami, prowadzimy szkolenia i wielu, wielu naszych dużych klientów wróciliśmy i mieliśmy fale szkoleń, aby wprowadzić wielu użytkowników w fazę użytkowania głównego nurtu, szczególnie w witrynie Hadoop MapReduce. Odkryliśmy, że w dużej firmie obsługującej karty kredytowe, która jest naszym klientem, przeprowadziliśmy co najmniej pięć do ośmiu różnych programów szkoleniowych. Mamy również bezpłatne wydania społecznościowe wszystkich tych produktów, w tym nasze, piaskownice, które ludzie mogą pobierać, przyzwyczajać się i edukować również w ten sposób.

Dez Blanchfield: To wszystko, co mam dla ciebie dziś rano. Dziękuję Ci bardzo. Uważam, że niezwykle interesujące jest zobaczenie rodzajów modeli i przypadków użycia, które masz dla nas dzisiaj. Dziękuję Ci.

Anand Venugopal: Wspaniały. Dziękuję bardzo.

Rebecca Jóźwiak: Dziękujemy wszystkim za dołączenie do nas w transmisji internetowej Hot Technologies. Fascynujące było usłyszeć od Deza Blanchfielda, dr Robina Bloora oraz od Impetus Technologies, Ananda Venugopala. Dziękuję prezenterom. Dziękuję mówcom i dziękuję publiczności. W przyszłym miesiącu mamy kolejne Hot Technologies, więc szukaj tego. Zawsze możesz znaleźć nasze treści zarchiwizowane na Insideanalysis.com. Udostępniamy również wiele treści na SlideShare, a także kilka interesujących fragmentów na YouTube.

To wszystko ludzie. Jeszcze raz dziękuję i życzę miłego dnia. PA pa.