Jak Analytics może poprawić biznes? - Transkrypcja 2 odcinka TechWise - Technologia

Wideo: How Can Analytics Improve Business?

Źródło: Flickr / James Royal-Lawson

Na wynos:

Prowadzący Eric Kavanagh omawia wykorzystanie analityki w biznesie z naukowcami danych i liderami w branży.

Uwaga redaktorów: Jest to transkrypcja jednego z naszych poprzednich webcastów. Kolejny odcinek zbliża się szybko, kliknij tutaj, aby się zarejestrować.

Eric Kavanagh: Panie i panowie, cześć i witamy ponownie w odcinku 2 TechWise. Tak, rzeczywiście, czas pozyskać mądrych ludzi! Mam dziś na linii grupę naprawdę inteligentnych ludzi, którzy pomogą nam w tym przedsięwzięciu. Nazywam się oczywiście Eric Kavanagh. Będę twoim gospodarzem, twoim moderatorem podczas tej błyskawicznej sesji. Mamy tutaj wiele treści, ludzie. W branży mamy znane nazwiska, które były analitykami w naszej przestrzeni i czterema najciekawszymi dostawcami.W związku z tym w dniu dzisiejszym będziemy mieć dużo dobrego działania. I oczywiście ty, publiczność, odgrywasz znaczącą rolę w zadawaniu pytań.

Tak więc po raz kolejny serial jest TechWise, a dzisiejszy temat brzmi: „Jak Analytics może ulepszyć biznes?” Oczywiście jest to gorący temat, w którym spróbuje zrozumieć różne rodzaje analiz, które możesz zrobić, i jak to może poprawić twoje operacje, ponieważ o to właśnie chodzi pod koniec dnia.

Abyś mógł zobaczyć siebie na górze, to naprawdę twoje. Dr Kirk Borne, dobry przyjaciel z George Mason University. Jest on naukowcem danych z ogromnym doświadczeniem, bardzo głęboką wiedzą w tej dziedzinie, eksploracji danych i dużych zbiorów danych oraz innymi tego rodzaju zabawnymi rzeczami. I oczywiście mamy własnego dr Robina Bloora, głównego analityka w Bloor Group. Który trenował jako aktuariusz wiele, wiele lat temu. I był bardzo skoncentrowany na całej przestrzeni dużych zbiorów danych i przestrzeni analitycznej dość intensywnie przez ostatnie pół dekady. Minęło prawie pięć lat, odkąd uruchomiliśmy grupę Bloor per se. Więc czas ucieka, kiedy się dobrze bawisz.

Odezwiemy się także do Willa Gormana, głównego architekta Pentaho; Steve Wilkes, CCO z WebAction; Frank Sanders, dyrektor techniczny w MarkLogic; i Hannah Smalltree, dyrektor w Treasure Data. Tak jak powiedziałem, to dużo treści.

Jak analityka może pomóc Twojej firmie? Cóż, jak szczerze mówiąc, nie może pomóc Twojej firmie? Istnieją różne sposoby wykorzystania analiz do robienia rzeczy, które usprawniają Twoją organizację.

Usprawnij operacje. Tego nie słyszysz tak często, jak robisz takie rzeczy, jak marketing, zwiększanie przychodów lub nawet identyfikowanie możliwości. Usprawnienie operacji to jednak naprawdę potężna rzecz, którą możesz zrobić dla swojej organizacji, ponieważ możesz na przykład zidentyfikować miejsca, w których możesz coś zlecić na zewnątrz lub dodać dane do określonego procesu. A to może to usprawnić, nie wymagając od kogoś odbierania telefonu, aby zadzwonić lub do kogoś. Istnieje wiele różnych sposobów usprawnienia operacji. A wszystko to naprawdę pomaga obniżyć koszty, prawda? To jest klucz, obniża koszty. Ale pozwala także lepiej służyć klientom.

A jeśli pomyślisz o tym, jak niecierpliwi się ludzie, i widzę to każdego dnia pod względem interakcji ludzi w Internecie, nawet z naszymi programami, z których usług korzystamy. Cierpliwość ludzi, czas koncentracji stają się coraz krótsze z dnia na dzień. A to oznacza, że jako organizacja musisz reagować coraz szybciej, aby móc zadowolić swoich klientów.

Na przykład, jeśli ktoś jest na Twojej stronie internetowej lub przegląda strony, szukając czegoś, jeśli się denerwuje i odejdzie, cóż, być może właśnie straciłeś klienta. I w zależności od tego, ile pobierasz za produkt lub usługę, a może to wielka sprawa. Podsumowując, myślę, że usprawnianie operacji jest jedną z najgorętszych przestrzeni do stosowania analiz. Robisz to, patrząc na liczby, dzieląc dane, zastanawiając się na przykład: „Hej, dlaczego tracimy tak wiele osób na tej stronie naszej witryny?”. „Dlaczego otrzymujemy teraz niektóre z tych telefonów?”

Im więcej czasu możesz zareagować na tego rodzaju rzeczy, tym większe szanse, że poradzisz sobie z sytuacją i coś z tym zrobisz, zanim będzie za późno. Ponieważ jest takie okno czasu, gdy ktoś się denerwuje, jest niezadowolony lub próbuje coś znaleźć, ale jest sfrustrowany; masz tam okazję, by do nich dotrzeć, złapać je i wejść w interakcję z tym klientem. A jeśli zrobisz to we właściwy sposób z właściwymi danymi lub ładnym obrazem klienta - zrozumienie, kim jest ten klient, jaka jest jego rentowność, jakie są jego preferencje - jeśli naprawdę możesz sobie z tym poradzić, zrobisz to świetna robota polegająca na utrzymywaniu klientów i pozyskiwaniu nowych klientów. I o to w tym wszystkim chodzi.

W związku z tym przekażę to Kirkowi Borne'owi, jednemu z naszych dzisiejszych badaczy danych. I są one obecnie dość rzadkie, ludzie. Mamy dwa z nich przynajmniej na telefon, więc to wielka sprawa. Dzięki temu, Kirk, przekażę ci to, aby porozmawiać o analizie i tym, w jaki sposób pomaga biznesowi. Idź po to.

Dr Kirk Borne: Dziękuję bardzo, Eric. Czy mnie słyszysz?

Eric: W porządku, śmiało.

Dr Kirk: Dobra, dobrze. Chcę się podzielić, jeśli mówię przez pięć minut, a ludzie machają do mnie rękami. Tak więc uwagi wstępne, Eric, że naprawdę związałeś się z tym tematem, o którym powiem krótko w ciągu najbliższych kilku minut, a mianowicie o wykorzystaniu dużych zbiorów danych i danych analitycznych w celu podjęcia decyzji o wsparciu. Komentarz, który napisałeś o usprawnieniu operacyjnym, w pewnym sensie wpisuje się w tę koncepcję analizy operacyjnej, w której możesz zobaczyć niemal każdą aplikację na całym świecie, czy jest to aplikacja naukowa, biznes, bezpieczeństwo cybernetyczne i egzekwowanie prawa oraz rząd, opieka zdrowotna. Dowolna liczba miejsc, w których mamy strumień danych i podejmujemy jakąś reakcję lub decyzję w reakcji na zdarzenia, alerty i zachowania, które widzimy w tym strumieniu danych.

A zatem jedną z rzeczy, o których chciałbym dziś porozmawiać, jest to, w jaki sposób wyciągasz wiedzę i spostrzeżenia z dużych zbiorów danych, aby dojść do punktu, w którym możemy faktycznie podjąć decyzję o działaniu. I często o tym rozmawiamy podczas automatyzacji. A dzisiaj chcę połączyć automatyzację z ludzkim analitykiem w pętli. Rozumiem przez to, że analityk biznesowy odgrywa tutaj ważną rolę w zakresie zakładów, kwalifikacji, walidacji określonych działań lub reguł uczenia maszynowego, które wydobywamy z danych. Ale jeśli dojdziemy do punktu, w którym jesteśmy prawie przekonani, że wyodrębniliśmy reguły biznesowe i mechanizmy powiadamiania nas są prawidłowe, możemy to przerzucić na proces automatyczny. Właściwie to robimy usprawnienia operacyjne, o których mówił Eric.

Mam tutaj trochę zabawy ze słowami, ale mam nadzieję, że jeśli to zadziała, mówiłem o wyzwaniu D2D. I D2D, nie tylko dane dotyczące wszystkich decyzji, patrzymy na to w dolnej części tego slajdu, mam nadzieję, że je widzisz, dokonując odkryć i zwiększając przychody z naszych potoków analitycznych.

Więc w tej sytuacji mam teraz rolę marketingowca dla siebie teraz, kiedy pracuję i to znaczy; pierwszą rzeczą, którą chcesz zrobić, to scharakteryzować swoje dane, wyodrębnić funkcje, wyodrębnić cechy klientów lub dowolnego podmiotu, który śledzisz w swojej przestrzeni. Może to pacjent w środowisku analizy zdrowia. Może to użytkownik sieci, jeśli zastanawiasz się nad czymś w rodzaju cyberbezpieczeństwa. Ale scharakteryzuj i wyodrębnij cechy, a następnie wyodrębnij niektóre sprzeczności na temat tej osoby, na temat tego bytu. Następnie gromadzisz te, które właśnie utworzyłeś, i umieszczasz je w jakiejś kolekcji, z której możesz następnie zastosować algorytmy uczenia maszynowego.

Powtarzam to w ten sposób, powiedzmy, że masz kamerę na lotnisku. Sam film ma ogromny, duży wolumen i jest również bardzo nieuporządkowany. Ale możesz wyodrębnić dane z monitoringu wideo, biometrii twarzy i zidentyfikować osoby w kamerach monitorujących. Na przykład na lotnisku możesz zidentyfikować konkretne osoby, możesz śledzić je przez lotnisko, krzyżowo identyfikując tę samą osobę w wielu kamerach monitorujących. Ponieważ wyodrębnione funkcje biometryczne, które tak naprawdę wydobywacie i śledzicie, nie są samym szczegółowym wideo. Ale kiedy już wyodrębnisz te fragmenty, możesz zastosować reguły uczenia maszynowego i analizy, aby podjąć decyzję, czy musisz podjąć działanie w konkretnej sprawie, czy coś stało się niepoprawnie, czy coś, co masz okazję złożyć ofertę. Jeśli na przykład masz sklep na lotnisku i widzisz, że ten klient idzie w twoją stronę, i wiesz z innych informacji o tym kliencie, że być może naprawdę zainteresował go zakup rzeczy w sklepie wolnocłowym lub coś takiego, złóż tę ofertę.

Jakie rzeczy miałbym na myśli przez charakteryzację i potencjalizację? Przez charakterystykę mam na myśli, po raz kolejny, wydobycie cech i cech danych. Można to wygenerować maszynowo, a następnie algorytmy mogą wyodrębnić na przykład podpisy biometryczne z analizy wideo lub analizy nastrojów. Możesz wyodrębnić opinie klientów za pomocą recenzji online lub mediów społecznościowych. Niektóre z tych rzeczy mogą być generowane przez ludzi, aby człowiek, analityk biznesowy, mógł wyodrębnić dodatkowe funkcje, które pokażę w następnym slajdzie.

Niektóre z nich mogą być crowdsourcingowe. A dzięki crowdsourcingowi istnieje wiele różnych sposobów myślenia o tym. Ale bardzo prosto, na przykład, użytkownicy odwiedzają twoją witrynę i wpisują wyszukiwane słowa, słowa kluczowe i kończą na określonej stronie i spędzają tam czas. Że przynajmniej rozumieją, że albo przeglądają, przeglądają, klikają rzeczy na tej stronie. Mówi ci to, że słowo kluczowe, które wpisali na samym początku, to deskryptor tej strony, ponieważ trafił on na stronę, której oczekiwali. Możesz więc dodać tę dodatkową informację, to znaczy klienci, którzy używają tego słowa kluczowego, faktycznie zidentyfikowali tę stronę w naszej architekturze informacji jako miejsce, w którym treść pasuje do tego słowa kluczowego.

I tak crowdsourcing jest kolejnym aspektem, o którym czasami ludzie zapominają, że można powiedzieć, że to rodzaj śledzenia okruchów klientów. jak poruszają się po swojej przestrzeni, bez względu na to, czy jest to usługa online, czy nieruchomość. A następnie skorzystaj z tego rodzaju ścieżki, którą klient przyjmuje jako dodatkowe informacje o rzeczach, na które patrzymy.

Więc chcę powiedzieć, że rzeczy generowane przez ludzi lub generowane maszynowo mają w końcu coś w rodzaju adnotacji lub tagowania określonych granulek danych lub encji. Bez względu na to, czy są to pacjenci w szpitalach, klienci czy cokolwiek innego. Istnieją więc różne rodzaje tagowania i adnotacji. Niektóre z nich dotyczą samych danych. Jest to jedna z rzeczy, jaki rodzaj informacji, jaki rodzaj informacji, jakie są cechy, kształty, może mocz i wzorce, anomalia, zachowania nienormalne. A następnie wyodrębnij trochę semantyki, to znaczy, w jaki sposób odnosi się to do innych rzeczy, które znam, lub ten klient jest klientem elektroniki. Ten klient jest klientem odzieżowym. Lub ten klient lubi kupować muzykę.

Rozpoznając pewną semantykę na ten temat, ci klienci, którzy lubią muzykę, lubią rozrywkę. Może moglibyśmy zaoferować im inną nieruchomość rozrywkową. Zatem rozumienie semantyki, a także pewnej proweniencji, która w gruncie rzeczy mówi: skąd to się wzięło, kto przedstawił to twierdzenie, o której godzinie, w jakiej sytuacji, w jakich okolicznościach?

Więc kiedy masz już wszystkie te adnotacje i charakteryzacje, dodaj do tego następny krok, czyli oszustwo, rodzaj tego, kto, co, kiedy, gdzie i dlaczego. Kim jest użytkownik? Jaki był kanał, na którym przyszli? Jakie było źródło informacji? Jakiego rodzaju ponowne wykorzystanie widzieliśmy w tym konkretnym produkcie informacyjnym lub danych? Jaka jest wartość tego procesu biznesowego? A następnie zbierz te rzeczy i zarządzaj nimi, a nawet pomóż stworzyć bazę danych, jeśli chcesz o tym myśleć w ten sposób. Umożliwiają wyszukiwanie, ponowne użycie, przez innych analityków biznesowych lub zautomatyzowany proces, który sprawi, że następnym razem, gdy zobaczę te zestawy funkcji, system może podjąć tę automatyczną akcję. I tak dochodzimy do tego rodzaju operacyjnej wydajności analitycznej, ale tym bardziej zbieramy przydatne, kompleksowe informacje, a następnie tworzymy je pod kątem tych przypadków użycia.

Zabieramy się do pracy. Wykonujemy analizy danych. Szukamy ciekawych wzorów, niespodzianek, nowości, anomalii. Szukamy nowych klas i segmentów w populacji. Szukamy powiązań, korelacji i powiązań między różnymi podmiotami. A potem wykorzystujemy to wszystko, aby napędzać nasz proces odkrywania, podejmowania decyzji i dokonywania dolarów.

Więc znowu, tutaj mamy ostatni slajd danych, który po prostu podsumowuję, utrzymując analityka biznesowego w pętli, znowu, nie wyodrębniasz tego człowieka i ważne jest, aby trzymać go tam.

Wszystkie te funkcje zapewniają maszyny lub analitycy ludzcy, a nawet crowdsourcing. Stosujemy tę kombinację rzeczy w celu ulepszenia naszych zestawów szkoleniowych dla naszych modeli i otrzymujemy dokładniejsze modele predykcyjne, mniej fałszywych wyników pozytywnych i negatywnych, bardziej wydajne zachowanie, bardziej skuteczne interwencje z naszymi klientami lub kimkolwiek.

Tak więc pod koniec dnia naprawdę łączymy uczenie maszynowe i duże zbiory danych z tą potęgą ludzkiego poznania, w której pojawia się ten rodzaj tagowania adnotacji. I to może prowadzić przez wizualizację i analizę wizualną narzędzia lub wciągające środowiska danych lub crowdsourcing. I na koniec dnia to, co naprawdę robi, to generowanie naszych odkryć, spostrzeżeń i D2D. I to są moje komentarze, więc dziękuję za wysłuchanie.

Eric: Hej, to brzmi wspaniale. Pozwólcie, że pójdę dalej i przekażę klucze dr. Robinowi Bloorowi, aby również przedstawić swoją perspektywę. Tak, lubię słyszeć twój komentarz na temat usprawnienia koncepcji operacji i mówisz o analizie operacyjnej. Myślę, że jest to duży obszar, który należy dość dokładnie zbadać. I myślę, że naprawdę szybko przed Robinem, sprowadzę cię z powrotem, Kirk. Wymaga to dość znaczącej współpracy między różnymi graczami w firmie, prawda? Musisz porozmawiać z ludźmi operacji; musisz zdobyć swoich pracowników technicznych. Czasami dostajesz ludzi marketingu lub ludzi interfejsu internetowego. Są to zazwyczaj różne grupy. Czy masz jakieś najlepsze praktyki lub sugestie, jak sprawić, by każdy włożył swoją skórę do gry?

Dr Kirk: Cóż, myślę, że wiąże się to z kulturą współpracy. W rzeczywistości mówię o trzech rodzajach kultury analitycznej. Jednym z nich jest kreatywność; innym jest ciekawość, a trzecim współpraca. Więc chcesz kreatywnych, poważnych ludzi, ale musisz też zachęcić tych ludzi do współpracy. I tak naprawdę zaczyna się od góry, tego rodzaju budowanie tej kultury z ludźmi, którzy powinni otwarcie się dzielić i współpracować w celu osiągnięcia wspólnych celów firmy.

Eric: To wszystko ma sens. I naprawdę musisz mieć dobre przywództwo na szczycie, aby tak się stało. Więc chodźmy dalej i przekażmy to dr Bloor. Robin, podłoga jest twoja.

Dr Robin Bloor: OK. Dziękuję za to wprowadzenie, Eric. Okej, sposób, w jaki się one poruszają, te pokazy, ponieważ mamy dwóch analityków; Widzę prezentację analityka, której inni nie. Wiedziałem, co powie Kirk, i po prostu wybrałem zupełnie inny kąt, aby nie nakładać się zbytnio.

Tak więc to, o czym właściwie mówię lub zamierzam mówić, to rola analityka danych w porównaniu z rolą analityka biznesowego. A sposób, w jaki to scharakteryzuję, no cóż, do pewnego stopnia zuchwały, to rodzaj Jekyll i Hyde. Różnica polega na tym, że badacze danych, przynajmniej teoretycznie, wiedzą, co robią. Podczas gdy analitycy biznesowi nie są tacy, okej, jak działa matematyka, co można zaufać, a co nie.

Przejdźmy więc do przyczyny, dla której to robimy, przyczyny, dla której analiza danych nagle stała się poważną sprawą, poza faktem, że możemy analizować bardzo duże ilości danych i pobierać dane spoza organizacji; czy to się opłaca Sposób, w jaki na to patrzę - i myślę, że to dopiero przypadek, ale zdecydowanie uważam, że tak jest - analiza danych to tak naprawdę działalność badawczo-rozwojowa firmy. To, co faktycznie robisz w ten czy inny sposób z analizą danych, polega na tym, że patrzysz na proces biznesowy czy to na interakcję z klientem, niezależnie od tego, czy jest to sposób, w jaki prowadzisz działalność detaliczną, czy sposób, w jaki wdrażasz twoje sklepy. To naprawdę nie ma znaczenia, na czym polega problem. Patrzysz na dany proces biznesowy i próbujesz go ulepszyć.

Rezultatem udanych badań i rozwoju jest proces zmian. I możesz myśleć o produkcji, jeśli chcesz, jako zwykły przykład tego. Ponieważ w produkcji ludzie zbierają informacje o wszystkim, aby spróbować ulepszyć proces produkcji. Ale myślę, że to, co się wydarzyło lub co dzieje się w dużych zbiorach danych, jest teraz stosowane do wszystkich firm dowolnego rodzaju w dowolny sposób, który każdy może wymyślić. Tak więc prawie każdy proces biznesowy jest poddany badaniu, jeśli możesz zebrać o nim dane.

To jedno. Jeśli chcesz, to chodzi o analizę danych. Co analityka danych może zrobić dla firmy? Cóż, może całkowicie zmienić biznes.

Ten szczególny schemat, którego nie będę szczegółowo opisywał, ale jest to schemat, który opracowaliśmy jako zwieńczenie projektu badawczego, który zrealizowaliśmy przez pierwsze sześć miesięcy tego roku. Jest to sposób reprezentowania architektury dużych zbiorów danych. I kilka rzeczy, na które warto zwrócić uwagę, zanim przejdę do następnego slajdu. Istnieją tutaj dwa przepływy danych. Jednym z nich jest strumień danych w czasie rzeczywistym, który przebiega wzdłuż szczytu diagramu. Drugi to wolniejszy strumień danych, który biegnie wzdłuż dolnej części diagramu.

Spójrz na dół diagramu. Mamy Hadoop jako rezerwuar danych. Mamy różne bazy danych. Mamy tam całe dane z całą masą działań, z których większość to działalność analityczna.

Chodzi mi o to, a jedyną rzeczą, którą naprawdę chciałbym tutaj poruszyć, jest to, że technologia jest trudna. To nie jest proste. To nie jest łatwe. To nie jest coś, co każdy, kto jest nowy w grze, może po prostu złożyć. To dość skomplikowane. A jeśli zamierzasz oprzyrządować firmę do prowadzenia wiarygodnych analiz we wszystkich tych procesach, to nie jest to coś, co wydarzy się szczególnie szybko. Będzie wymagało wiele technologii, aby dodać do miksu.

W porządku. Pytanie, czym jest specjalista od danych, mógłbym twierdzić, że jestem naukowcem od danych, ponieważ zanim zostałem przeszkolony w informatyce, byłem szkolony w dziedzinie statystyki. Przez pewien czas wykonywałem pracę aktuarialną, więc znam sposób, w jaki firma organizuje analizę statystyczną, także w celu samodzielnego prowadzenia. To nie jest banalna sprawa. Istnieje wiele dobrych praktyk zarówno po stronie ludzkiej, jak i technologicznej.

Zadając pytanie „czym jest specjalista od danych”, postawiłem zdjęcie Frankensteina po prostu dlatego, że jest to połączenie rzeczy, które trzeba połączyć. W grę wchodzi zarządzanie projektami. W statystykach istnieje głębokie zrozumienie. Istnieje wiedza specjalistyczna w dziedzinie domen, która z konieczności jest bardziej problemem analityka biznesowego niż analityka danych. Jest doświadczenie lub potrzeba zrozumienia architektury danych i umiejętności budowania architekta danych oraz inżynierii oprogramowania. Innymi słowy, to prawdopodobnie zespół. Prawdopodobnie nie jest to osoba fizyczna. A to oznacza, że prawdopodobnie jest to dział, który należy zorganizować, a jego organizacja musi być rozważana dość szeroko.

Wrzucenie w mieszankę faktu uczenia maszynowego. Nie mogliśmy zrobić, to znaczy, uczenie maszynowe nie jest nowe w tym sensie, że większość technik statystycznych wykorzystywanych w uczeniu maszynowym jest znana od dziesięcioleci. Jest kilka nowych rzeczy, mam na myśli, że sieci neuronowe są stosunkowo nowe, myślę, że mają tylko około 20 lat, więc niektóre z nich są stosunkowo nowe. Problem z uczeniem maszynowym polegał na tym, że tak naprawdę nie mieliśmy wystarczającej mocy komputera, aby to zrobić. Poza tym wszystko, co się wydarzyło, to fakt, że moc komputera jest już na miejscu. A to oznacza bardzo dużo tego, co, powiedzmy, badacze danych zrobili wcześniej w zakresie modelowania sytuacji, próbkowania danych, a następnie zestawiania ich w celu uzyskania głębszej analizy danych. W niektórych przypadkach możemy po prostu obciążyć go mocą komputera. Wystarczy wybrać algorytmy uczenia maszynowego, rzucić je na dane i zobaczyć, co się pojawi. I to może zrobić analityk biznesowy, prawda? Ale analityk biznesowy musi zrozumieć, co robią. To znaczy, myślę, że to jest problem, bardziej niż cokolwiek innego.

Chodzi o to, aby dowiedzieć się więcej o biznesie z jego danych niż w jakikolwiek inny sposób. Einstein tego nie powiedział, powiedziałem to. Po prostu wystawiłem jego zdjęcie na wiarygodność. Ale sytuacja zaczyna się właściwie rozwijać, gdy technologia, jeśli zostanie właściwie wykorzystana, a matematyka, jeśli właściwie zastosowana, będzie w stanie prowadzić firmę jak każda osoba. Oglądaliśmy to z IBM. Przede wszystkim mógł pokonać najlepszych facetów w szachach, a następnie pokonać najlepszych w Jeopardy; ale ostatecznie będziemy w stanie pokonać najlepszych facetów w prowadzeniu firmy. Statystyki w końcu zatriumfują. I trudno jest zobaczyć, jak to się nie stanie, po prostu jeszcze się nie stało.

Więc to, co mówię, i jest to rodzaj mojej prezentacji, to te dwie kwestie związane z biznesem. Po pierwsze, czy potrafisz dobrze zastosować technologię? Czy potrafisz sprawić, by technologia działała dla zespołu, który faktycznie będzie w stanie jej przewodniczyć i uzyskać korzyści dla firmy? A po drugie, czy potrafisz dobrze zrozumieć ludzi? Oba są problemami. I są to problemy, które do tej pory nie są, jak twierdzą, rozwiązane.

Dobra Eric, przekażę to tobie. A może powinienem przekazać to Willowi.

Eric: Właściwie tak. Dziękuję, Will Gorman. Tak, proszę bardzo, Will. Zobaczmy. Pozwól, że dam ci klucz do WebEx. Więc o co ci chodzi? Pentaho, oczywiście, jesteście już od jakiegoś czasu i zaczynacie od BI typu open source. Ale masz o wiele więcej niż kiedyś, więc zobaczmy, co masz w dzisiejszych czasach na potrzeby analiz.

Will Gorman: Absolutnie. Cześć wszystkim! Nazywam się Will Gorman. Jestem głównym architektem w Pentaho. Dla tych z was, którzy o nas nie słyszeli, wspomniałem właśnie, że Pentaho to firma zajmująca się integracją i analizą dużych zbiorów danych. Działamy na rynku od dziesięciu lat. Nasze produkty ewoluowały równolegle ze społecznością dużych zbiorów danych, zaczynając od platformy open source do integracji i analizy danych, wprowadzając innowacje z technologią taką jak Hadoop i NoSQL, nawet zanim podmioty komercyjne utworzyły się wokół tych technologii. A teraz mamy ponad 1500 klientów komercyjnych i wiele innych spotkań produkcyjnych dzięki naszym innowacjom wokół open source.

Nasza architektura jest w znacznym stopniu możliwa do osadzenia i rozszerzenia, zbudowana z myślą o elastyczności, ponieważ technologia dużych zbiorów danych ewoluuje w bardzo szybkim tempie. Pentaho oferuje trzy główne obszary produktów, które współpracują ze sobą, aby rozwiązać przypadki użycia analizy dużych zbiorów danych.

Pierwszym produktem w zakresie naszej architektury jest Pentaho Data Integration, który jest skierowany do technologa danych i inżynierów danych. Ten produkt oferuje obsługę wizualną metodą „przeciągnij i upuść” do definiowania potoków danych i procesów do koordynowania danych w środowiskach dużych zbiorów danych oraz w środowiskach tradycyjnych. Ten produkt jest lekką, metadatasową platformą integracji danych zbudowaną na Javie i może być wdrażany jako proces w MapReduce lub YARN lub Storm i wielu innych platformach wsadowych i czasu rzeczywistego.

Nasz drugi obszar produktów dotyczy analizy wizualnej. Dzięki tej technologii organizacje i producenci OEM mogą oferować analitykom biznesowym i użytkownikom biznesowym bogatą wizualizację i analizę typu „przeciągnij i upuść” dzięki nowoczesnym przeglądarkom i tabletom, umożliwiając tworzenie raportów i pulpitów nawigacyjnych ad hoc. A także prezentacja doskonale widocznych w pikselach pulpitów nawigacyjnych i raportów.

Nasz trzeci obszar produktów koncentruje się na analizach predykcyjnych przeznaczonych dla naukowców danych, algorytmach uczenia maszynowego. Jak wspomniano wcześniej, podobnie jak sieci neuronowe i tym podobne, można je zintegrować ze środowiskiem transformacji danych, umożliwiając naukowcom danych przejście od modelowania do środowiska produkcyjnego, dając dostęp do przewidywania, a to może wpływać na procesy biznesowe bardzo szybko, bardzo szybko.

Wszystkie te produkty są ściśle zintegrowane w jedno sprawne środowisko i zapewniają naszym klientom biznesowym elastyczność, której potrzebują, aby rozwiązać swoje problemy biznesowe. Widzimy szybko ewoluujący krajobraz dużych zbiorów danych w tradycyjnych technologiach. Wszystko, co słyszymy od niektórych firm z obszaru dużych zbiorów danych, że EDW zbliża się do końca. W rzeczywistości klienci firmowi widzą, że muszą wprowadzić duże zbiory danych do istniejących procesów biznesowych i informatycznych, a nie zastępować te procesy.

Ten prosty schemat pokazuje często spotykany punkt w architekturze, który jest rodzajem architektury wdrażania EDW z integracją danych i przypadkami użycia BI. Teraz ten schemat jest podobny do slajdu Robina dotyczącego architektury dużych danych, zawiera dane historyczne i historyczne w czasie rzeczywistym. W miarę pojawiania się nowych źródeł danych i wymagań w czasie rzeczywistym postrzegamy duże zbiory danych jako dodatkową część ogólnej architektury IT. Te nowe źródła danych obejmują dane generowane maszynowo, dane nieustrukturyzowane, standardową objętość i prędkość oraz różnorodność wymagań, o których słyszymy w dużych danych; nie pasują do tradycyjnych procesów EDW. Pentaho ściśle współpracuje z Hadoop i NoSQL, aby uprościć wprowadzanie, przetwarzanie danych i wizualizację tych danych, a także mieszanie tych danych z tradycyjnymi źródłami, aby zapewnić klientom pełny wgląd w ich środowisko danych. Robimy to w sposób regulowany, aby dział IT mógł zaoferować pełne rozwiązanie analityczne w swojej branży.

Na zakończenie chciałbym podkreślić naszą filozofię dotyczącą analizy i integracji dużych zbiorów danych; uważamy, że technologie te lepiej współpracują z jedną jednolitą architekturą, umożliwiając szereg przypadków użycia, które w innym przypadku nie byłyby możliwe. Środowiska danych naszych klientów to coś więcej niż tylko duże zbiory danych, Hadoop i NoSQL. Wszelkie dane są uczciwą grą. A źródła dużych zbiorów danych muszą być dostępne i współpracować, aby wpływać na wartość biznesową.

Wreszcie, uważamy, że w celu bardzo skutecznego rozwiązania tych problemów biznesowych w przedsiębiorstwach za pomocą danych, działy IT i branże muszą współpracować w ramach regulowanego, mieszanego podejścia do analizy dużych zbiorów danych. Dziękuję bardzo za poświęcenie czasu na rozmowę, Eric.

Eric: Obstawiasz. Nie, to dobre rzeczy. Chcę wrócić do tej strony Twojej architektury, gdy przejdziemy do pytań i odpowiedzi. Przejdźmy więc przez resztę prezentacji i bardzo za to dziękujemy. Wy zdecydowanie ruszacie się szybko przez ostatnie kilka lat, muszę to powiedzieć na pewno.

Więc Steve, pozwól, że pójdę dalej i przekażę ci to. I kliknij tam strzałkę w dół i idź po nią. Więc Steve, daję ci klucze. Steve Wilkes, po prostu kliknij najdalszą strzałkę w dół na klawiaturze.

Steve Wilkes: Proszę bardzo.

Eric: Proszę bardzo.

Steve: To świetne wprowadzenie, które mi dałeś.

Eric: Tak.

Steve: Więc jestem Steve Wilkes. Jestem CCO w WebAction. Istniejemy już od kilku lat i od tego czasu zdecydowanie też się poruszamy. WebAction to platforma do analizy dużych zbiorów danych w czasie rzeczywistym. Eric wspomniał wcześniej, jak ważne jest w czasie rzeczywistym i jak w czasie rzeczywistym Twoje aplikacje są pobierane. Nasza platforma została zaprojektowana do tworzenia aplikacji w czasie rzeczywistym. Aby umożliwić następnej generacji aplikacji opartych na danych, które można stopniowo budować, i umożliwić użytkownikom tworzenie pulpitów nawigacyjnych na podstawie danych generowanych z tych aplikacji, ale skupiając się na czasie rzeczywistym.

Nasza platforma jest w rzeczywistości kompletną platformą, która robi wszystko, od akwizycji danych, przetwarzania danych, aż po wizualizację danych. I umożliwia wielu różnym typom ludzi w naszym przedsiębiorstwie współdziałanie w celu tworzenia prawdziwych aplikacji w czasie rzeczywistym, zapewniając im wgląd w wydarzenia w ich firmie.

I to trochę różni się od tego, co większość ludzi widziała w dużych zbiorach danych, tak więc tradycyjne podejście - no, tradycyjne przez ostatnie kilka lat - podejście oparte na dużych zbiorach danych polegało na uchwyceniu go z całej gamy różnych źródeł i następnie ułóż go w dużym zbiorniku lub jeziorze lub jakkolwiek chcesz to nazwać. A następnie przetwarzaj go, gdy chcesz uruchomić na nim zapytanie; do przeprowadzania analiz historycznych na dużą skalę, a nawet po prostu doraźnego sprawdzania dużych ilości danych. Teraz działa to w niektórych przypadkach użycia. Ale jeśli chcesz być proaktywny w swoim przedsiębiorstwie, jeśli chcesz dowiedzieć się, co się dzieje, a nie dowiedzieć się, kiedy coś poszło nie tak pod koniec dnia lub pod koniec tygodnia, to naprawdę musisz się przenieść w czasie rzeczywistym.

I to trochę zmienia sytuację. Przenosi przetwarzanie na środek. Tak skutecznie bierzesz te strumienie dużych ilości danych, które są generowane w sposób ciągły w przedsiębiorstwie i przetwarzasz je, gdy je otrzymujesz. A ponieważ przetwarzasz go tak, jak go otrzymujesz, nie musisz przechowywać wszystkiego. Możesz po prostu przechowywać ważne informacje lub rzeczy, o których musisz pamiętać, że faktycznie się wydarzyły. Jeśli więc śledzisz lokalizację GPS pojazdów poruszających się po drodze, tak naprawdę nie obchodzi Cię, gdzie są one co sekundę, nie musisz zapisywać, gdzie są one co sekundę. Musisz się tylko przejmować, czy opuścili to miejsce? Czy dotarli do tego miejsca? Czy jechali autostradą, czy nie?

Dlatego bardzo ważne jest, aby wziąć pod uwagę, że w miarę jak generowanych jest coraz więcej danych, wówczas trzy Vs. Prędkość zasadniczo określa, ile danych generuje każdego dnia. Im więcej wygenerowanych danych, tym więcej musisz przechowywać. Im więcej musisz przechowywać, tym dłużej trwa przetwarzanie. Ale jeśli możesz to przetworzyć w taki sposób, w jaki go otrzymujesz, zyskasz naprawdę dużą korzyść i możesz na to zareagować. Można powiedzieć, że coś się dzieje, zamiast szukać ich później.

Nasza platforma została zaprojektowana tak, aby była wysoce skalowalna. Składa się z trzech głównych części - części odbiorczej, części przetwarzającej, a następnie części wizualizacji dostawy platformy. Po stronie akwizycji nie patrzymy tylko na dane dziennika generowane maszynowo, takie jak dzienniki sieciowe lub aplikacje zawierające wszystkie inne generowane dzienniki. Możemy również wejść i zmienić przechwytywanie danych z baz danych. Tak więc w zasadzie nam to umożliwia, widzieliśmy stronę ETL, która będzie prezentowana, i tradycyjną ETL, którą musisz uruchamiać zapytania względem baz danych. Możemy powiedzieć, kiedy coś się dzieje w bazie danych. Zmieniamy go, przechwytujemy i odbieramy te zdarzenia. Są też oczywiście kanały społecznościowe i dane na żywo, które są pompowane przez gniazda TCP lub ACDP.

Istnieje mnóstwo różnych sposobów uzyskiwania danych. Mówiąc o objętości i prędkości, widzimy objętości, które są miliardami wydarzeń dziennie, prawda? Tak więc duże, duże ilości danych, które przychodzą i muszą zostać przetworzone.

Przetwarzane przez klaster naszych serwerów. Wszystkie serwery mają tę samą architekturę i wszystkie są w stanie robić te same rzeczy. Ale możesz je skonfigurować tak, aby robili różne rzeczy. A na serwerach mamy warstwę szybkiego przetwarzania zapytań, która umożliwia przeprowadzanie analiz danych w czasie rzeczywistym, wzbogacanie danych, korelację zdarzeń, śledzenie wydarzeń w oknach czasowych, przewidywanie analizy oparte na wzorcach widocznych w danych. Dane te mogą być następnie przechowywane w różnych miejscach - tradycyjny RDBMS, hurtownia danych przedsiębiorstwa, Hadoop, infrastruktura Big Data.

Te same dane na żywo mogą być również wykorzystywane do zasilania aplikacji opartych na danych w czasie rzeczywistym. Te aplikacje mogą wyświetlać w czasie rzeczywistym, co się dzieje, a ludzie mogą być powiadamiani o ważnych wydarzeniach. Zamiast więc wchodzić pod koniec dnia i dowiadywać się, że coś złego naprawdę wydarzyło się wcześniej tego samego dnia, możesz zostać o tym powiadomiony, gdy tylko to zauważymy, a następnie od razu przejdzie na dół strony, aby dowiedzieć się, co jest dziać się.

Zmienia to zatem całkowicie paradygmat z konieczności analizowania danych po fakcie na powiadamianie, gdy dzieją się ciekawe rzeczy. Nasza platforma może być następnie wykorzystana do tworzenia aplikacji opartych na danych. I właśnie na tym się skupiamy, tworząc te aplikacje. Dla klientów, z klientami i różnymi partnerami, aby wykazali prawdziwą wartość w analizie danych w czasie rzeczywistym. Dzięki temu osoby lub firmy, które wykonują aplikacje witryny, mogą na przykład śledzić wykorzystanie klientów w czasie i zapewnić, że jakość usług jest osiągnięta, wykryć oszustwa w czasie rzeczywistym lub pranie pieniędzy, wykryć wiele logowań lub próby włamań i tego rodzaju zdarzenia bezpieczeństwa, aby zarządzać takimi urządzeniami jak dekodery lub inne urządzenia, bankomaty do monitorowania ich w czasie rzeczywistym pod kątem błędów, awarii, które się zdarzyły, mogłyby się zdarzyć, będą miały miejsce w przyszłości na podstawie analizy predykcyjnej. I to wraca do punktu usprawnienia operacji, o których wspominał wcześniej Eric, aby móc wykryć, kiedy coś się wydarzy, i zorganizować swój biznes, aby to naprawić, zamiast konieczności wezwania kogoś do zrobienia czegoś po fakcie. dużo droższe.

Analizy konsumenckie to kolejny element pozwalający dowiedzieć się, kiedy klient coś robi, gdy jest jeszcze w twoim sklepie. Dane wysyłane do kierownictwa, aby móc w czasie rzeczywistym monitorować zużycie zasobów i zmieniać miejsce działania oraz aby wiedzieć, kiedy nastąpi awaria w znacznie szybszym terminie.

To są nasze produkty w skrócie i jestem pewien, że wrócimy do niektórych z tych rzeczy podczas sesji pytań i odpowiedzi. Dziękuję Ci.

Eric: Tak, rzeczywiście. Dobra robota. Dobrze. A teraz następny przystanek w rundzie błyskawicznej, dzwoni Frank Sanders z MarkLogic. Znam tych facetów od wielu lat, bardzo, bardzo interesującą technologię baz danych. Więc Frank, przekazuję to tobie. Po prostu kliknij gdziekolwiek. Użyj strzałki w dół na klawiaturze, aby przejść do wyścigów. Proszę bardzo.

Frank Sanders: Dziękuję bardzo, Eric. Tak jak wspomniał Eric, jestem z firmą MarkLogic. MarkLogic zapewnia korporacyjną bazę danych NoSQL. Być może najważniejszą funkcją, którą przedstawiamy w tym zakresie, jest możliwość faktycznego zebrania wszystkich tych różnych źródeł informacji w celu analizy, wyszukiwania i wykorzystania tych informacji w systemie podobnym do tego, czym jesteś przyzwyczajony do tradycyjnych systemów relacyjnych, prawda?

A niektóre kluczowe funkcje, które przedstawiamy w tym zakresie, to wszystkie funkcje korporacyjne, których można oczekiwać od tradycyjnego systemu zarządzania bazami danych, twoje bezpieczeństwo, HA, DR, kopia zapasowa są dostępne, twój zasób transakcje. Oprócz projektu, który umożliwia skalowanie w chmurze lub w sprzęcie towarowym, abyś mógł obsłużyć objętość i prędkość informacji, które będziesz musiał obsługiwać, aby budować i analizować tego rodzaju informacji.

Być może najważniejszą funkcją jest fakt, że jesteśmy agnostykami. W praktyce oznacza to, że nie musisz decydować, jak będą wyglądać Twoje dane, kiedy zaczniesz budować aplikacje lub zaczniesz zbierać te informacje razem. Ale z czasem możesz włączyć nowe źródła danych, pobrać dodatkowe informacje, a następnie użyć dźwigni i zapytań oraz przeanalizować te informacje tak samo, jak w przypadku wszystkiego, co istniało od momentu rozpoczęcia projektowania. W porządku?

Jak to robimy? W jaki sposób faktycznie umożliwiamy Ci ładowanie różnego rodzaju informacji, niezależnie od tego, czy są to dane potrójne RDF, dane geoprzestrzenne, dane czasowe, dane i wartości strukturalne lub pliki binarne. Odpowiedź brzmi: zbudowaliśmy nasz serwer od podstaw, aby zastosować technologię wyszukiwania, która pozwala na wprowadzanie informacji, a informacje te same się opisują, a także pozwala wyszukiwać, wyszukiwać i wyszukiwać te informacje bez względu na ich źródło lub format .

A to praktycznie oznacza, że - i dlaczego jest to ważne, gdy przeprowadzasz analizę - czy analizy i informacje są najważniejsze, jeśli są właściwie skonkretyzowane i ukierunkowane, prawda? Tak więc bardzo ważną kluczową częścią każdego rodzaju analizy jest wyszukiwanie, a kluczową częścią jest analiza wyszukiwania. Naprawdę nie możesz mieć jednego bez drugiego i skutecznie osiągnąć to, co zamierzałeś osiągnąć. Dobrze?

Opowiem krótko o trzech i pół różnych przypadkach użycia przez klientów w produkcji, którzy używają MarkLogic do obsługi tego rodzaju analiz. W porządku. Tak więc pierwszym takim klientem jest hrabstwo Fairfax. Hrabstwo Fairfax zbudowało dwie osobne aplikacje. Jeden opiera się na pozwoleniach i zarządzaniu nieruchomościami. Drugą, prawdopodobnie bardziej interesującą, jest aplikacja do wydarzeń policyjnych hrabstwa Fairfax. Aplikacja zdarzeń policyjnych w rzeczywistości zbiera informacje, takie jak raporty policyjne, raporty i skargi obywateli, tweety, inne informacje, które mają, takie jak przestępcy seksualni, oraz wszelkie inne informacje, do których mają dostęp z innych agencji i źródeł. Następnie pozwalają im to wizualizować i przedstawiać obywatelom, aby mogli wyszukiwać i patrzeć na różne działania przestępcze, działania policji, wszystko za pomocą jednego zunifikowanego indeksu geoprzestrzennego, prawda? Możesz więc zadawać pytania typu „jaki jest wskaźnik przestępczości w promieniu pięciu mil” lub „jakie przestępstwa miały miejsce w promieniu pięciu mil od mojej lokalizacji?” W porządku.

Kolejnym użytkownikiem, którego mamy, innym naszym klientem jest OECD. Dlaczego OECD jest ważna w tej rozmowie, ponieważ oprócz wszystkiego, co włączyliśmy dla hrabstwa Fairfax pod względem gromadzenia informacji, prawda; wszystkie informacje, które otrzymają Państwo z różnych krajów należących do OECD, o których informują z ekonomicznego punktu widzenia. Właściwie umieściliśmy w tym cel wiertła, prawda. Abyś mógł zobaczyć po lewej stronie, w szczególności widok Danii, a nad nią płatek kwiatu, który ocenia go na różnych osiach. Dobrze? I to wszystko dobrze i dobrze. Ale OECD zrobiła, że poszli o krok dalej.

Oprócz tych pięknych wizualizacji i zbierania wszystkich tych informacji, w rzeczywistości pozwalają one w czasie rzeczywistym stworzyć własny lepszy wskaźnik życia, który można zobaczyć po prawej stronie. Tak więc masz zestaw suwaków, które pozwalają ci robić takie rzeczy, jak ranga, jak ważne jest dla ciebie mieszkanie, dochód, praca, społeczność, edukacja, środowisko, zaangażowanie obywatelskie, zdrowie, zadowolenie z życia, bezpieczeństwo i praca /równowaga życiowa. I dynamicznie, w oparciu o sposób, w jaki faktycznie wprowadzasz te informacje i ważąc te rzeczy, MarkLogic używa swojej funkcji indeksowania w czasie rzeczywistym i możliwości zapytań, aby faktycznie zmienić sposób rankingu każdego z tych krajów, aby dać Ci wyobrażenie o tym, jak dobrze Twoje mapy kraju lub Twojego stylu życia w danym kraju. W porządku?

Ostatnim przykładem, który zamierzam udostępnić, jest MarkMail. MarkMail naprawdę stara się wykazać, że możemy zapewnić te możliwości, a Ty możesz przeprowadzić tego rodzaju analizę nie tylko w oparciu o ustrukturyzowane informacje lub informacje, które się pojawią, które są liczbowe, ale w rzeczywistości o luźniej ustrukturyzowanych, nieuporządkowanych informacjach, prawda? Rzeczy takie jak s. Widzieliśmy tutaj, że w rzeczywistości pobieramy informacje, takie jak geolokalizacja, eee, firma, stosy i koncepcje, takie jak Hadoop, wspomniane w szyku, a następnie wizualizują je na mapie, a także sprawdzają, kim są te osoby i co wymień listę wysłaną i datę. To, gdzie patrzysz na rzeczy, które tradycyjnie nie są ustrukturyzowane, które mogą być luźno ustrukturyzowane, ale nadal są w stanie uzyskać ustrukturyzowaną analizę na podstawie tych informacji bez konieczności dokładania wszelkich starań, aby je ustrukturyzować lub przetworzyć czas. I to wszystko.

Eric: Hej, okej dobrze. I mamy jeszcze jeden. Mamy Hannah Smalltree z Treasure Data, bardzo interesującej firmy. I to jest mnóstwo świetnych treści, ludzie. Bardzo dziękuję wam wszystkim za przyniesienie tak dobrych slajdów i tak dobrych szczegółów. Więc Hannah, właśnie dałem ci klucze, kliknij gdziekolwiek i użyj strzałki w dół na klawiaturze. Masz to. Zabierz to.

Hannah Smalltree: Dziękuję bardzo, Eric. To jest Hannah Smalltree z Treasure Data. Jestem reżyserem z Treasure Data, ale mam przeszłość jako dziennikarz techniczny, co oznacza, że doceniam dwie rzeczy. Przede wszystkim mogą być długie, aby przejrzeć wiele różnych opisów technologii i wszystko może brzmieć tak, jakby działało razem, więc naprawdę chcę skupić się na naszym wyróżniaczu. A rzeczywiste aplikacje są naprawdę ważne, więc doceniam to, że wszyscy moi rówieśnicy świetnie sobie z tym radzą.

Treasure Data to nowy rodzaj usługi Big Data. Dostarczamy całkowicie w chmurze jako oprogramowanie lub model usługi zarządzanej. Tak więc, do punktu wcześniejszego doktora Bloora, ta technologia może być naprawdę trudna i uruchomienie jej może zająć dużo czasu. Dzięki Treasure Data możesz bardzo szybko uzyskać wszystkie te funkcje, które możesz uzyskać w środowisku Hadoop lub skomplikowanym lokalnym środowisku w chmurze, co jest naprawdę pomocne w przypadku nowych inicjatyw dużych zbiorów danych.

Teraz mówimy o naszych usługach w kilku różnych fazach. Oferujemy bardzo unikalne możliwości gromadzenia danych w celu gromadzenia danych przesyłanych strumieniowo, w szczególności dane zdarzeń, inne rodzaje danych w czasie rzeczywistym. Porozmawiamy trochę więcej o tych typach danych. To duży wyróżnik naszych usług. Wchodząc do dużych zbiorów danych lub jeśli już się w nich znajdujesz, wiesz, że zbieranie tych danych nie jest trywialne. Kiedy myślisz o samochodzie ze 100 czujnikami rejestrującymi dane co minutę, nawet tymi 100 czujnikami rejestrującymi dane co dziesięć minut, to naprawdę szybko się sumuje, gdy zaczniesz pomnażać ilość produktów, które masz tam z czujnikami i szybko staje się bardzo trudne do zarządzania. Dlatego rozmawiamy z klientami, którzy mają miliony, mamy klientów, którzy mają miliardy wierszy danych dziennie, że nam. Robią to jako alternatywa, aby spróbować sobie z tym poradzić w skomplikowanej infrastrukturze Amazon, a nawet spróbować wprowadzić ją do swojego środowiska.

Mamy własne środowisko przechowywania w chmurze. Zarządzamy tym. Monitorujemy to. Mamy zespół ludzi, którzy robią to za Ciebie. I tak dane płyną, trafiają do naszego zarządzanego środowiska pamięci.

Następnie mamy wbudowane mechanizmy zapytań, aby Twój analityk mógł wejść i uruchomić zapytania oraz przeprowadzić wstępne wyszukiwanie danych i eksplorację danych. Obecnie mamy na to kilka różnych mechanizmów zapytań. Możesz użyć składni SQL, którą Twoi analitycy prawdopodobnie znają i uwielbiają, aby przeprowadzić podstawowe wyszukiwanie danych, wykonać bardziej złożone analizy, które są funkcjami zdefiniowanymi przez użytkownika, a nawet zrobić rzeczy tak proste, jak agregacja tych danych i zmniejszenie ich, tak aby możesz wprowadzić go do istniejącego środowiska hurtowni danych.

Możesz także podłączyć swoje istniejące narzędzia BI, a Tableau jest naszym dużym partnerem; ale tak naprawdę większość narzędzi BI, wizualizacji lub narzędzi analitycznych można łączyć za pośrednictwem naszych standardowych sterowników JDBC i ODBC. Daje to pełny zestaw funkcji dużych zbiorów danych. Możesz eksportować wyniki zapytań lub zestawy danych w dowolnym momencie za darmo, dzięki czemu możesz łatwo zintegrować te dane. Traktuj to jak rafinerię danych. Lubię myśleć o tym bardziej jak o rafinerii niż o jeziorze, ponieważ tak naprawdę możesz z tym robić różne rzeczy. Możesz przejść, znaleźć cenne informacje, a następnie wprowadzić je do procesów korporacyjnych.

W następnym slajdzie mówimy o trzech wersjach dużych zbiorów danych - niektórzy mówią cztery lub pięć. Nasi klienci mają problem z ilością i szybkością napływających do nich danych. Aby uzyskać szczegółowe informacje na temat typów danych - Clickstream, dzienniki dostępu do sieci, dane mobilne to dla nas duży obszar, dzienniki aplikacji mobilnych, dzienniki aplikacji z niestandardowych aplikacji internetowych lub innych aplikacji, dzienniki zdarzeń. Coraz częściej mamy wielu klientów zajmujących się danymi z czujników, a więc z urządzeniami do noszenia, produktami, motoryzacją i innymi typami danych maszynowych. Kiedy mówię duże zbiory danych, to jest ten typ dużych zbiorów danych, o którym mówię.

Teraz kilka perspektyw użycia dla Ciebie - współpracujemy ze sprzedawcą, dużym sprzedawcą. Są bardzo dobrze znane w Azji. Rozwijają się tutaj w USA. Zaczniesz widzieć sklepy; często nazywane są azjatyckimi IKEA, więc prosty design. Mają aplikację lojalnościową i stronę internetową. W rzeczywistości, korzystając z Treasure Data, byli w stanie bardzo szybko wdrożyć tę aplikację lojalnościową. Nasi klienci zaczynają działać w ciągu kilku dni lub tygodni dzięki naszemu oprogramowaniu i architekturze usług oraz dlatego, że wszyscy ludzie wykonują całą tę ciężką pracę za kulisami, aby zapewnić Ci wszystkie te funkcje jako usługę.

Korzystają więc z naszej usługi do analizy aplikacji mobilnych, patrząc na zachowanie, na które klikają ludzie w swojej mobilnej aplikacji lojalnościowej. Patrzą na kliknięcia w witrynie i łączą to z naszymi danymi e-commerce i danymi POS, aby zaprojektować bardziej efektywne promocje. W rzeczywistości chcieli zapędzić ludzi do sklepów, ponieważ odkryli, że ludzie, kiedy wchodzą do sklepów, wydają więcej pieniędzy, a ja jestem taki; aby zbierać rzeczy, wydajesz więcej pieniędzy.

Kolejny przypadek użycia, który widzimy w cyfrowych grach wideo, niesamowita zwinność. Chcą dokładnie zobaczyć, co dzieje się w ich grze, i wprowadzić zmiany w tej grze nawet w ciągu kilku godzin od jej premiery. Dlatego dla nich ten widok w czasie rzeczywistym jest niezwykle ważny. Właśnie wydaliśmy grę, ale zauważyliśmy w pierwszej godzinie, że wszyscy wysiadają na poziomie 2; jak mamy to zmienić? Mogą to zmienić w ciągu tego samego dnia. Tak więc czas rzeczywisty jest bardzo ważny. Przekazują nam miliardy dzienników zdarzeń dziennie. Ale może to być dowolna aplikacja mobilna, w której chcesz mieć wgląd w czasie rzeczywistym, w jaki sposób ktoś tego używa.

I wreszcie, dużym obszarem dla nas jest nasze zachowanie produktu i analiza czujników. Tak więc z danymi czujników, które znajdują się w samochodach, w innych maszynach, narzędziach, to dla nas kolejny obszar, w urządzeniach do noszenia. Posiadamy zespoły badawczo-rozwojowe, które chcą szybko dowiedzieć się, jaki wpływ ma zmiana produktu lub ludzie zainteresowani zachowaniem tego, jak ludzie wchodzą w interakcje z produktem. I mamy o wiele więcej przypadków użycia, które oczywiście chętnie Ci udostępnimy.

I wreszcie, po prostu pokaż, jak to może pasować do twojego środowiska, ponownie oferujemy możliwość gromadzenia tych danych. Mamy bardzo unikalną technologię zbiórki. Więc ponownie, jeśli zbieranie w czasie rzeczywistym jest czymś, z czym się zmagasz lub spodziewasz się, że będziesz walczył, przyjrzyj się usłudze Treasure Data. Naprawdę stworzyliśmy możliwości gromadzenia danych przesyłanych strumieniowo. Możesz także masowo ładować swoje dane, przechowywać je, analizować za pomocą naszych wbudowanych mechanizmów zapytań, a następnie, jak wspomniałem, możesz eksportować je bezpośrednio do hurtowni danych. Myślę, że Will wspomniał o potrzebie wprowadzenia dużych zbiorów danych do istniejących procesów. Nie chodź więc i nie twórz nowego silosu, ale jak zmniejszyć te dane, a następnie przenieść je do hurtowni danych, aby móc połączyć się z BI, wizualizacją i zaawansowanymi narzędziami analitycznymi.

Ale być może kluczowe kwestie, które chcę wam zostawić, to to, że jesteśmy usługą zarządzaną, czyli oprogramowaniem jako usługą; jest to bardzo opłacalne. Miesięczna usługa subskrypcji od kilku tysięcy dolarów miesięcznie, a my uruchomimy Cię w ciągu kilku dni lub tygodni. Porównaj to z kosztami miesięcy i miesięcy budowania własnej infrastruktury, wynajmowania tych ludzi, znajdowania ich i spędzania całego czasu na infrastrukturze. Jeśli eksperymentujesz lub potrzebujesz czegoś wczoraj, możesz szybko zacząć działać z Treasure Data.

I właśnie wskazuję wam naszą stronę internetową i naszą usługę startową. Jeśli jesteś osobą, która lubi grać, sprawdź naszą usługę dla początkujących. Możesz wsiąść, nie wymaga karty kredytowej, wystarczy podać nazwę i możesz grać z naszymi przykładowymi danymi, załadować własne dane i naprawdę zrozumieć, o czym mówimy. Dziękuję bardzo. Sprawdź również naszą stronę internetową. W tym roku zostaliśmy nazwani Gartner Cool Vendor w Big Data, z tego bardzo dumni. Możesz także bezpłatnie pobrać kopię tego raportu na naszej stronie internetowej, a także na wiele innych oficjalnych dokumentów analitycznych. Dziękuję bardzo.

Eric: Dobra, dziękuję bardzo. Mamy trochę czasu na pytania, ludzie. Pójdziemy też trochę dłużej, ponieważ wciąż jest tu wielu ludzi. Wiem, że sam mam kilka pytań, więc pozwólcie mi przejąć kontrolę, a potem zadam kilka pytań. Robin i Kirk, nie krępuj się zanurzać według własnego uznania.

Pozwólcie więc, że przejdę do jednej z tych pierwszych slajdów, które sprawdziłem w Pentaho. Więc tutaj, uwielbiam tę ewoluującą architekturę dużych zbiorów danych, czy możesz porozmawiać o tym, jak ten rodzaj pasuje do siebie w firmie? Ponieważ oczywiście wchodzisz do jakiejś dość dużej organizacji, nawet średniej wielkości firmy, i będziesz miał ludzi, którzy już mają niektóre z tych rzeczy; jak to wszystko poskładać? Jak wygląda aplikacja, która pomaga połączyć te wszystkie rzeczy razem, a następnie jak wygląda interfejs?

Will: Świetne pytanie. Interfejsy są różne w zależności od zaangażowanych osób. Ale jako przykład chcielibyśmy opowiedzieć historię - jeden z panelistów wspomniał o przypadku użycia rafinerii danych - widzimy to bardzo często u klientów.

Jednym z naszych przykładów klientów, o którym mówimy, jest Paytronix, w którym mają tradycyjne środowisko mart data data EDW. Wprowadzają również Hadoop, w szczególności Cloudera, a także różne doświadczenia użytkowników. Więc najpierw jest doświadczenie inżynierskie, więc jak połączyć te wszystkie rzeczy razem? Jak stworzyć klej między środowiskiem Hadoop a EDW?

A potem masz doświadczenie biznesowe, o którym rozmawialiśmy, szereg narzędzi BI, prawda? Pentaho ma bardziej wbudowane narzędzie OEM BI, ale istnieją świetne takie jak na przykład Tableau i Excel, w których ludzie chcą eksplorować dane. Ale zwykle chcemy się upewnić, że dane są zarządzane, prawda? Jedno z pytań w dyskusji, a co z obsługą pojedynczej wersji, jak sobie z tym poradzić i bez technologii takiej jak integracja danych Pentaho, aby połączyć te dane nie na szybie, ale w środowiskach IT. Tak więc naprawdę chroni i zarządza danymi oraz zapewnia jedno doświadczenie dla analityka biznesowego i użytkowników biznesowych.

Eric: Dobra, dobrze. To jest dobra odpowiedź na trudne pytanie, szczerze mówiąc. Pozwólcie, że zadam pytanie każdemu z prezenterów, a potem może Robin i Kirk, jeśli chcecie też wskoczyć. Chciałbym więc przejść dalej i przekazać ten slajd WebAction, który moim zdaniem jest naprawdę bardzo interesującą firmą. Właściwie znam Sami Akbay, który jest także jednym ze współzałożycieli. Pamiętam, jak rozmawiałem z nim kilka lat temu i powiedziałem: „Hej, co robisz? Co porabiasz? Wiem, że nad czymś pracujesz”. I oczywiście był. Pracował nad WebAction, pod przykrywkami tutaj.

Przyszło do ciebie pytanie, Steve, więc przekażę ci je, dotyczące czyszczenia danych, prawda? Czy możesz mówić o tych składnikach tej funkcji w czasie rzeczywistym? Jak radzisz sobie z takimi problemami, jak czyszczenie danych lub jakość danych lub jak to w ogóle działa?

Steve: Tak więc to naprawdę zależy od tego, skąd otrzymujesz swoje kanały. Zazwyczaj, jeśli pobierasz kanały z bazy danych podczas zmiany przechwytywania danych, to znowu zależy to od sposobu wprowadzenia danych. Oczyszczanie danych naprawdę staje się problemem, gdy pobierasz dane z wielu źródeł lub ludzie wprowadzają je ręcznie lub masz jakieś arbitralne działania, z których musisz się wycofać. I to z pewnością może być częścią procesu, chociaż ten typ po prostu nie poddaje się prawdziwemu, rodzajowi szybkiego przetwarzania w czasie rzeczywistym. Oczyszczanie danych jest zwykle kosztownym procesem.

Więc może być tak, że można to zrobić po fakcie na stronie sklepu. Ale drugą rzeczą, w której platforma jest naprawdę, naprawdę dobra, jest korelacja, a więc korelacja i wzbogacanie danych. Możesz w czasie rzeczywistym skorelować przychodzące dane i sprawdzić, czy pasują one do określonego wzorca, czy do danych pobieranych z bazy danych, Hadoop lub innego sklepu. Możesz więc skorelować go z danymi historycznymi - możesz to zrobić.

Inną rzeczą, którą możesz zrobić, jest w zasadzie analiza tych danych i sprawdzenie, czy w pewnym sensie pasuje do pewnych wymaganych wzorców. I możesz to zrobić w czasie rzeczywistym. Ale tradycyjny rodzaj czyszczenia danych, w którym korygujesz nazwy firm lub poprawiasz adresy i wszystkie tego typu rzeczy, prawdopodobnie należy to zrobić u źródła lub po fakcie, co jest bardzo drogie i modlisz się że nie zrobią tego w czasie rzeczywistym.

Eric: Tak. A wy naprawdę staracie się rozwiązać naturalną naturę rzeczy w czasie rzeczywistym, ale jednocześnie zdążyć na czas. I rozmawialiśmy o tym, tak, wspominałem w górnej części godziny, o tym całym oknie możliwości i naprawdę celujesz w konkretne aplikacje w firmach, w których możesz zebrać dane nie idąc zwykłą trasą, idąc tą alternatywną trasą i zrobić przy tak niskim opóźnieniu, że możesz zatrzymać klientów. Na przykład możesz zadowalać ludzi i to jest interesujące, kiedy rozmawiałem długo z Sami o tym, co robicie, zrobił naprawdę dobrą rację. Powiedział, że jeśli spojrzysz na wiele nowych aplikacji internetowych; spójrzmy na rzeczy takie, jak Bitly lub niektóre z tych innych aplikacji; różnią się bardzo od starych aplikacji, na które patrzyliśmy, powiedzmy Microsoft jak Microsoft Word.

Często używam Microsoftu jako biczującego chłopca, a konkretnie Worda, aby mówić o ewolucji oprogramowania. Ponieważ Microsoft Word zaczął jako program do edycji tekstu. Jestem jedną z tych osób, które pamiętają Słowo Idealne. Uwielbiam być w stanie wykonać klucze ujawnienia lub kod ujawnienia, w zasadzie, gdzie można zobaczyć rzeczywisty kod. Możesz coś wyczyścić, jeśli lista wypunktowana jest błędna, możesz to wyczyścić. Cóż, Word na to nie pozwala. Mogę ci powiedzieć, że Word osadza górę kodu na każdej twojej stronie. Jeśli ktoś mi nie wierzy, przejdź do Microsoft Word, wpisz „Hello World”, a następnie wykonaj „Eksportuj jako” lub „Zapisz jako” .html. Następnie otwórz ten dokument w edytorze i będzie miał około czterech stron kodów zawierających tylko dwa słowa.

Więc wy, myślałem, że to bardzo interesujące i czas porozmawiać o tym. I na tym właśnie się koncentrujecie, prawda, czy identyfikujecie, co moglibyście nazwać możliwościami między platformami, przedsiębiorstwami lub domenami, do zbierania danych w tak szybkim czasie, że możecie zmienić grę, prawda?

Steve: Tak, absolutnie. I jednym z kluczy, który, jak sądzę, umyknął, w każdym razie, jest to, że naprawdę chcesz wiedzieć o tym, co dzieje się, zanim zrobią to Twoi klienci lub zanim naprawdę staną się problemem. Przykładem są dekodery. Skrzynki kablowe, cały czas emitują dane telemetryczne, obciążenia i obciążenia telemetryczne. I to nie tylko zdrowie pudełka, ale to, co oglądasz i inne tego typu rzeczy, prawda? Typowy schemat polega na tym, że czekasz, aż urządzenie się zepsuje, a następnie zadzwonisz do swojego operatora telewizji kablowej, a oni powiedzą: „Cóż, dotrzemy do ciebie między godziną 6:00 a 23:00 przez cały listopad”. To nie jest naprawdę dobra obsługa klienta.

Ale jeśli mogliby analizować tę telemetrię w czasie rzeczywistym, mogliby zacząć robić takie rzeczy, o których wiemy, że te skrzynki mogą zawieść w historycznych wzorcach opartych na przyszłym tygodniu. Dlatego zaplanujemy, aby nasz specjalista od naprawy kabli pojawił się w domu tej osoby, zanim zawiedzie. Zrobimy to w sposób, który bardziej nam odpowiada, niż do niego od Santa Cruz po Sunnyvale. Zaplanujemy wszystko w ładnym porządku, według wzoru podróżnego sprzedawcy itp., Aby zoptymalizować naszą działalność. I tak klient jest zadowolony, ponieważ nie ma uszkodzonego dekodera telewizji kablowej. A dostawca telewizji kablowej jest szczęśliwy, ponieważ właśnie usprawnił i nie ma potrzeby do ludzi w każdym miejscu. To tylko bardzo szybki przykład.Ale istnieje mnóstwo przykładów, w których wiedza o tym, co się dzieje, zanim się zdarzy, może zaoszczędzić firmom fortunę i naprawdę poprawić relacje z klientami.

Eric: Tak, racja. Nie ma wątpliwości. Przejdźmy dalej do MarkLogic. Jak wspomniałem wcześniej, wiem o tych facetach od dłuższego czasu, więc wciągnę cię w to, Frank. Byliście daleko przed całym ruchem dużych zbiorów danych w zakresie tworzenia aplikacji, to naprawdę baza danych. Ale budując to, mówiłeś o znaczeniu wyszukiwania.

Tak więc wiele osób, które śledziły kosmos, wie, że wiele dostępnych narzędzi NoSQL korzysta obecnie z możliwości wyszukiwania, czy to za pośrednictwem stron trzecich, czy też próbują zrobić to samodzielnie. Ale posiadanie tego wyszukiwania, już tak upieczonego, że tak powiem, to naprawdę wielka sprawa. Ponieważ jeśli o tym pomyślisz, jeśli nie masz SQL-a, to jak wejdziesz i przeszukujesz dane? Jak czerpać z tego zasobu danych? A odpowiedź brzmi: zazwyczaj użyj wyszukiwania, aby uzyskać dostęp do danych, których szukasz, prawda?

Sądzę więc, że jest to jeden z kluczowych czynników wyróżniających dla was, oprócz możliwości pobierania danych z tych wszystkich różnych źródeł i przechowywania tych danych i naprawdę ułatwiania tego rodzaju środowiska hybrydowego. Myślę, że funkcja wyszukiwania jest dla Ciebie bardzo ważna, prawda?

Frank: Tak, absolutnie. To jedyny sposób na konsekwentne rozwiązanie problemu, gdy nie wiesz, jak będą wyglądać wszystkie dane, prawda? Jeśli nie możesz sobie wyobrazić wszystkich możliwości, jedynym sposobem, aby upewnić się, że możesz zlokalizować wszystkie potrzebne informacje, że możesz je zlokalizować konsekwentnie i możesz je zlokalizować niezależnie od tego, w jaki sposób ewoluujesz model danych i zestawy danych: aby upewnić się, że udostępniasz ludziom ogólne narzędzia, które pozwalają im przesłuchiwać te dane. A najłatwiejszym i najbardziej intuicyjnym sposobem jest skorzystanie z paradygmatu wyszukiwania, prawda? I to samo podejście w wyszukiwaniu ma miejsce, w którym stworzyliśmy odwrócony indeks. Masz wpisy, w których możesz je przejrzeć, a następnie znaleźć rekordy, dokumenty i wiersze, które faktycznie zawierają informacje, których szukasz, a następnie zwrócić je klientowi i pozwolić mu przetworzyć je według własnego uznania.

Eric: Tak i dużo o tym rozmawialiśmy, ale dajesz mi naprawdę dobrą okazję, żeby się w to wgłębić - cała strona wyszukiwania i odkrywania tego równania. Ale przede wszystkim jest to świetna zabawa. Dla każdego, kto lubi takie rzeczy, jest to zabawna część, prawda? Ale drugą stroną równania lub drugą stroną monety jest to, że tak naprawdę jest to proces iteracyjny. I musisz być w stanie - tutaj będę używać jakiegoś języka marketingowego - mieć tę rozmowę z danymi, prawda? Innymi słowy, musisz być w stanie przetestować hipotezę, pobawić się nią i zobaczyć, jak to działa. Może tego nie ma, przetestuj coś innego i ciągle zmieniaj rzeczy, iteruj, szukaj i badaj i po prostu myśl o rzeczach. I to jest proces. A jeśli masz duże przeszkody, co oznacza długie opóźnienia lub trudny interfejs użytkownika, albo musisz zapytać IT; to zabija całe doświadczenie analityczne, prawda?

Dlatego tak ważna jest elastyczność i możliwość wyszukiwania. I podoba mi się sposób, w jaki to tutaj przedstawiłeś, ponieważ jeśli szukamy różnych pojęć lub kluczy, jeśli chcesz, kluczowe wartości i mają one różne wymiary. Chcesz mieszać i dopasowywać te elementy, aby umożliwić analitykowi znalezienie użytecznych elementów, prawda?

Frank: Tak, absolutnie. Mam na myśli, że hierarchia jest również ważna, prawda? Tak więc, jeśli podasz coś takiego jak tytuł, prawo lub określony termin lub wartość, możesz faktycznie wskazać właściwy. Więc jeśli szukasz tytułu artykułu, nie otrzymujesz tytułów książek, prawda? Lub nie otrzymujesz tytułów postów na blogu. Ważna jest również umiejętność rozróżnienia między nimi i hierarchii informacji.

Wskazałeś wcześniej na rozwój, absolutnie, prawda? Niezwykle cenna jest zdolność naszych klientów do faktycznego pobierania nowych źródeł danych w ciągu kilku godzin, rozpoczęcia współpracy z nimi, oceny, czy są przydatne, a następnie kontynuowania ich integracji lub pozostawienia ich na marginesie. Porównując to z bardziej tradycyjnym podejściem do tworzenia aplikacji, w którym musisz zrobić, musisz dowiedzieć się, jakie dane chcesz spożywać, pozyskać dane, dowiedzieć się, jak zmieścisz je w istniejącym modelu danych lub zamodeluj ten model, zmień ten model danych, aby go uwzględnić, a następnie rozpocznij opracowywanie, prawda? Tam, gdzie w pewnym sensie odwracamy to od głowy i mówimy, po prostu przynieś nam to, pozwól, abyś zaczął z nim rozwijać, a następnie zdecydował później, czy chcesz go zachować, czy też prawie natychmiast, czy ma to wartość.

Eric: Tak, to naprawdę dobra uwaga. Trafne spostrzeżenie. Pozwólcie, że pójdę dalej i sprowadzę tutaj naszego czwartego prezentera, Treasure Data. Kocham tych chłopaków. Niewiele o nich wiedziałem, więc trochę się kopię. A potem przyszła do nas Anna i powiedziała nam, co robią. I Hannah wspomniała, że jest osobą medialną i przeszła na ciemną stronę.

Hannah: Tak, uciekłam.

Eric: W porządku, ponieważ wiesz, co lubimy w świecie mediów. Dlatego zawsze miło jest, gdy osoba medialna przechodzi do strony sprzedawcy, ponieważ rozumiesz, hej, te rzeczy nie są tak łatwe do sformułowania i może być trudno ustalić na stronie internetowej, co dokładnie robi ten produkt w porównaniu z tym, co robi ten produkt. A to, o czym mówicie, jest naprawdę całkiem interesujące. Teraz jesteś usługą zarządzaną w chmurze. Czy jakieś dane, które ktoś chce wykorzystać, przesyłają do Twojej chmury, prawda? A potem będzie ETL lub CDC, dodatkowe dane aż do chmury, czy tak to działa?

Hannah: Cóż, tak. Pozwolę sobie zatem dokonać istotnego rozróżnienia. Większość danych, czyli dużych danych, które wysyłają do nas nasi klienci, znajduje się już poza zaporą ogniową - dane mobilne, dane czujników w produktach. Dlatego często jesteśmy wykorzystywani jako tymczasowe miejsce postoju. Dlatego dane często nie przychodzą z czyichś firm do naszej usługi, ponieważ płyną ze strony internetowej, aplikacji mobilnej, produktu z dużą ilością czujników - do naszego środowiska chmurowego.

Teraz, jeśli chcesz wzbogacić te duże dane w naszym środowisku, możesz zdecydowanie przesłać zbiorczo niektóre dane aplikacji lub dane klientów, aby je wzbogacić i wykonać więcej analiz bezpośrednio w chmurze. Ale duża część naszej wartości polega na gromadzeniu danych, które są już poza zaporą ogniową, gromadząc je w jednym miejscu. Więc nawet jeśli zamierzasz wychodzić z tego rodzaju zapory ogniowej i wykonywać więcej zaawansowanych analiz lub wprowadzać je do istniejącego środowiska analizy biznesowej lub analizy, jest to naprawdę dobry punkt pośredni. Ponieważ nie chcesz wprowadzać do hurtowni danych miliarda wierszy dnia, nie jest to opłacalne. Jest to nawet trudne, jeśli planujesz gdzieś to zapisać, a następnie przesłać zbiorczo.

Dlatego często jesteśmy pierwszym punktem, w którym gromadzone są dane, które są już poza zaporą ogniową.

Eric: Tak, to też jest naprawdę dobra uwaga. Ponieważ wiele firm będzie się denerwować z powodu pobierania zastrzeżonych danych klientów, umieszczania ich w chmurze i zarządzania całym procesem.

Hannah: Tak.

Eric: A to, o czym mówisz, naprawdę sprawia, że ludzie stają się zasobem do przełamywania tak dużej liczby, jak sugerujesz, danych innych firm, takich jak dane mobilne, dane społecznościowe i inne tego rodzaju zabawy. To całkiem interesujące.

Hannah: Tak, absolutnie. I prawdopodobnie denerwują się produktami, ponieważ dane są już na zewnątrz. I tak, przed wprowadzeniem go, i naprawdę podoba mi się ten termin rafinerii, jak wspomniałem, w porównaniu do jeziora. Czy możesz zrobić podstawową rafinerię? Wyciągnij dobre rzeczy, a następnie przenieś je za zaporę do innych systemów i procesów w celu głębszej analizy. Tak naprawdę to wszystko, co mogą zrobić naukowcy zajmujący się danymi, eksploracja w czasie rzeczywistym nowych napływających dużych danych.

Eric: Tak, zgadza się. Cóż, pozwólcie, że pójdę dalej i przyprowadzę naszych analityków, a my wrócimy w odwrotnej kolejności. Zacznę od ciebie, Robin, w odniesieniu do Treasure Data, a potem pójdziemy do Kirka po kilka innych. A potem z powrotem do Robina i z powrotem do Kirka, żeby trochę lepiej to ocenić.

I znasz rafinerię danych, Robin, o której Hannah tu mówi. Uwielbiam tę koncepcję. Słyszałem tylko kilka osób mówiących o tym w ten sposób, ale myślę, że z pewnością o tym wcześniej wspomniałeś. I naprawdę mówi o tym, co dzieje się z Twoimi danymi. Ponieważ, oczywiście, rafineria, zasadniczo destyluje rzeczy do poziomu głównego, jeśli myślisz o rafineriach ropy naftowej. Właściwie to studiowałem przez jakiś czas i jest to dość podstawowa, ale inżynieria, która się w nią opiera, musi być dokładnie poprawna, inaczej nie dostaniesz rzeczy, które chcesz. Myślę więc, że to świetna analogia. Co sądzisz o tej całej koncepcji usługi Treasure Data Cloud Service, która pomaga zaspokoić niektóre z tych bardzo specyficznych potrzeb analitycznych bez konieczności przeprowadzania własnych prac?

Robin: No cóż, oczywiście w zależności od okoliczności, jak to jest wygodne. Ale każdy, kto tak naprawdę już dokonał procesu, już teraz postawi cię na czele gry, jeśli sam go nie masz. To pierwszy na wynos coś takiego. Jeśli ktoś coś zmontował, zrobił to, jest to udowodnione na rynku, a zatem istnieje jakaś wartość, cóż, praca już w to poszła. Jest też bardzo ogólny fakt, że rafinacja danych będzie znacznie większym problemem niż kiedykolwiek wcześniej. Chodzi mi o to, że nie mówi się o tym, moim zdaniem, nie mówi się tak dużo, jak powinno być. Po prostu pomijając fakt, że rozmiar danych urósł, a liczba źródeł i różnorodność tych źródeł znacznie wzrosła. I wiarygodność danych pod względem tego, czy są czyste, muszą ujednolicić dane, wszelkiego rodzaju problemy, które powstają tylko w zakresie zarządzania danymi.

Więc zanim zaczniesz robić wiarygodną analizę, wiesz, że jeśli Twoje dane są brudne, wyniki zostaną w jakiś sposób wypaczone. Tak więc należy się tym zająć, o czym trzeba wiedzieć. I triangulator świadczenia, o ile widzę, bardzo realnej usługi, aby w tym pomóc.

Eric: Tak, rzeczywiście. Cóż, pozwól mi iść naprzód i sprowadzić Kirka z powrotem do równania tutaj bardzo szybko. Chciałem rzucić okiem na jedną z tych slajdów i po prostu mieć wrażenie, Kirk. Więc może wróćmy do tego slajdu MarkLogic. A tak przy okazji, Kirk podał link, jeśli go nie widziałeś, do niektórych slajdów ze swoich odkryć klasowych, ponieważ jest to bardzo interesująca koncepcja. I myślę, że to rodzaj piwowactwa w moim umyśle, Kirk, o czym mówiłem przed chwilą. Całe to pytanie, które jeden z uczestników postawił na temat szukania nowych zajęć. Uwielbiam ten temat, ponieważ tak naprawdę mówi o trudnej stronie kategoryzacji rzeczy, ponieważ zawsze ciężko mi było kategoryzować różne rzeczy. Mówię: „Och, Boże, mogę zmieścić się w pięciu kategoriach, gdzie to umieścić?” Więc po prostu nie chcę niczego kategoryzować, prawda?

I dlatego uwielbiam wyszukiwanie, ponieważ nie musisz go kategoryzować, nie musisz umieszczać go w folderze. Po prostu go wyszukaj, a znajdziesz go, jeśli wiesz, jak wyszukiwać. Ale jeśli próbujesz segmentować, ponieważ taka jest kategoryzacja, następuje segmentacja; znajdowanie nowych zajęć, to trochę interesująca rzecz. Czy możesz na przykład mówić o sile wyszukiwania, semantyce i hierarchiach, na przykład, o czym mówił Frank w odniesieniu do MarkLogic i roli, jaką odgrywa w wyszukiwaniu nowych klas, co o tym sądzisz?

Kirk: Po pierwsze, powiedziałbym, że czytasz w moich myślach. Ponieważ to właśnie myślałem o pytaniu, jeszcze zanim mówiłeś, cały ten semantyczny kawałek tutaj, który MarkLogic przedstawił. A jeśli wrócisz do mojego slajdu, nie musisz tego robić, ale z powrotem na slajdzie piątym tego, co przedstawiłem dzisiejszego popołudnia; Mówiłem o tej semantyce, że dane muszą zostać przechwycone.

Więc cała idea wyszukiwania, proszę bardzo. Mocno w to wierzę i zawsze wierzyłem w to, że w przypadku dużych zbiorów danych, analogia do Internetu, to znaczy po prostu Internet, to znaczy posiadanie światowej wiedzy, informacji i danych w przeglądarce internetowej to jedno. Aby mieć możliwość łatwego wyszukiwania i wyszukiwania w sposób, w jaki zapewnia nam to jedna z największych firm wyszukiwarek, oto prawdziwa siła odkrywania. Ponieważ łącząc wyszukiwane hasła, rodzaj obszarów zainteresowań użytkownika z konkretną granulką danych, określoną stroną internetową, jeśli chcesz pomyśleć o przykładzie internetowym lub konkretnym dokumentem, jeśli mówisz o bibliotece dokumentów. Lub określony segment klienta, jeśli to Twoja przestrzeń.

A semantyka daje taką wiedzę opartą na wyszukiwaniu słów. Jeśli szukasz określonego rodzaju rzeczy, zrozum, że członek klasy takich rzeczy może mieć pewien związek z innymi rzeczami. Dołącz nawet tego rodzaju informacje o relacjach i informacje o hierarchii klas, aby znaleźć rzeczy podobne do tego, czego szukasz. A czasem nawet dokładne przeciwieństwo tego, czego szukasz, ponieważ w pewien sposób zapewnia to dodatkowy rdzeń zrozumienia. Cóż, prawdopodobnie coś przeciwnego.

Eric: Tak.

Kirk: Więc właściwie to rozumiem. Widzę coś przeciwnego. A zatem warstwa semantyczna jest cennym składnikiem, którego często brakuje, i jest interesująca teraz, gdy pojawi się tutaj w tym oszustwie. Ponieważ od ponad dekady prowadzę kurs dla absolwentów baz danych, eksploracji danych, uczenia się na danych, analiz danych, jakkolwiek chcesz to nazwać; a jedna z moich jednostek w tym semestralnym kursie dotyczy semantyki i ontologii. I często moi uczniowie patrzą na mnie, jak to się ma do tego, o czym mówimy? I oczywiście na końcu myślę, że rozumiemy, że umieszczenie tych danych w jakiejś strukturze wiedzy. Tak więc, na przykład, szukam informacji na temat konkretnego zachowania klienta, rozumiejąc, że takie zachowanie występuje, to jest to, co ludzie kupują na imprezie sportowej. Jakie produkty oferuję moim klientom, kiedy zauważam w ich mediach społecznościowych - na lub - że mówią, że wybiorą się na wydarzenie sportowe, takie jak piłka nożna, baseball, hokej, Puchar Świata, cokolwiek to może być.

Dobra, więc wydarzenie sportowe. Mówią więc, że zamierzają, powiedzmy, grę w baseball. Ok, rozumiem, że baseball to wydarzenie sportowe. Rozumiem, że zazwyczaj jest to serwis społecznościowy i idziesz z ludźmi. Rozumiem, że zwykle znajduje się na zewnątrz. Mam na myśli to, że rozumiejąc wszystkie te stałe funkcje, pozwala to na bardziej zaawansowaną segmentację zaangażowanego klienta i twoją personalizację doświadczenia, które im dajesz, gdy na przykład wchodzą w interakcje z twoim przestrzeń przez aplikację mobilną, gdy siedzą na stadionie.

Tak więc wszystkie tego rodzaju rzeczy po prostu wnoszą o wiele więcej mocy i możliwości odkrywania danych w tego rodzaju idei indeksowania granulek danych według ich semantycznego miejsca, a przestrzeń wiedzy jest naprawdę znacząca. I byłem pod wielkim wrażeniem, że wyszło dzisiaj. Myślę, że jest to podstawowa rzecz do rozmowy.

Eric: Tak, na pewno jest. Jest to bardzo ważne w procesie odkrywania, jest bardzo ważne w procesie klasyfikacji. A jeśli się nad tym zastanowić, Java działa w klasach. To zorientowane obiektowo, mniej więcej, można powiedzieć, że forma programowania i Java działa w klasach. Jeśli więc projektujesz oprogramowanie, cała koncepcja szukania nowych klas jest naprawdę bardzo ważna pod względem funkcjonalności, którą starasz się zapewnić. Ponieważ szczególnie w tym nowym dzikim, wełnianym świecie dużych zbiorów danych, w którym jest tak dużo Javy z tak wieloma różnymi aplikacjami, wiesz, że istnieje 87 000 sposobów lub więcej, aby cokolwiek zrobić z komputerem, aby uzyskać jakikolwiek kawałek wykonanej funkcjonalności.

Jeden z moich żartów, gdy ludzie mówią: „Och, możesz zbudować hurtownię danych przy użyciu NoSQL”. „Cóż, możesz, tak, to prawda. Możesz także zbudować hurtownię danych za pomocą Microsoft Word”. To nie jest najlepszy pomysł, nie będzie działał zbyt dobrze, ale możesz to zrobić. Kluczem jest to, że musisz znaleźć najlepszy sposób na zrobienie czegoś.

Śmiało.

Kirk: Pozwól mi tylko odpowiedzieć na to. To interesujące, że wspomniałeś o przykładzie klasy Java, który nie przyszedł mi do głowy, dopóki go nie wypowiedziałeś. Jednym z aspektów Java i klas oraz tego rodzaju orientacji obiektowej jest to, że istnieją metody, które wiążą się z określonymi klasami. I tak naprawdę próbowałem w mojej prezentacji i kiedy zrozumiesz niektóre z tych granulek danych - te samorodki wiedzy, te tagi, te adnotacje i etykiety semantyczne - możesz powiązać z tym metodę. Zasadniczo mają taką reakcję lub tę odpowiedź, a Twój system zapewnia tego rodzaju zautomatyzowaną, proaktywną reakcję na tę rzecz, gdy następnym razem zobaczymy ją w strumieniu danych.

Tak więc koncepcja wiążących działań i metod dla konkretnej klasy jest naprawdę jedną z możliwości zautomatyzowanej analizy w czasie rzeczywistym. I myślę, że coś trafiłeś.

Eric: Dobrze, dobrze, dobrze. To dobre rzeczy. Zobaczmy więc, Will, chcę ci to z powrotem przekazać i zadać ci pytanie od publiczności. Mamy tu też kilka takich. I ludzie, jedziemy długo, ponieważ chcemy poznać niektóre z tych świetnych koncepcji w tych dobrych pytaniach.

Pozwól więc, że zadam ci pytanie od jednego z odbiorców, który mówi: „Naprawdę nie rozumiem, w jaki sposób inteligencja biznesowa rozróżnia przyczynę i skutek”. Innymi słowy, skoro systemy podejmują decyzje na podstawie obserwowalnych informacji, w jaki sposób opracowują nowe modele, aby dowiedzieć się więcej o świecie? To interesujący punkt, więc słyszę tutaj korelację przyczynowo-skutkową, analizę przyczyn źródłowych, i to niektóre z tego rodzaju zaawansowanych rzeczy w analizach, o których mówicie, w przeciwieństwie do tradycyjnej analizy biznesowej, która jest naprawdę po prostu rodzaj raportowania i rodzaj zrozumienia tego, co się stało. I oczywiście cały twój kierunek, patrząc na slajd tutaj, zmierza w kierunku predykcyjnej zdolności do podejmowania tych decyzji lub przynajmniej wydawania zaleceń, prawda? Chodzi o to, że próbujesz obsłużyć cały zakres tego, co się dzieje, i rozumiesz, że klucz, prawdziwa magia, znajduje się w komponencie celu analitycznego po prawej stronie.

Will: Oczywiście.Myślę, że to pytanie jest nieco zaglądane w przyszłość w tym sensie, że nauka o danych, jak wspomniałem wcześniej, zauważyła przesunięcie w stosunku do wymagań naukowca; jest to dość trudna rola dla kogoś, kto może w nim uczestniczyć. Muszą mieć tak bogatą wiedzę statystyczną i naukową. Musisz mieć wiedzę w dziedzinie, aby zastosować swoją wiedzę matematyczną do domen. Więc dzisiaj widzimy, że nie ma tych gotowych narzędzi predykcyjnych, które użytkownik biznesowy mógłby pobrać w programie Excel i automatycznie przewidzieć swoją przyszłość, prawda?

Na tym etapie wymaga zaawansowanej wiedzy technologicznej. Pewnego dnia w przyszłości może się zdarzyć, że niektóre z tych systemów, systemy skalowalne, zaczną odczuwać i zaczną robić jakieś dzikie rzeczy. Powiedziałbym jednak, że na tym etapie nadal trzeba mieć specjalistę od danych, aby kontynuować tworzenie modeli, a nie tych modeli. Te modele predykcyjne dotyczące eksploracji danych i takie są wysoce dostrojone i zbudowane przez naukowca danych. Nie są generowane samodzielnie, jeśli wiesz, co mam na myśli.

Eric: Tak, dokładnie. Dokładnie tak. Jedna z moich linii brzmi: „Maszyny nie kłamią, przynajmniej jeszcze nie teraz”.

Will: Dokładnie nie.

Eric: Przeczytałem artykuł - muszę coś o tym napisać - o pewnym eksperymencie przeprowadzonym na uniwersytecie, gdzie powiedzieli, że te programy komputerowe nauczyły się kłamać, ale muszę wam powiedzieć, że tak naprawdę nie wierzę . Zrobimy trochę badań na ten temat, ludzie.

A jeśli chodzi o ostatni komentarz, Robin sprowadzę cię z powrotem, abyś spojrzał na tę platformę WebAction, ponieważ jest to bardzo interesujące. To, co uwielbiam w całej przestrzeni, to to, że masz tak różne perspektywy i różne punkty widzenia różnych dostawców, aby spełnić bardzo specyficzne potrzeby. Uwielbiam ten format na nasz program, ponieważ mamy czterech naprawdę interesujących sprzedawców, którzy, szczerze mówiąc, tak naprawdę nie nadepną sobie nawzajem. Ponieważ wszyscy robimy różne drobiazgi o tej samej ogólnej potrzebie, jaką jest korzystanie z analiz, aby załatwić sprawę.

Ale chcę tylko spojrzeć na tę konkretną platformę i jej architekturę. Jak sobie radzą. Uważam, że to dość przekonujące. Co myślisz?

Robin: Mam na myśli bardzo szybkie wyniki przesyłania strumieniowego danych, a podczas wyszukiwania musisz to zaprojektować. To znaczy, nie uciekniesz od robienia czegokolwiek, amatorskiego, skoro mamy takie rzeczy. Słyszę, że jest to niezwykle interesujące i myślę, że jedna z rzeczy, których byliśmy świadkami w przeszłości; Mam na myśli, że myślę, że ty i ja, nasza szczęka opadała coraz bardziej w ciągu ostatnich kilku lat, gdy widzieliśmy, że pojawia się coraz więcej rzeczy, które były jak niezwykle szybkie, wyjątkowo inteligentne i prawie bezprecedensowe.

To oczywiście WebAction, to nie jest pierwsze rodeo, że tak powiem. Właściwie to właśnie tam do pewnego stopnia przyjmowano nazwy. Więc nie widzę, ale przypuszczam, że powinniśmy być zaskoczeni, że architektura jest dość zmieniona, ale na pewno tak jest.

Eric: Cóż, powiem wam, ludzie. Spaliliśmy tutaj solidne 82 minuty. Dziękuję wszystkim, którzy słuchali przez cały czas. Jeśli masz jakieś pytania, na które nie udzielono odpowiedzi, nie wstydź się naprawdę. Powinniśmy mieć gdzieś leżącą ode mnie. I wielkie, wielkie podziękowania dla naszych dzisiejszych prezenterów, dla dr Kirka Borne'a i dr Robina Bloora.

Kirk, chciałbym dalej z tobą eksplorować niektóre z tych semantycznych rzeczy, być może w przyszłym webcastu. Ponieważ uważam, że jesteśmy na początku bardzo nowego i interesującego etapu. Będziemy w stanie wykorzystać wiele pomysłów, które ludzie mają, i sprawić, że będą się one łatwiej realizować, ponieważ, jak sądzę, oprogramowanie staje się tańsze, powinienem powiedzieć. Staje się coraz bardziej użyteczny i otrzymujemy wszystkie te dane z różnych źródeł. Myślę, że w ciągu najbliższych kilku lat będzie to bardzo interesująca i fascynująca podróż, ponieważ naprawdę zagłębiamy się w to, co mogą zrobić te rzeczy i jak mogą poprawić nasze firmy.

Tak wielkie dzięki dla Techopedia, a także dla naszych sponsorów - Pentaho, WebAction, MarkLogic i Treasure Data. I ludzie, wow, z tym zakończymy, ale bardzo dziękuję za poświęcony czas i uwagę. Do zobaczenia za półtora miesiąca. I oczywiście sala odpraw trwa nadal; radio wciąż działa; wszystkie nasze inne serie webcastów wciąż się kołyszą. Dziękuję bardzo. Do zobaczenia następnym razem. PA pa.