Nexus dziedzictwa i innowacji: punkt zwrotny dla danych

Zawartość

Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia
W dół do biznesu
Jak Kafka zmieni zarządzanie danymi

Na wynos:

Kafka zrobi dla systemów informatycznych to, co LinkedIn robi dla ludzi biznesu: utrzymuj ich łączność w szerokim zakresie.

Wierząc z pasją w coś, co wciąż nie istnieje, tworzymy to. Nieistniejącym jest wszystko, czego nie chcieliśmy wystarczająco.

~ Franz Kafka

Konieczność pozostaje matką wynalazku. Jak kiedyś powiedział mi bystry konsultant: „Jeśli w organizacji dzieje się coś, co musi się wydarzyć, dzieje się to”. Jego punkt był dwojaki: 1) niektórzy ludzie zawsze znajdą sposób na załatwienie sprawy; oraz 2) kadra kierownicza wyższego szczebla, a nawet kierownictwo średniego szczebla, może nie zdawać sobie sprawy z tego, jak dokładnie się to dzieje w ich własnym przedsiębiorstwie.

Jeśli rozszerzymy tę metaforę na cały świat zarządzania danymi, możemy zobaczyć, że zachodzi właśnie transformacja. Surowa presja dużych zbiorów danych w połączeniu z osią przesyłania danych powoduje tak dużą presję, że starsze systemy strzępią się na brzegach, jeśli nie ulegają całkowitemu załamaniu. Niemniej jednak w tej chwili jest niezliczona liczba profesjonalistów, którzy w dużej mierze nie zdają sobie sprawy z tej rzeczywistości.

Przedsiębiorstwa oparte na danych mają siedzibę w pierwszym rzędzie i pod wieloma względami są motorem tej zmiany. Zastanów się, jak potęgi takie jak Yahoo! I LinkedIn obróciły branżę oprogramowania dla przedsiębiorstw, oferując ogromne darowizny na rzecz open-source: Hadoop, Cassandra, a teraz Kafka, z których wszystkie są wspierane przez Apache Foundation, która jest głównym graczem w tej metamorfozie .

Jaki jest efekt tej zmiany? Dzisiaj obserwowaliśmy kategoryczne przeklasyfikowanie i restrukturyzację samego zarządzania danymi. Nie oznacza to, że starsze systemy zostaną teraz wydarte i wymienione. Każdy weteran branży powie Ci, że hurtowe rozwiązanie starszych systemów zdarza się tak często, jak Chicago Cubs wygrywają World Series. To co najmniej rzadkie wydarzenie.

Tak naprawdę dzieje się tak, że wokół starych systemów budowana jest nadbudowa. Zastanów się nad analogią autostrad międzystanowych, które często wznoszą się nad miastami i miasteczkami, które obsługują, zaprojektowanych w celu dostarczania ludzi i ładunku do tych centrów ludności oraz zapewniania wyjścia każdemu i cokolwiek w ich obrębie. Nie zastępują istniejących dróg tak bardzo, jak wzbogacają je o alternatywne rozwiązania dla dużych prędkości.

To właśnie robi Apache Kafka: zapewnia szybkie trasy przesyłania danych między systemami informatycznymi. Aby podążać za analogią autostrady, wciąż istnieje wiele firm stosujących kolejki liniowe lub stary standard ETL (ekstrakcja-transformacja-obciążenie); ale ścieżki te mają niskie ograniczenia prędkości i jest wiele dziur; ponadto koszty utrzymania są często wygórowane; oznakowanie jest słabe.

Kafka oferuje alternatywną metodę dostarczania danych, która jest zdecydowanie w czasie rzeczywistym, skalowalna i trwała. Oznacza to, że Kafka jest nie tylko nośnikiem danych, ale także replikatorem danych; oraz do pewnego stopnia technologia rozproszonej bazy danych. Powinniśmy uważać na zbyt daleko posuniętą analogię, ponieważ istnieją cechy baz danych zgodnych z ACID, których Kafka jeszcze nie uprawia. Mimo to zmiana jest prawdziwa.

To świetna wiadomość dla krajobrazu informacyjnego, ponieważ dane można teraz swobodnie przemieszczać po kraju - i na całym świecie. To, co kiedyś było bolesnym ograniczeniem, a mianowicie uderzanie w okna partii dla procesów ETL, teraz rozprasza się, ponieważ mgła ustępuje miejsca czystemu niebu pod blaskiem gorącego słońca. Gdy przenoszenie danych z jednego systemu do drugiego staje się granicą, staje się era nowych możliwości.

Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia

Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.

Ludzie prawdopodobnie będą stanowić największe tarcie na drodze do nowej przyszłości danych. Stare zwyczaje umierają ciężko. Nawet CIO nie jest zbyt podekscytowany wprowadzaniem hurtowych zmian w systemach korporacyjnych. Jeden z doświadczonych rangą dyrektorów powiedział: „Przygotuj się na samotność”. W ciągu roku od tego komentarza był konsultantem. Nie jest to łatwa ścieżka, próbująca zarządzać niezwykle nieporęcznym światem danych korporacyjnych.

Dobrą wiadomością jest to, że Kafka zapewnia rampę na przyszłość. Ponieważ służy jako wielopłaszczyznowa magistrala o dużej mocy, tworzy pomosty między starszymi systemami a ich przyszłościowymi odpowiednikami. W ten sposób organizacje, które skorzystają z tej nowej okazji z otwartymi umysłami i wystarczającym budżetem, będą mogły wkroczyć do nowego świata, nie pozostawiając za sobą starego. To naprawdę poważna sprawa.

W dół do biznesu

Podczas gdy Apache Kafka jest technologią typu open source, z której każdy może pobrać i korzystać bezpłatnie, ludzie, którzy stworzyli to oprogramowanie dla LinkedIn, wyodrębnili odrębny podmiot o nazwie Confluent, który koncentruje się na ulepszeniu oferty do użytku korporacyjnego. Podobnie jak Cloudera, Hortonworks i MapR zbudowały swoje firmy wokół projektu Apache Hadoop typu open source, więc Confluent stara się zarabiać na Kafce.

W ostatnim wywiadzie InsideAnalysis, CEO i współzałożyciel Confluent Jay Kreps wyjaśnił swoje pochodzenie na LinkedIn:

„Próbowaliśmy tam rozwiązać kilka różnych problemów. Jednym z nich było to, że mieliśmy te wszystkie różne systemy danych z różnymi rodzajami danych. Mieliśmy bazy danych i mieliśmy pliki dziennika oraz dane o serwerach i użytkownicy klikali różne rzeczy. Zebranie wszystkich tych danych - gdy stało się duże - było naprawdę trudne. Potęga danych istniała tylko wtedy, gdy można było dostać się do aplikacji, przetwarzania lub systemów, które tego potrzebowały. To był duży problem.

„Innym problemem, jaki mieliśmy, było to, że przyjęliśmy Hadoop, i właśnie w to byłem zaangażowany. Mieliśmy fantastyczną platformę przetwarzania offline, którą mogliśmy skalować i moglibyśmy umieścić wszystkie nasze dane. Dla LinkedIn wszystkie nasze dane wydarzyły się naprawdę czas. Ciągłe generowanie danych. Zawsze istniało takie niedopasowanie, gdy próbowaliśmy faktycznie zbudować kluczowe części biznesu z naszych danych; między czymś, co działało raz dziennie, może w nocy, i generowało wyniki następnego dnia, i tego rodzaju ciągłych danych - krótkich czasów interakcji - z którymi musieliście nadrobić zaległości. Chcieliśmy być w stanie zrobić coś, co istniało przez jakiś czas w środowisku akademickim, ale nie było tak naprawdę głównym nurtem, jakim jest możliwość wykorzystuj i przetwarzaj strumienie danych w momencie, w którym zostały wygenerowane, a nie w trakcie ich przesyłania ”.

Dobrze. To dokładnie to, co Confluent chce teraz zrobić z danymi korporacyjnymi wszystkich kształtów i rozmiarów. Okazja w grze? Zielone pole. Szczerze mówiąc, w całej historii oprogramowania dla przedsiębiorstw można argumentować, że adresowalny rynek dla tej technologii absolutnie bierze wyzwanie. Nie ma ani jednej dużej organizacji, ani nawet dużej firmy zajmującej się przetwarzaniem danych, która nie mogłaby czerpać dużych korzyści z tej technologii.

Jest to szczególnie prawdziwe ze względu na neurologiczny aspekt tej technologii; nie tylko zaangażowane umysły, ale natura tego, co Kafka robi dla systemów informatycznych. Ponieważ Kafka może być wykorzystywany do zarządzania przepływem danych w organizacji, może być postrzegany jako coś więcej niż policjant ruchu, ale raczej mózg samej operacji. Byliśmy na wczesnym etapie tej wizji, ale zapewniamy, że jest prawdziwa.

Jak Kafka zmieni zarządzanie danymi

Aby zrozumieć, jak Kafka zmieni charakter zarządzania danymi, zastanów się, w jaki sposób LinkedIn zmienił sieć. Znalezienie współpracowników stało się o wiele łatwiejsze; utrzymywanie kontaktu z ludźmi jest teraz bardzo proste. Kafka zrobi dla systemów informatycznych to, co LinkedIn robi dla ludzi biznesu: utrzymuj ich łączność w najszerszych obszarach świata.

Podział Confluent jest symbolem czegoś, co moglibyśmy nazwać Nową Innowacją, ruchem napędzanym przez oddzielenie rozwoju oprogramowania i mentalność zamkniętego źródła, kierowaną przez twórców technologii open source, napędzaną przez duże ilości kapitału wysokiego ryzyka, generowane przez monetyzację firmy nastawione na zysk, które chcą zrewolucjonizować sposób, w jaki organizacje i ludzie tworzą, gromadzą, analizują i wykorzystują dane.

Cytując Franza Kafkę: „Od pewnego momentu nie ma już odwrotu. To jest punkt, który należy osiągnąć”.

Minęliśmy Rubikon. Nie ma już odwrotu.