Pęd do przodu: poruszanie się w relacjach poza tradycją

Na wynos: Prowadzący Eric Kavanaugh omawia innowacje w technologii baz danych z ekspertami Dezem Blanchfieldem, Robin Bloor i Bertem Scalzo.

Obecnie nie jesteś zalogowany. Zaloguj się lub zarejestruj, aby zobaczyć wideo.

Eric Kavanagh: Panie i panowie! Jest środa, o czwartej czasu wschodniego. Jestem w Nowym Orleanie, nadchodzi lato, co oznacza, że jest gorąco! Czas na Hot Technologies, tak, rzeczywiście tak. Nazywam się Eric Kavanagh, będę twoim gospodarzem. Mam zamiar kopnąć piłkę tutaj dla Hot Technologies. Dzisiejszy temat brzmi: „Naprzód pędu: przenoszenie relacji poza tradycyjne”. Ludzie, mamy dzisiaj przez telefon trzech ekspertów od baz danych, więc wszelkie pytania, które są trudne, nie są nieśmiałe. Mamy dziś dla Ciebie mnóstwo dobrych treści. Naprawdę jest miejsce w twoim, wystarczająco dużo o mnie. Oczywiście ten rok jest gorący. W tym programie mówimy o gorących technologiach, które są partnerstwem naszych przyjaciół z Techopedia. Idziemy dziś do podstaw zarządzania informacjami, którym jest oczywiście baza danych. Porozmawiamy o tym, jak się tu dostaliśmy, co się dzisiaj dzieje i co będzie dalej. Wiele ciekawych rzeczy się dzieje.

Oczywiście mamy poważne innowacje w obszarze bazy danych. Przez chwilę było trochę cicho; jeśli porozmawiasz z niektórymi analitykami w branży, powiedziałbym, że prawdopodobnie od roku 2005 do 2009 lub „10”, nie wyglądało na to, żeby działo się zbyt wiele pod względem innowacji.I nagle wybuchła jak więzienie czy coś takiego, a teraz dzieje się wiele interesujących rzeczy. Wiele z tego wynika ze skali sieci i wszystkich fajnych właściwości sieci, które robią różne ciekawe rzeczy. Stąd pochodzi koncepcja NoSQL. A to oznacza dwie różne rzeczy: nie oznacza SQL, ponieważ nie obsługuje SQL, oznacza także nie tylko SQL. Istnieje termin „NewSQL”, którego używali niektórzy ludzie. Ale oczywiście SQL - Structured Query Language - naprawdę jest podstawą, jest bazą zapytań.

Co ciekawe, wszystkie te silniki NoSQL, co się stało? Cóż, wyszli, było podekscytowanie, a kilka lat później, co wszyscy zaczęliśmy słyszeć? Och, SQL na Hadoop. Cóż, wszystkie te firmy zaczęły nakładać interfejsy SQL na swoje narzędzia NoSQL, a każdy, kto jest w świecie programowania, wie, że doprowadzi to do pewnych wyzwań i trudności, a także do skrzyżowania przewodów i tak dalej. Więc dzisiaj dowiemy się o wielu takich rzeczach.

Mamy naszych trzech prezenterów: dzwoni do nas Dez Blanchfield z Sydney, nasz własny Robin Bloor, który jest w Teksasie, podobnie jak Bert Scalzo, on też jest w Teksasie. Przede wszystkim usłyszymy Deza Blanchfielda. Ludzie, będziemy tweetować na hashtagu #HotTech, więc zachęcamy do komentowania lub zadawania pytań za pośrednictwem komponentu Pytania i odpowiedzi w konsoli webcastu, a nawet przez okno czatu. I z tym, Dez Blanchfield, zabierz to.

Dez Blanchfield: Dziękuję, Eric. Cześć wszystkim. Postaram się więc ustawić scenę z punktu widzenia 30 000 stóp tego, co wydarzyło się w ciągu ostatniej dekady, i znaczących zmian, które widzieliśmy - a przynajmniej przynajmniej półtorej dekady - systemy zarządzania bazami danych oraz niektóre wpływy z komercyjnego lub technicznego punktu widzenia, a także niektóre trendy, które znosiliśmy ostatnio, i prowadzą nas do rozmowy, która odbędzie się dzisiaj na ten temat.

Moje zdjęcie na okładkę to wydma, a na jej szczycie wieją drobne kawałki piasku. W rezultacie wydma powoli przechodzi z jednej przestrzeni do drugiej. To niesamowite zjawisko, w którym te ogromne, wysokie na 40 i 50 stóp góry piasku faktycznie się poruszają. I poruszają się bardzo powoli, ale poruszają się pewnie, a gdy się poruszają, zmieniają krajobraz. I to jest coś do oglądania, jeśli spędzasz w ogóle czas w obszarze, w którym wydmy są naturalną rzeczą. Ponieważ pewnego dnia możesz wyjrzeć przez okno i zdać sobie sprawę, że ta masywna góra piasku, małe maleńkie ziarenka same w sobie poruszyły się, a wiatr powoli przesuwa je z jednego miejsca na drugie.

I myślę, że na wiele sposobów to był świat systemów baz danych od dłuższego czasu. Do niedawna bardzo małe przesunięcie w postaci ziaren piasku poruszało gigantyczną górą piasku w postaci wydmy. Na przestrzeni lat pojawiły się niewielkie zmiany w platformach baz danych, a było to dość stabilne i solidne środowisko wokół systemów baz danych i platform, dzięki komputerom mainframe ery średniego zasięgu. Ale ostatnio zdarzyło się kilka dość znaczących rzeczy, które przydarzyły się naszym potrzebom komercyjnym i naszym kierowcom technicznym. Przeprowadzę nas przez to.

Uważam, że podstawowa koncepcja bazy danych, którą znaliśmy przez wiele, wiele lat i jak zapewne słyszeliście w czasie przedwstępnej rozmowy, nasi dwaj eksperci, którzy są dziś ze mną na telefon, mieli całe życie w tę przestrzeń i mają rację dzieląc się chwalonymi prawami bycia tam, kiedy wszystko zaczęło się na początku lat 80. Ale widzieliśmy tę ogromną zmianę w ciągu ostatniej dekady i trochę i zamierzam szybko przeprowadzić nas przez nią, zanim przekażę to doktorowi Robin Bloor.

Przeszliśmy przez to, co nazywam „większym, lepszym, szybszym, tańszym” doświadczeniem. Jak powiedziałem, definicja bazy danych uległa zmianie. Zmienił się także krajobraz, w którym platformy baz danych musiały uwzględniać wydajność, a także wymagania techniczne i handlowe. Zauważyliśmy wzrost zapotrzebowania na rozwiązania do obsługi bardziej złożonych wymagań komercyjnych lub bardziej złożonych wymagań technicznych. I tak naprawdę, moim zdaniem, bardzo szybkie spojrzenie na to, co to właściwie oznacza, to fakt, że doszliśmy do lat 90. i zauważyliśmy, że technologia baz danych wpłynęła na wprowadzenie Internetu i coś, co nazywaliśmy wtedy internetem skala. Nie mówiliśmy tylko o ludziach siedzących przed terminalami, pierwotnie takich jak terminale teletekstowe z wbudowanymi fizycznymi liczbami i 132 kolumnami wychodzącymi w formie papierowej. Potem wczesne zielone terminale ekranowe, uderzające w klawiatury.

Ale wiesz, naszym światem były terminale i kable szeregowe lub kable sieciowe przez długi czas rozmawiające z komputerami. Potem pojawił się internet i gwałtowny wzrost łączności, że nie trzeba już podłączać się do komputera. Aby dostać się do systemu baz danych, wystarczy przeglądarka internetowa. Tak więc technologia baz danych musiała się radykalnie zmienić, aby poradzić sobie ze skalą wszystkiego, od podstawowych technologii wyszukiwarek używanych do indeksowania świata i przechowywania indeksu informacji, na przykład skali formatu bazy danych. Ludzie tacy jak Google i inni zapewnili platformę do tego. Opracowano wszystkie nowe typy pamięci, zapytań i indeksowania baz danych. Potem pojawiły się strony muzyczne i filmowe.

A potem, w 2000 roku, zobaczyliśmy boom internetowy, który spowodował jeszcze bardziej dramatyczną eksplozję liczby osób korzystających z systemów, które niezmiennie były zasilane przez bazę danych jakiejkolwiek formy. Na tym etapie relacyjne bazy danych nadal radziły sobie z większością obciążeń, po prostu umieściliśmy je w większej puszce i w pewnym sensie przeszliśmy do bardzo, bardzo, bardzo dużych systemów klasy średniej, obsługujących platformy Unix od ludzi takich jak IBM i Sun itd. . Boom dot-com sprawił, że wszystko stało się większe i szybsze z punktu widzenia sprzętu i wydajności, i nastąpiły pewne znaczące zmiany w silnikach baz danych, ale co więcej, nadal było to to samo, co widzieliśmy dla długi czas.

A potem mamy epokę web 2.0, jak ją nazywamy. To była monstrualna zmiana, ponieważ nagle potrzebowaliśmy znacznie prostszych platform baz danych i musiała istnieć skala w formie poziomej. Była to tak znacząca zmiana w podejściu do pomysłu, czym jest baza danych. Moim zdaniem nadal naprawdę nadrabiamy zaległości. A teraz mamy do czynienia z tym całym trzęsawiskiem i mówię, że z pozytywnym obrotem, a nie z negatywną konotacją, to bagno tego, co nazywamy big data, i ogromną eksplozją, a mam na myśli eksplozję. To oburzające przesunięcie w pionie na wykresie liczby opcji, które mamy, gdy mówimy o bazie danych, i pewnej formie możliwości relacyjnych zapytań.

Co ciekawe, osobiście uważam, że big data to tak naprawdę wierzchołek góry lodowej. Mamy tendencję do podekscytowania tym, jaki był wpływ dużych zbiorów danych i jakie mamy możliwości wyboru. Mamy wszystko od silników NoSQL, mamy silniki grafów, mamy te wszystkie rodzaje platform, na których możemy rzucać danymi i robić z nimi różne rzeczy. Nawet do tego stopnia, że w rzeczywistości, jedna z pierwszych rozmów, które przeprowadziłem z Erikiem Kavanaghem, który jest tu dzisiaj z nami, dotyczyła rozmowy o nazwie Apache Drill, która jest projektem typu open source, który pozwala zapytać dane wewnątrz modelują różne typy danych: od surowych plików CSE na twardym dysku po systemy plików HDFS w skali petabajtowej. I wiesz, pozwala ci wykonywać zapytania w stylu SQL ustrukturyzowanych i nieustrukturyzowanych danych różnego rodzaju ekscytujących roślin.

Niedługo zobaczymy, jak „inteligentny budynek” staje się rzeczą i chcielibyśmy myśleć, że mamy inteligentne budynki bezpieczeństwa i zarządzania ciepłem, ale mówię o inteligentnych budynkach, które wiedzą znacznie więcej o tym, kim jesteś i gdzie jesteś, kiedy wchodzisz i robisz różne porządne rzeczy na tym poziomie, aż do inteligentnych miast - całych ekosystemów na poziomie miast - które potrafią robić rzeczy inteligentnie. Poza tym mamy tę niesamowitą rzecz, której nie sądzę, by ktokolwiek na świecie był w pełni zrozumiany, a to jest forma Internetu rzeczy. W ciągu ostatniej dekady zaszły wszystkie te różne zmiany, a może nieco ponad dwie dekady, jeśli je podsumujemy, które, moim zdaniem, właśnie wpłynęły na świat tego, co uważamy za bazy danych.

Było kilka istotnych rzeczy, które sprawiły, że to w ogóle możliwe. Koszt dysków twardych dramatycznie spadł i na wiele sposobów to umożliwiło obsługę niektórych architektur referencyjnych, takich jak model Hadoop, ponieważ pobieramy dużo danych i rozprowadzamy je na wielu dyskach twardych, oraz rób z nim mądre rzeczy. I w efekcie, co stało się fragmentowanie, moim zdaniem, relacyjnej bazy danych lub tradycyjnego modelu jednostki DB. A pamięć RAM stała się bardzo, bardzo tania, co dało nam zupełnie nową okazję do grania z różnymi architekturami referencyjnymi, takimi jak w pamięci, i do wykonywania takich czynności, jak dzielenie bardzo dużych brył danych.

To dało nam ten mały obraz, na który patrzymy teraz, który jest diagramem pokazującym typy platform, które są dostępne, jeśli jesteś w środowisku dużych zbiorów danych. Jest to bardzo, bardzo trudne do odczytania, a powodem tego jest po prostu zbyt wiele informacji na ten temat. Jest tak wiele opcji tworzenia, modelowania i produkcji sposobów wprowadzania danych do systemów baz danych dowolnej formy, przeszukiwania ich i wykonywania tradycyjnych operacji odczytu i zapisu. I nie wszystkie są zgodne, w rzeczywistości bardzo niewiele z nich jest nawet zgodnych z dowolnym podstawowym standardem stylu, ale nadal uważają się za bazę danych. Pokażę ci kilka ekranów w ciągu sekundy, aby dać ci trochę zrozumienia, co mam na myśli, mówiąc o przejściu z lat 90. i skali internetowej na Web 2.0, a następnie cały rozwój dzięki big data. Jeśli uważamy, że ten wykres krajobrazowy technologii dużych zbiorów danych jest ekscytujący, ponieważ zawiera wiele opcji, rzućmy okiem na jedną kluczową pozycję pionową.

Spójrzmy na technologię marketingową. Oto opcje systemów zarządzania bazami danych lub zarządzania danymi tylko w przestrzeni mar-tech, czyli technologii związanej z marketingiem. To było w 2011 roku, a więc kilka lat temu; pięć lat temu tak wyglądał krajobraz. Jeśli w skrócie cofnę się o jeden slajd, tak wygląda dzisiejszy krajobraz danych w różnych markach i ofertach w zakresie technologii baz danych. Tak wyglądała jedna branża pięć lat temu, tylko w technologii marketingowej.

Jeśli przejdę do dzisiejszego widoku, tak to wygląda i jest całkowicie nieprzeniknione. To tylko ta ściana marek i opcji oraz tysiące kombinacji oprogramowania, które uważa się za klasę bazy danych, która może przechwytywać, tworzyć lub przechowywać i pobierać dane w różnych formach. I myślę, że wkraczamy teraz w bardzo, bardzo interesujący i odważny czas, w którym kiedyś można było poznać główne marki, można było poznać pięć lub sześć różnych platform od Oracle i Informix, DB2 i tak dalej, i być prawie ekspert od wszystkich marek, które były dostępne około 20 lat temu. Dziesięć lat temu stało się to trochę łatwiejsze, ponieważ niektóre marki upadły i nie wszystkie marki mogły poradzić sobie ze skalą boomu internetowego, a niektóre firmy właśnie się popsuły.

Dziś absolutnie niemożliwe jest bycie ekspertem we wszystkich istniejących technologiach baz danych, niezależnie od tego, czy są to relacyjne bazy danych, czy standardowe platformy zarządzania bazami danych, które poznaliśmy w ciągu ostatnich kilku dekad. A może tak jest w przypadku bardziej nowoczesnych silników, takich jak Neo4j i tego typu. Myślę więc, że wkraczamy w bardzo odważny świat, w którym dostępnych jest wiele opcji, i mamy platformy w skali na poziomie, albo w pamięci, albo na dysku. Myślę jednak, że to trudny czas dla decydentów technologicznych i biznesowych, ponieważ muszą oni podejmować bardzo duże decyzje dotyczące stosów technologii, które w niektórych przypadkach istniały dopiero od miesięcy. Osiemnaście miesięcy nie jest teraz przerażającą liczbą dla niektórych bardziej ekscytujących i nowych platform baz danych typu open source. I zaczynają łączyć platformy, stając się jeszcze nowszymi i bardziej ekscytującymi.

Myślę, że dzisiaj przeprowadzimy świetną rozmowę na temat tego, jak to wszystko wpłynęło na tradycyjne platformy baz danych i jak na nie reagują oraz jakie technologie są do tego wprowadzane. Mając to na uwadze, przekażę teraz doktorowi Robin Bloor i uzyskam jego spostrzeżenia. Robin, do ciebie.

Robin Bloor: Okej, dzięki za to. Tak, to zbyt duży temat. Mam na myśli, że jeśli właśnie zrobiłeś kawałek jednego z ilustracji, które pokazał ci Dez, możesz odbyć długą rozmowę na temat jednego z tych kawałków. Ale wiesz, możesz przejść do bazy danych - patrzę na bazy danych, nie wiem, od lat 80. XX wieku i możesz patrzeć na bazę danych na różne sposoby. I jedną z rzeczy, które wymyśliłem, że zrobię, po prostu wrzucę dziś do rozmowy, było mówienie o tym, dlaczego na poziomie sprzętu nastąpiły zakłócające rzeczy. Trzeba też pamiętać, że na poziomie oprogramowania wydarzyło się naprawdę wiele destrukcyjnych rzeczy, więc nie jest to pełny obraz niczego, to tylko kwestia sprzętowa.

Nie zamierzałem też długo rozmawiać, chciałem tylko dać obraz sprzętu. Baza danych to funkcje pobierania danych obejmujące procesor, pamięć i dysk, a to się dramatycznie zmienia. Powodem, dla którego to mówię, było to, że nauczyłem się rozumieć bazę danych z perspektywy tego, co faktycznie zrobiłeś. Wiesz, istnieje różnica w opóźnieniu między danymi faktycznie znajdującymi się na procesorze, a danymi pobieranymi do procesora z pamięci, a danymi pobieranymi z dysku do pamięci i przez procesor. Stare architektury baz danych próbowały to zrównoważyć. Wiesz, mówili tylko: „Cóż, dzieje się to bardzo wolno, buforujemy dane na dysku, więc są w pamięci. Spróbujemy to zrobić w bardzo dokładny sposób, aby naprawdę duża część danych, o które prosimy, była już w pamięci. I wprowadzimy dane do procesora tak szybko, jak to możliwe ”.

Bazy danych były pisane w dawnych czasach maszyny pisane są dla małych klastrów. A teraz dla ignorantów równoległości. Ponieważ jeśli chcesz uzyskać pewną wydajność z klastra, musisz robić różne rzeczy równolegle. Równoległość jest częścią gry, zupełnie jak teraz. Po prostu przejdę przez to, co się stało.

Przede wszystkim dysk. Cóż, dysk naprawdę się skończył. To już prawie koniec, jeśli chodzi o bazy danych. Myślę, że istnieje wiele wad archiwizacji danych, a nawet bardzo duże jeziora danych uruchomione na Hadoop, najgorszy wirujący dysk jest prawdopodobnie obecnie wykonalny. Naprawdę problem z wirującym dyskiem polegał na tym, że prędkości odczytu nie poprawiły się szczególnie. A kiedy procesor wzrastał, prawa Moore'a były o rząd wielkości, coraz szybsze co sześć lat. A wspomnienia podążały za nimi, wtedy ci dwaj rozsądnie dotrzymywali sobie kroku, nie było całkowicie gładkie, ale tak zrobili.

Ale losowy odczyt na dysk, na którym głowa leci wokół dysku, to znaczy, oprócz wszystkiego innego, jest to ruch fizyczny. A jeśli wykonujesz losowe odczyty z dysku, jest on niezwykle powolny w porównaniu do odczytu z pamięci, jest około 100 000 razy wolniejszy. Niedawno większość architektur baz danych, które przyjrzałem się dogłębnie, właśnie odczytywała serio z dysków. Naprawdę chcesz, w taki czy inny sposób, po prostu zbuforować jak najwięcej z dysku, wyciągnąć go z tego wolnego urządzenia i umieścić na szybkim urządzeniu. Jest wiele inteligentnych rzeczy, które możesz z tym zrobić, ale to już koniec.

A dyski półprzewodnikowe lub dyski flash, tak naprawdę są, bardzo szybko zastępują wirujący dysk. I to się całkowicie zmienia, ponieważ sposób, w jaki dane są zorganizowane na dysku, jest zorganizowany zgodnie ze sposobem działania dysku. W rzeczywistości chodzi o głowę poruszającą się po wirującej powierzchni, w rzeczywistości wiele głowic poruszających się po wielu wirujących powierzchniach i zbierających dane w miarę ich przemieszczania. Dysk SSD to tylko fragment rzeczy, które można przeczytać. To znaczy, po pierwsze, wszystkie tradycyjne bazy danych zostały zaprojektowane do obracania dysku, a teraz są przeprojektowane dla SSD. Prawdopodobnie nowe bazy danych - każdy, kto pisze teraz nową bazę danych, może prawdopodobnie zignorować wirujący dysk, w ogóle o tym nie myśleć. Ale Samsung, główny producent dysków SSD, mówi nam, że dyski SSD są zgodne z krzywą prawa Moore'a.

Sądzę, że były już około trzy do czterech razy szybsze niż wirujący dysk, ale teraz będą zasadniczo szybsze co 18 miesięcy. Podwójna prędkość i 10-krotna prędkość do około sześciu lat. Gdyby tak było, to nie jest to, o czym powiem za chwilę. Wirujący dysk staje się oczywiście nośnikiem do archiwizacji.

O pamięci. Po pierwsze, RAM. Stosunek procesora między pamięcią RAM na procesor cały czas rośnie. I w pewnym sensie zapewnia to o wiele większą prędkość, ponieważ akry pamięci, które możesz mieć teraz, mogą pomieścić znacznie więcej. W rzeczywistości zmniejsza to presję na aplikacje typu MLTP lub aplikacje do odczytu losowego, ponieważ łatwiej jest je obsłużyć, ponieważ masz teraz dużo pamięci i w ten sposób możesz buforować wszystko, co jest prawdopodobnie zostanie wczytany do pamięci. Ale napotykasz problemy z większą stertą danych, więc duże zbiory danych nie są wcale takie proste.

A potem mamy Intel z 3D Xpoint, a IBM z tak zwaną PCM, czyli pamięcią z przemianą fazową, dostarcza coś, co według nich jest - cóż, jest co najmniej 10 razy szybsze niż obecne dyski SSD i wierzą, że to się uda bardzo bliski bycia tą samą prędkością co RAM. I oczywiście jest tańszy. Tak więc wcześniej posiadałeś taką strukturę bazy danych, procesor, pamięć i dysk, a teraz przechodzimy w kierunku struktury, która ma cztery warstwy. Ma procesor, pamięć lub pamięć RAM, a następnie pamięć szybszą niż SSD, która w rzeczywistości jest nieulotna, a następnie SSD. A te nowe technologie są nielotne.

Jest też memristor HP, który jeszcze nie jest, wiesz, ponieważ został ogłoszony około siedmiu lat temu, ale jeszcze się nie pojawił. Ale plotki, które słyszę, mówią, że HP zmieni trochę grę również za pomocą memristora, więc masz tylko nową sytuację w pamięci. To nie tak, że mamy szybsze rzeczy, to tak, jakbyśmy mieli zupełnie nową warstwę. A potem mamy fakt, że dostęp do SSD można czytać równolegle. Nie możesz czytać obracającego się dysku równolegle, z wyjątkiem wielu różnych obracających się dysków. Ale blok SSD, można faktycznie czytać równolegle. A ponieważ można to odczytać równolegle, idzie on znacznie szybciej niż proste prędkości odczytu, jeśli faktycznie skonfigurowałeś wiele procesów w różnych procesach na jednym procesorze i po prostu masz to z dyskiem SSD.

Szacuje się, że w ten sposób można uzyskać prawie maksymalną prędkość pamięci RAM. I to wszystko mówi, że przyszłość architektury pamięci jest niejasna. Mam na myśli, że w rzeczywistości różni dominujący dostawcy, kimkolwiek się okażą, prawdopodobnie określą kierunek sprzętu. Ale nikt nie wie, dokąd to zmierza. Rozmawiałem z niektórymi inżynierami baz danych, którzy mówią: „Nie boję się tego, co się dzieje”, ale nie wiedzą, jak to zoptymalizować od samego początku. I zawsze tak robiłeś, więc to interesujące.

A potem jest procesor. Cóż, procesory wielordzeniowe nie były tylko procesorami wielordzeniowymi. Mamy też znaczną pojemność pamięci podręcznej L1, L2 i L3, szczególnie L3, która jest, nie wiem, dziesiątkami megabajtów. Wiesz, możesz dużo tam umieścić. W związku z tym można faktycznie używać układu jako nośnika pamięci podręcznej. To zmieniło grę. I z pewnością, w przypadku przetwarzania wektorowego i kompresji danych, wielu producentów faktycznie to zrobiło, przeciągając te rzeczy na procesor, aby wszystko działało znacznie szybciej na procesorze. Otrzymujesz fakt, że procesory z procesorami graficznymi są naprawdę dobre w przyspieszaniu analiz. I są naprawdę całkiem dobrzy w niektórych rodzajach zapytań, zależy to tylko od tego, jakie jest twoje zapytanie.

Możesz albo tworzyć płyty główne z procesorami i procesorami graficznymi, albo, gdy AMD właśnie to robi, tworzysz coś, co nazywa się APU, co jest rodzajem połączenia CPU i GPU; ma na sobie oba rodzaje możliwości. To inny rodzaj procesora. A potem ostatnie oświadczenie Intela, że zamierzają umieścić układ FPGA na chipie, to coś w rodzaju mojej głowy. Zastanawiałem się: „Jak, u licha, to się stanie?” Bo jeśli masz możliwość CPU, GPU, a ty masz możliwość CPU, FPGA - a przy okazji, jeśli naprawdę chcesz, na tej samej płycie możesz umieścić procesor, GPU i FPGA. Nie mam pojęcia, w jaki sposób faktycznie działałbyś w ten sposób, ale znam firmy, które robią takie rzeczy i otrzymują bardzo, bardzo szybkie odpowiedzi na zapytania. To nie jest coś, co należy zignorować, to będzie coś, co będzie wykorzystywane przez uznanych dostawców i być może przez nowych dostawców. DBMS zawsze były równoległe, ale teraz możliwości równoległe właśnie eksplodowały, ponieważ pozwala to na zrównanie tego z tym, z tym, na różne sposoby.

Wreszcie, aby zwiększyć lub zmniejszyć? Skalowanie w górę jest naprawdę najlepszym rozwiązaniem, ale z jednej strony. Uzyskujesz znacznie lepszą wydajność węzła, jeśli możesz po prostu absolutnie zoptymalizować wydajność procesora i pamięci na dysku w jednym węźle. Użyjesz mniej węzłów, więc będzie taniej, prawda? I łatwiej będzie nim zarządzać. Niestety jest to projekt zależny od sprzętu, a wraz ze zmianami sprzętu staje się to coraz mniej możliwe, chyba że inżynierowie będą mogli działać tak szybko, jak zmienia się sprzęt. Występują problemy z obciążeniem pracą, ponieważ zwiększając skalę, przyjmujesz różne założenia dotyczące tego, co będzie robić.

Jeśli skalujesz w dół, to znaczy, jeśli twoja architektura podkreśla skalowanie przed skalowaniem - w rzeczywistości musisz zrobić je oba, po prostu podkreślasz jedno. Wtedy uzyskasz lepszą wydajność sieci, ponieważ architektura sobie z tym poradzi. Będzie to droższe pod względem sprzętowym, ponieważ będzie więcej węzłów, ale będzie mniej problemów z obciążeniem i będzie bardziej elastyczny projekt.

Pomyślałem, że wrzucę to, bo jeśli pomyślisz o wszystkich zmianach sprzętowych, wskazałem na nie palcem, a potem pomyślałeś, w jaki sposób zamierzasz skalować i skalować na tych rzeczach? Wtedy zdajesz sobie sprawę, że inżynierowie baz danych są, moim zdaniem, dobrze niedostatecznie wynagradzani. Jeśli więc zastanowisz się nad warstwą sprzętową, wyzwania związane z bazą danych są jasne. Teraz przekazuję to Bercie, który sprawi, że wszyscy poczujemy się wykształceni.

Eric Kavanagh: Otóż to! Bert?

Bert Scalzo: Dziękuję Ci bardzo. Pozwól, że przejdę prosto do tych slajdów. Mam wiele slajdów do przejścia, więc na kilku z nich mogę przejść dość szybko. Będziemy rozmawiać o tym „Forward Momentum: Moving Relational Beyond Traditional”. To już nie jest baza danych twojego ojca. Wszystko się zmieniło i, jak powiedział wcześniejszy mówca, w ciągu ostatnich sześciu do siedmiu lat krajobraz zmienił się radykalnie.

Sam robię bazy danych od połowy lat 80-tych. Pisałem książki na temat Oracle, SQL Server, testów porównawczych i wielu innych rzeczy. „Świat zmienia się bardzo szybko. Big już nie pokona małych. To będzie szybkie pokonanie powolności. ”Dodałem„ przystosować się ”. To było od Ruperta Murdocha. Naprawdę wierzę, że to będzie prawda. Nie będziesz w stanie robić baz danych tak, jak robiłeś to 10, 15, 20 lat temu. Musisz to zrobić tak, jak chce tego teraz firma.

Spróbuję pozostać trochę ogólny w tym, co prezentuję, ale większość funkcji, o których mówię, znajdziesz w Oracle, znajdziesz w SQL Server, MySQL, MariaDB i niektórych innych dużych gracze. Rewolucja w relacyjnych bazach danych, poniekąd zgadzam się z wcześniejszymi mówcami. Jeśli spojrzysz około roku 2010, przeszliśmy z czerwonego samochodu wyścigowego na żółty samochód wyścigowy. Nastąpiła znacząca zmiana, a do 2020 roku, wierzę, że zobaczysz kolejną radykalną zmianę. Jesteśmy w bardzo interesującym czasie.

Ten slajd jest kluczem, dlatego umieściłem tam klucz. Trwa cała ta zmiana, a po lewej stronie mam technologię, a po prawej mam biznes. Pytanie brzmi: który z nich powoduje, a który wspiera, który? Mamy te wszystkie zmiany sprzętowe: dyski spadają, rozmiar dysku rośnie, nowe typy dysków, tak, jak to było w przypadku wcześniejszych głośników. Cena spadającej pamięci, wszystkie te nowsze wersje baz danych. Ale po prawej stronie mamy ochronę i zgodność danych, hurtownię danych, inteligencję biznesową, analizy, obowiązkowe zatrzymywanie danych. Obie strony równania prowadzą, a obie strony równania wykorzystają wszystkie te nowe funkcje.

Przede wszystkim mamy nasz typowy wirujący dysk SAS, mają teraz do 10 terabajtów. Jeśli nie widzieliście, Western Digital, HGST ma tak zwany napęd helowy, który obecnie rośnie do około 10 terabajtów. Koszty wirującego dysku stają się dość niskie. Jak wspomniano wcześniej, można uzyskać dyski półprzewodnikowe o wielkości do około dwóch terabajtów, ale wkrótce Samsung ma jednostkę 20 terabajtów. Koszty stają się rozsądne. Jedną rzeczą, o której powiem o innych, nie jest koncepcja dysków flash. PCIe, czyli PCI Express, w przeciwieństwie do NVMe, być może słyszałeś o tej nieulotnej ekspresowej pamięci. Zasadniczo NVMe będzie zamiennikiem SAS i SATA, a tak naprawdę jest to raczej protokół komunikacyjny niż cokolwiek innego. Ale te dyski mają teraz do około trzech terabajtów.

Być może zauważyłeś, że niektóre dyski SAS są teraz wyposażone w złącza U.2, które są czymś innym niż złącze SAS lub SATA, które obsługują NVMe ze standardowym dyskiem - dysk oczywiście musi go obsługiwać. A potem SATA ze złączami M.2, a te zaczynają otrzymywać NVMe. W rzeczywistości niektórzy sprzedawcy notebooków sprzedają teraz notebooki z dyskiem flash NVMe, a te rzeczy będą krzyczeć w porównaniu z technologią, której używałeś wcześniej.

Wiele osób nie wie, jakie są te wszystkie błyski. Jeśli spojrzysz w prawym dolnym rogu, jest to przykład M.2. Możesz powiedzieć: „O rany, to wygląda bardzo podobnie do napędu mSATA po jego lewej stronie”. Ale jak widać, ma dwie luki w pinach w przeciwieństwie do jednej i jest nieco większy. Ponadto M.2 może występować w trzech różnych rozmiarach.

A potem flash PCI Express i flash NVMe. Teraz pamięć flash NVMe jest również PCI Express, ale PCI Express zwykle nadal jest algorytmem kontrolnym typu SAS lub SATA, który został napisany dla obracającego się dysku, a NVMe to algorytmy lub techniki napisane specjalnie dla pamięci flash. I znowu zobaczycie je wszystkie.

NVMe oferuje całkiem sporo rzeczy. Myślę, że dwie największe poprawki to, w prawym górnym rogu, opóźnienie jest zmniejszone nawet o 70 procent. Widziałem nawet jeszcze więcej. Ponadto, jeśli spojrzysz w prawy dolny róg, kiedy twój system operacyjny komunikuje się z dyskiem NVMe, przechodzi przez znacznie mniej poziomów oprogramowania. Zasadniczo przeglądasz sterownik NVMe, który jest teraz dołączony do systemu operacyjnego, i mówi wprost do mediów. Istnieje wiele powodów, dla których ta technologia radykalnie zmieni świat baz danych.

I wiele razy ludzie mówią: „No cóż, jak szybka jest NVMe?”. Wiesz, dawne dobre czasy, w 2004 roku i wcześniej, byliśmy podekscytowani, gdybyśmy mieli Ultra-320 SCSI, 300 megabajtów na sekundę. Dzisiejsze prędkości, wielu z was prawdopodobnie korzysta z Fibre lub InfiniBand i tego rodzaju doładowania. NVMe tam po prawej stronie zaczyna się tam, gdzie kończą się obecne technologie. Chodzi mi o to, że PCI Express 3.0 z ośmiopasmowym łączem zaczyna się od prawie 8000 i będzie wzrastać, gdy otrzymamy nowsze wersje PCI Express, wersje czwarte i tak dalej. NVMe nie ma dokąd pójść poza górą.

A jakie rzeczy zmieniają się w bazie danych? Teraz w prawym górnym rogu slajdów pokazuję powody biznesowe, które - jak sądzę - pojawiła się technologia. W takim przypadku, z powodu hurtowni danych oraz z powodów prawnych dotyczących obowiązkowego zatrzymywania danych, bazy danych zaczynają oferować w nich kompresję. Teraz niektóre bazy danych oferują kompresję jako dodatek, niektóre oferują ją jako wbudowaną w standard, powiedzmy edycję korporacyjną ich bazy danych, a jednak niektóre bazy danych, takie jak Oracle, mogą mieć nawet lepszą wersję kompresji, która w, powiedzmy, ich platformie Exadata, więc faktycznie zbudowali sprzęt, który może obsługiwać bardzo wyspecjalizowaną kompresję, a ta na przykład w Exadata ma współczynnik kompresji 40x, więc jest to bardzo znaczące. I myślę, że jest to obowiązkowe zatrzymywanie danych, ludzie po prostu chcą danych dłużej. Firmy, aby przeprowadzać analizy i analizy danych, potrzebują danych z ostatnich 5, 10, 15 lat.

Teraz kolejną funkcją, która zaczęła pojawiać się mniej więcej w tym okresie 2008, 2009 była partycjonowanie. Znów znajdziesz to w bazach danych, takich jak Oracle, SQL Server, i w obu tych musisz za to zapłacić. W Oracle musisz kupić opcję partycjonowania, aw SQL Server musisz być w wersji centrum danych. To twoja tradycyjna technika dziel i zwyciężaj, a tam, na górze, masz koncepcję logicznie dużego stołu, a kiedy zostanie umieszczony na dysku, w rzeczywistości jest podzielony na wiadra. Widzisz, że te segmenty są zorganizowane według niektórych kryteriów oddzielania, zwykle odwoływanych lub nazywanych funkcją partycjonowania, a następnie możesz również podzielić partycjonowanie na niektórych platformach baz danych i możesz pójść jeszcze dalej.

Ponownie myślę, że zarówno magazynowanie danych, jak i obowiązkowe zatrzymywanie danych spowodowały, że w niektórych bazach danych możesz mieć do 64 000 partycji, a w innych bazach danych nawet do 64 000 partycji. Pozwala to rozbić dane na łatwe do zarządzania części. Ty również podzielisz indeksy; jest to opcja, nie musisz, ale możesz także podzielić swoje indeksy na partycje. Jednym z powodów może być to, że masz przesuwane okno danych. Chcesz przechowywać dane z 10 lat, ale aby upuścić indeksy, aby uruchomić dzisiejsze ładowanie wsadowe, nie chcesz upuszczać indeksów w każdym wierszu, tylko w wierszach znajdujących się w bieżącym segmencie. Partycjonowanie jest w rzeczywistości bardzo dobrym narzędziem administracyjnym, chociaż większość ludzi uważa, że jego wielką zaletą jest rezygnacja z eliminacji partycji w twoich planach, a tym samym przyspieszenie twoich zapytań. To naprawdę rodzaj lukru na torcie.

Teraz prawdopodobnie słyszałeś o dzieleniu i prawdopodobnie myślisz: „No, dlaczego umieściłeś tutaj ten slajd?” To jest jeden z tych NoSQL - to jedno z tych środowisk typu Hadoop. Oracle 12c wydało dwa, które nie są jeszcze G8, ale które są pokazywane lub podglądane, mają w rzeczywistości sharding. Będziesz miał tradycyjny system bazy danych, taki jak Oracle, i będziesz mógł odłamkować tak jak w modelu Hadoop, a więc będziesz mieć inną technikę dzielenia i podbijania, która podzieli twoje rozłóż tabelę w rzędzie na grupy na węzeł i tak będzie - tak jak w niektórych bazach danych NoSQL. I właściwie MySQL, możesz to właściwie osiągnąć przy użyciu jednej z ich technik klastrowania, ale przychodzi do tradycyjnej bazy danych i domyślam się, że Microsoft nie będzie chciał zostać w tyle. Ci dwaj grają ze sobą skokową żabę, więc spodziewałbym się, że fragmentowanie może nastąpić w kolejnej wersji programu SQL Server.

Zarządzanie cyklem życia danych, ponownie obowiązkowe zatrzymywanie danych, ale także dla wywiadu gospodarczego i analiz. Naprawdę, jest to technika dziel i zwyciężaj, i zazwyczaj DBA robią to ręcznie, a to znaczy: „Mam zamiar zachować tegoroczne dane na szybkich dyskach, zeszłoroczne dane na nieco wolniejszych dyskach, może idę aby utrzymać ostatnie dwa lata na jeszcze wolniejszych dyskach, a potem będę miał jakąś metodę archiwizacji. ”Zazwyczaj nie jest już nagrywany, to zwykle - masz jakiś rodzaj pamięci podłączonej do sieci lub jakieś urządzenie, które ma wiele magazynowania i jest, wiesz, opłacalny, ale wciąż obraca się dysk.

I tak teraz możesz faktycznie - zarówno na Oracle, jak i na SQL Server - możesz kupić opcję, w której definiujesz reguły, a dzieje się to automatycznie w tle. Nie musisz już pisać skryptów, nie musisz nic robić. A jeśli widziałeś SQL Server 2016, który właśnie pojawił się w czerwcu, jest nowa funkcja o nazwie „Rozciągnij bazy danych”, która w zasadzie pozwala ci - w prawym dolnym rogu - przenieść się z wielu warstw bezpośrednio do chmury i znowu jest to funkcja wbudowana w bazę danych, wystarczy powiedzieć coś takiego: „Jeśli dane mają więcej niż 365 dni, przenieś je do chmury i, wiesz, zrób to dla mnie automatycznie”.

To będzie naprawdę fajna funkcja, w rzeczywistości myślę, że to może być to, co zobaczymy w przyszłości, czyli będziesz mieć hybrydowe bazy danych, w których będziesz przechowywać lokalne i niektóre w chmurze. Wcześniej ludzie myśleli: „Och, albo będę robił na miejscu, albo w chmurze”. Teraz widzimy połączenie dwóch technologii w ten hybrydowy sposób. Myślę, że będzie to dość duże i Microsoft dotarł tam pierwszy.

Redakcja wynika to z ochrony danych i zgodności. W dawnych dobrych czasach mogliśmy powiedzieć: „Hej, programista aplikacji, kiedy wyświetlasz to w raporcie, kiedy wyświetlasz to na ekranie, oto kilka kwestii bezpieczeństwa, które powinieneś sprawdzić i proszę, wiesz, pokaż tylko dane mają widzieć, maskować lub redagować dane, których nie powinni widzieć. ”Jak zwykle, kiedy wypychasz je do aplikacji, nie jest to robione w jednym miejscu, więc robi się inaczej lub nie. nie da się tego zrobić w niektórych miejscach. I tak teraz masz tę możliwość w swoich systemach baz danych.

Teraz w SQL Server 2016 ta funkcja jest wbudowana, więc, jak sądzę, nie jest to opcjonalna pozycja kosztów dodawania do centrum danych; a w Oracle 12 musisz kupić dodatek do zarządzania cyklem życia, ale jest to coś nowego i znów jest napędzany przez biznes. A zwłaszcza dlatego, że przechowujesz teraz tak dużo danych i zajmujesz się eksploracją danych, więc BI i analizy, musisz wiedzieć, kto uzyskuje dostęp do danych i upewniając się, że mogą tylko zobaczyć, co wolno im zobaczyć.

Podobnie, spójrzmy jeszcze raz na ochronę danych i zgodność. Przekonasz się, że wiele systemów baz danych buduje teraz kompresję, lub przepraszam, szyfrowanie bezpośrednio w bazie danych i co jest ważne w tym szyfrowaniu, jeśli spojrzysz na strzałkę w dół i strzałkę w górę na diagramie, który zapisuje na dysk zaszyfrowany, a następnie odczytuje go z powrotem do pamięci i odszyfrowuje. To właściwie jeden model, jest inny model, który, wiesz, faktycznie zrobiłby to tylko wtedy, gdy przesyła te dane przez sieć do rzeczywistej aplikacji klienckiej.

W takim przypadku nawet na serwerze bazy danych w pamięci mógłby zostać zaszyfrowany i odszyfrowany tylko wtedy, gdy zostanie przesłany do aplikacji klienckiej. Istnieją tutaj dwa różne modele, które znajdziesz w bazach danych, a jedną z baz danych, które właśnie to niedawno dodały, była MariaDB w ich wersji 10.X; Myślę, że są teraz w wersji 10.1 lub 10.2. I rzeczywiście przeprowadziłem testy porównawcze tego szyfrowania, a aby je uzyskać, doświadczyłem jedynie około 8-procentowego zmniejszenia przepustowości lub szybkości. W teście porównawczym szyfrowanie nie spowodowało tak wiele, więc jest to bardzo przydatna funkcja.

Teraz wspominaliśmy wcześniej o pamięci flash i dyskach SSD i podobnych rzeczach. Jedną z funkcji, które masz w Oracle i SQL Server, których wiele osób nie zdaje sobie sprawy, jest to, że możesz wziąć pamięć flash lub dysk SSD, który znajduje się na serwerze bazy danych, i możesz powiedzieć do bazy danych: „Używaj tego tak, jakby to była pamięć. Traktuj pamięć RAM jako preferencyjną, ale udawaj, że jest to wolna pamięć i użyj jej jako rozszerzonej pamięci podręcznej. ”Teraz w SQL Server 2014 pojawiło się to i nazywało się„ Rozszerzenie puli buforów ”, jest bezpłatne. W Oracle pojawił się w wersji 11g R2 i nazywał się „Database Flash Cache” i był tam również bezpłatny.

Radzę jednak ostrożnie przetestować tę funkcję. Za każdym razem, gdy powiększasz pamięć podręczną, gdy idziesz do wyszukiwania, zajmuje to więcej czasu. Jeśli włożysz trzy-terabajtową kartę flash i powiesz do bazy danych: „Dodaj to do swojej pamięci”, może się okazać, że coś zwolniło z powodu czasu, aby zajrzeć do środka i zobaczyć, czy to flashowanie, czy jest brudne czy czysty? Istnieje punkt malejącego zwrotu. Moja rada to ponownie przetestuj to, zobacz, co działa dla ciebie, ale znowu, to jest w twojej bazie danych, a w przypadku Oracle, zarówno SQL Server, jak i Oracle, istnieje tam od kilku lat.

I to prowadzi nas do dziadka, który był bazą danych w pamięci, a to dlatego, że ceny baz spadły. Innym powodem, dla którego prawdopodobnie uważasz, że tak się stało, jest duża część analityki, która wymaga, aby dane były bardzo szybko dostępne i dlatego muszą znajdować się w pamięci. Zauważ, że algorytmy, których bazy danych używają do uzyskania dostępu do tych danych, ich kompresji, szyfrowania, przechowywania, wiesz, że w niektórych przypadkach niektóre bazy danych mogą nadal przechowywać w pamięci jako wiersz.

W niektórych przypadkach niektóre bazy danych mogą to rozbić na zorientowane na kolumny, a powodem tego jest to, że uzyskują znacznie wyższy poziom kompresji, gdzieś w pobliżu 11 do 12X, poprzez przechowywanie go w kolejności kolumn w stosunku do kolejności wierszy. To po raz pierwszy pojawiło się w SQL Server 2014, nazywało się „Hekaton”. Zostało radykalnie zwiększone w SQL Server 2016, zobaczą, że ma do niego różne nazwy i pojawiło się w Oracle 12c; Mówię tutaj drugie wydanie, a nie R2. Były dwie różne wersje Oracle 12c, 12.1.0.1 i 12.1.0.2. To drugie wydanie wersji R1 bazy danych.

I sposób, w jaki go definiujesz, obiekt w pamięci jest podobny w obu bazach danych. Tutaj możesz zobaczyć w prawym górnym rogu, tworzę SQL Servera i możesz zobaczyć, jak mówi, ze zoptymalizowaną pamięcią i trwałością tylko schematem. Nie będę omijał wszystkich tych znaczeń składniowych, a w Oracle jest to nawet prostsze, wystarczy zmienić tabelę i powiedzieć w pamięci, czy nie, i możesz to zmienić. Mogę powiedzieć, że dziś jest w pamięci, a jutro nie, więc jest bardzo elastyczny.

Zrobiłem kilka testów na Oracle z tabelami w pamięci, miałem kilka testów, które trwały prawie 40 minut, tam w górnym rzędzie. Ważne jest, że zanim dotarłem do dwóch ostatnich rzędów, zwiększyłem czas działania lub zmniejszyłem go, powinienem powiedzieć, do około pięciu minut, a kiedy spojrzałem na współczynnik kompresji, dane w pamięci wyniosły w rzeczywistości 3,6 do 4,6 razy mniejszy. To ważne, ponieważ w tym przypadku użyłem formatu zorientowanego na kolumny i jest to kompresja. Więc zgadnij co? Właściwie mieściłem prawie cztery do pięciu razy więcej danych w mojej pamięci. Nie tylko zyskałem przewagę w pamięci, przewagę zorientowaną na kolumny, ale także przewagę znacznie większej ilości danych - do pięciu razy więcej danych w pamięci podręcznej pamięci, więc jest to dość potężna technika. Znowu Oracle i SQL Server, chcesz na nie spojrzeć, to naprawdę fajne funkcje. I z tym myślę, że otworzę to na pytania.

Eric Kavanagh: Cóż, Bert, przede wszystkim byłeś bardzo bezinteresowny w całej tej wspaniałej edukacji. Czy mógłbyś choć chwilę porozmawiać o tym, co robicie? Ponieważ masz technologię umożliwiającą ułatwienie tego, o czym mówisz. Po prostu porozmawiaj przez chwilę o tym, co robicie, a następnie weźmy Deza i Robina do równania tutaj.

Bert Scalzo: Tak, pracuję dla firmy o nazwie IDERA. Jesteśmy w Teksasie, mamy siedzibę w Houston i tak naprawdę siedzę teraz w Austin, ale mieszkam w Dallas. Tworzymy narzędzia bazodanowe i narzędzia bazodanowe pomocne w rozwiązywaniu problemów. Problem ten może być tak prosty jak wydajność, w którym to przypadku mamy narzędzie o nazwie DBArtisan, które pozwala wykonywać zadania administracyjne związane z bazą danych i jest to jedno narzędzie pozwalające zarządzać 12 różnymi platformami baz danych. Mogę zarządzać SQL Server, mogę zarządzać Oracle, mogę zarządzać MySQL, DB2, Postgres i używam jednego narzędzia, jednego pliku wykonywalnego, jednego interfejsu GUI i jednego spójnego zestawu przepływów pracy. Tworzymy również narzędzia do zapewnienia zgodności, mamy narzędzie o nazwie SQL Compliance Manager, które pomoże Ci spełnić Twoje wymagania dotyczące zgodności. Kolejne narzędzie o nazwie SQL Security, dlatego staramy się tworzyć narzędzia, które pomogą Ci być efektywnym i wydajnym, a co jest naprawdę miłe, jeśli wejdziesz na naszą stronę internetową, mamy całą masę darmowego oprogramowania, więc jeśli nic więcej, pobierz - Myślę, że mamy 20 lub 25 darmowych programów. Istnieje kilka naprawdę dobrych darmowych rzeczy, takich jak SQL Server i Windows Help Check, który po prostu przyjrzy się temu, co masz i powie ci, czy masz problemy lub rzeczy i jest całkowicie darmowy.

Eric Kavanagh: A ty naprawdę trochę…

Bert Scalzo: Zdecydowanie pierwsze rzeczy -

Eric Kavanagh: Mówisz dziś o różnorodności na rynku, kiedyś istniało jedno uniwersalne równanie, które w rzeczywistości pamiętam, kiedy rozmawiałem z dr Michaelem Stonebraker'm w 2005 roku, kiedy to on naciskał mówił o werdykcie dotyczącym zorientowanego na kolumny ruchu bazy danych i mówił wszystko o tym, jak przez wiele lat dominował model relacyjny „jeden dla wszystkich”, i przewidywał, że wszystko się zmieni, i chłopiec miał rację. Teraz mamy to naprawdę zróżnicowane i interesujące środowisko z wieloma różnymi opcjami i możliwościami, ale potrzebujesz kogoś, kto to wszystko zarządza, i wydaje mi się, że twoja firma koncentruje się dość mocno na rozwiązywaniu problemów matematycznych, dzięki czemu może ułatwić nagłówek heterogeniczności, prawda?

Bert Scalzo: Absolutnie. Mam na myśli, że zawsze będą DBA, którzy powiedzą: „Nie chcę używać narzędzia GUI, robię wszystko ze skryptami”, rozumiesz? Uważają, że są typem superbohatera typu DBA i jest w porządku, ale dla większości z nas ludzie chcemy po prostu wykonać pracę i - wiesz, używam Microsoft Word do pisania moich dokumentów. Korzystam z programu Microsoft Outlook. Mam na myśli narzędzia do wykonywania zadań. Tworzymy tę samą koncepcję, budujemy narzędzia dla administratorów baz danych i programistów, aby pomóc im skoncentrować się na tym, co chcą robić, a nie na tym, jak muszą to zrobić.

Eric Kavanagh: To ma sens, ale pozwólcie, że przekażę was naszym ekspertom, a ludzie mogą swobodnie nurkować. Mamy kilka komentarzy od publiczności. Może, Dez, kilka pytań i Robin kilka pytań?

Dez Blanchfield: Pewnie. Jedno z pierwszych pytań, które chcę ci zadać, biorąc pod uwagę ogromne doświadczenie, jakie masz, czy widzisz moment, w którym któreś z nich zwolni? A może uważasz, że tak naprawdę jesteśmy u progu tej linii ciągłego wzrostu? Myślę, że jednym z największych problemów, z którymi borykają się firmy, a następnie niezmiennie ludzie próbujący wspierać technologię zapewnianą tym firmom do prowadzenia działalności gospodarczej, jest to, że tempo zmian jest tak dramatyczne, że po prostu nie mogą nadążyć za wszystkimi różne funkcje, oprogramowanie, systemy, frameworki i architektury oraz nowy kod, a następnie sprzęt pod nim, czy widzisz natychmiastowe spowolnienie zmian? Mam na myśli, że masz do czynienia z tak szeroką gamą platform z całym pakietem IDERA, czy niedługo zwolnimy, czy już jesteśmy w tym szalonym, uciekającym pociągu towarowym od dawna?

Bert Scalzo: Myślę, że jesteśmy na pierwszych 20 procentach tej krzywej wzrostu i mamy przed sobą długą drogę, a są dwie rzeczy, które ją popychają. Technologia ciągle się rozwija. Wspomniałeś o niektórych nowych typach pamięci, które wyjdą, to będzie fantastyczne. Samsung niedługo będzie miał tutaj 20-terabajtowy dysk flash. To się zmieni. Mamy wszystkie te bazy danych NoSQL i chmurowe, to będzie po prostu kontynuowane. Jedną z zabawnych rzeczy jest to, że kiedy patrzę na bazy danych takie jak Oracle i SQL Server i niektóre inne, to tak naprawdę nie są one relacyjnymi bazami danych. Mogę umieszczać nieustrukturyzowane dane w Oracle, a jednocześnie zachować zgodność z ACID. Gdybyś powiedział mi to 20 lat temu, powiedziałbym tylko, że zażywasz narkotyki.

Dez Blanchfield: Tak, tak, są fajne. Cóż, nawet teraz te silniki, które mają całkiem niezłe niszowe pionki, takie jak GIS, tylko teraz lepsze niż natywne możliwości. Skomentowałeś wiele wyzwań, przed którymi stoją DBA i różne czasy DBA, które mamy nadzieję zobaczyć w tym miejscu, ale jak wygląda świat z rodzajem biznesu, z którym masz do czynienia? Mam na myśli, że są to ludzie, którzy używają różnych platform, od twojego kierownika diagnostycznego, przez narzędzia do inwentaryzacji, aż do rażenia defragmentacji, jak DBA radzą sobie z tą zmianą i jak oni to robią - wiesz , co robią z twoimi narzędziami, aby poradzić sobie z tą znaczącą zmianą w ich krajobrazie?

Bert Scalzo: Cóż, cofnę się prawie 20 lat temu, a potem powiem, że DBA rozwiązują bardzo specyficzną rolę w organizacji. Zazwyczaj współpracują z jedną platformą bazy danych, może dwiema, i zarządzali stosunkowo niewielką liczbą baz danych. Teraz szybko do przodu i do dziś, administrator bazy danych, on faktycznie pozna 10 platform baz danych. Zarządza, a to nie żart, w niektórych przypadkach tysiące baz danych; to bardziej na świecie SQL Server lub MySQL. Ale wciąż w świecie Oracle mogli zarządzać setkami baz danych. I dlatego mają te wszystkie nowe funkcje, wszystkie te nowe platformy i wszystkie bazy danych, za które są odpowiedzialni. Szukają narzędzi, które umożliwią im zwiększenie produktywności, a także pomogą im nauczyć się pewnych rzeczy.

Dam ci przykład - jeśli chcę podzielić tabelę na partycje, jest to dość niejasna składnia, a jeśli chcę ją podzielić na partycje, składnia staje się jeszcze trudniejsza. Wiem, co chcę robić, chcę tworzyć wiadra. Jeśli mam narzędzie takie jak DBArtisan, które mówi: „Hej, oto fajny ekran, który pozwala skoncentrować się na tym, co próbujesz zrobić, a nie na tym, co próbujesz zrobić, a przy okazji, popchnij Pokaż przycisk SQL, gdy skończysz, a my pokażemy ci, co to był SQL, abyś mógł naprawdę się go nauczyć i opanować. ”

DBA odkrywają, że narzędzia, które pomagają im wykonać zadanie, ale także uczą ich wszystkich nowych rzeczy, których używają i to samo byłoby prawdą - powiedzmy, że jestem facetem Oracle i przechodzę do MySQL i mówię: „Dobra, utwórz bazę danych, DBArtisan. Teraz pokaż mi SQL, ponieważ zastanawiam się, jak to jest tworzyć bazę danych na MySQL, i właśnie nauczyłem się składać. ”I dlatego pomagamy im nie tylko pracować w różnych bazach danych, ale także edukujemy je w różnych bazach danych.

Dez Blanchfield: Staje się jeszcze bardziej interesujący, gdy przechodzisz do niektórych z bardziej nowoczesnych - lub nie nowocześniejszych, co nie jest sprawiedliwe - ale kiedyś baza danych była bazą danych. W dzisiejszych czasach widzę wszystko, o czym mówisz, z dodatkowym wyzwaniem, które technologia kładzie, co tradycyjnie widzimy od dostawców, i masz do tego rodzaj otwartego źródła, a także, że są dobre. Nie tylko radzą sobie z aparatami baz danych i językami zapytań, ale także z typami danych, strukturalnymi i nieustrukturyzowanymi, no wiesz, wyzwaniem związanym z radzeniem sobie ze wszystkim z odległej części spektrum HDFS z wieloma petabajtami środowisko do małych, małych pojemników oraz plików pakietowych i różnych formatów plików dziennika.

I myślę, że teraz coś takiego widzimy tam, gdzie po prostu nie ma człowieka, bez względu na to, jak bardzo jest supermanem, superwomanem, czymkolwiek by się nie wydawało, fizycznie nie mogą po prostu poradzić sobie z tym tempem zmian i skala zmian. Myślę, że pakiet narzędzi, które oferujesz teraz, osiągnie punkt, w którym będą prawie na domyślnym zestawie na wiele sposobów, abyśmy nie mogli uruchomić środowisk baz danych, które mamy bez nich, ponieważ po prostu fizycznie nie mogę rzucić w nie tyloma ciałami. Naprawdę podobała mi się twoja prezentacja. Przejdę do doktora Robina Bloora, jestem pewien, że ma wiele pytań do ciebie.

Robin Bloor: W porządku. Z pewnością mam pytania. Bert, nie wiem, dokąd zmierzasz - kilka dni temu odbyłem naprawdę interesującą rozmowę, w której ktoś zaczął mi opowiadać o najnowszej ochronie danych DU, i wydawało mi się, że to, co mówili, było niesamowicie drakońskie pod względem rzeczy, na które nalegali. Zastanawiałem się, czy naprawdę na to spojrzałeś; czy to coś, co znasz?

Bert Scalzo: Absolutnie. Tak.

Robin Bloor: 2016, dobrze, opowiedz nam o tym.

Bert Scalzo: I faktycznie…

Robin Bloor: Głęboko interesujące.

Bert Scalzo: Właściwie przez jakiś czas pracowałem dla dostawcy flash, w ich obszarze bazy danych, pomagając im budować produkty flash dla baz danych, i mogę powiedzieć, że dracończyk idzie w dół. Chodzi mi o to, że jeśli pamiętasz mój slajd, powiedziałem, że w niektórych bazach danych szyfruje, ale umieszcza go w pamięci serwera, aw niektórych bazach szyfruje - nadal jest szyfrowany w pamięci serwera, jest odszyfrowywany tylko wtedy, gdy zostaje wysłany do klienta. Cóż, znajdziesz także niektóre z tych rządowych standardów, szczególnie Departament Obrony lub wojsko tutaj w USA, one również sięgają poziomu flash i chcą wiedzieć nie tylko, że wspierasz szyfrowanie i deszyfrowanie w twój sprzęt, ale jeśli ktoś ukradł chipy, które - wiesz, wyciągnęły je z tego, z twojego serwera, że to, co tam jest, jest zaszyfrowane, więc nawet jeśli mają pamięć, to nie może być aż do samych faktów - nie do samej części flash, ale do poszczególnych chipów. Chcieli wiedzieć, że chip po chipie, wszystko było zaszyfrowane.

Robin Bloor: Łał. Mam na myśli wiele rzeczy, które - wiesz, myślę, że to tylko jeden lub dwa slajdy, które o tym wspomniałeś, ale był to coś, scenariusz, który moim zdaniem jest naprawdę interesujący. Redagowanie informacji, na przykład, musi być trochę sprytniejsze niż maskowanie różnych dziedzin, ponieważ szczególnie w dzisiejszych czasach w uczeniu maszynowym możesz robić dedukcyjne rzeczy, które pozwalają na ujawnienie informacji, których wcześniej nie mogłeś odkryć.

Jeśli próbujesz chronić, powiedzmy informacje o zdrowiu, to są to bardzo, bardzo drakońskie zasady w Stanach Zjednoczonych w odniesieniu do informacji o zdrowiu, ale tak naprawdę, korzystając z różnych technik uczenia maszynowego, często możesz ustalić, kto jest czyjąś informacją medyczną tak naprawdę jest. Zastanawiałem się, czy masz coś do powiedzenia na ten temat, ponieważ wszyscy uważają, że to interesujący obszar.

Bert Scalzo: Tak, absolutnie, i używam tego jako przykładu, nie próbuję powiedzieć, że jedna baza danych jest lepsza od innej, ale jest to bardzo dobry przykład tego, o co właśnie zapytałeś. W Oracle, jeśli nie mogę na przykład wyświetlić wiersza danych, na przykład nie mam dostępu do dokumentacji medycznej Johna Smitha. W Oracle, jeśli powiem „Wybierz ten rekord”, będę zablokowany lub będę mógł zobaczyć to, co wolno mi zobaczyć, i zostanie ono zredagowane. A jeśli powiem „Wybierz gwiazdkę konta ze stołu, w którym John Smith”, dostanę zero.

W SQL Server może dokonać redakcji, ale ma pewne dziury. Jeśli powiem: „Wybierz gwiazdkę konta ze stołu, w którym jest równa John Smith”, w rzeczywistości otrzymam jedną, więc wiem, że jest to John Smith. Jedno jest bezpieczniejsze od drugiego. Teraz oczekuję, że to naprawią, zawsze grają ze sobą skaczącą żabę. I znowu, nie próbuję rozróżniać baz danych poza pokazaniem przykładu - spójrzmy na to, o czym teraz mówimy, coś tak prostego, jak wybranie konta, również musi zostać zmniejszone przez redakcję, chociaż technicznie mówiąc, nic nie jest redagowane poza istnieniem rzędu.

Robin Bloor: Tak, jasne. To trochę interesujące. Kolejne ogólne pytanie, ponieważ nie mam dużo czasu, tak naprawdę dotyczy tylko ulepszeń.Mam na myśli, że byłeś w miejscu, w którym wiem, że pokazałeś nam przykłady różnych wyników testów, które przeprowadziłeś - czy uważasz, że tradycyjne bazy danych, nazwijmy je dominującymi bazami danych, SQL Server i Oracle, prawda? myślisz, że będą wyprzedzać ukończenie? A może myślisz, że tak naprawdę zostaną złapani przez różnego rodzaju zakłócenia na rynku, które naprawdę dla nich działają? Jakie jest Twoje zdanie?

Bert Scalzo: Mam opinię i to jest - wiesz, znowu powiem, że to moja opinia - na przykład Microsoft, w erze post-Ballmera, robi na mnie wrażenie. Rozumiem, że ta rozciągliwa baza danych zawiera SQL Servera w systemie Linux, system .NET w systemie Linux, system PowerShell w systemie Linux; Nie sądzę, aby tradycyjni dostawcy baz danych zostali w tyle. Myślę, że zdecydowali: „Hej, niech nowi faceci, startupy coś zdefiniują. Pozwól im dowiedzieć się, co to jest sharding i jak należy go udoskonalić, a kiedy przeprowadzą już wszystkie badania i rozwój, wiemy dokładnie, czego chcą użytkownicy, teraz dodajmy sharding do Oracle. ”Myślę, że stają się inteligentni i mówiąc: „Hej, bycie drugim lub trzecim nie jest złe, gdy jesteś dominującym graczem, ponieważ wtedy ludzie nie migrują z ciebie”.

Robin Bloor: Tak, mam na myśli strategię, która została zastosowana. Chodzi mi o to, że IBM robił to i całe - dla wszystkich swoich produktów, i to ocenia się dość dobrze, dopóki ktoś nie wymyśli czegoś, co jest całkowicie poza ścianą, o czym nikt nigdy nie pomyślał, ale nie można zaplanować wbrew temu.

Pytania od publiczności, Eric?

Eric Kavanagh: Tak, ale masz czas, myślę, że może tylko dla jednego i wiem, że Bert musi biec. Było w tym coś o - okej, architektura dzielenia na Oracle 12c jest wskazówką - albo, co według ciebie, co tam się dzieje?

Bert Scalzo: Cóż, Oracle absorbuje i / lub oferuje wszystko, co wszyscy inni dostawcy baz danych. Na przykład mogę umieścić nieustrukturyzowane dane w Oracle. Nie wiem, jak umieścić nieustrukturyzowane dane, a następnie nazwać je relacyjną bazą danych, więc nie ma to sensu, ale możesz. A teraz Oracle dodaje sharding, więc Oracle mówi: „Wiesz co? Czegokolwiek chce rynek, zaoferujemy naszą bazę danych, ponieważ rynek chce tego, czego chce rynek i chcemy dostarczyć rozwiązanie, chcemy, aby pozostali z nami ”.

Myślę, że zobaczysz dodatkowe przedmioty. Nie zdziwiłbym się, gdyby podobne do Hadoopa klastrowanie węzłów bazy danych nie było w szafie Oracle ani w prawdziwym klastrze aplikacji, ale w zasadzie bardziej w tradycyjnym klastrowaniu typu Hadoop, które wykonuje takie dzielenie. Myślę więc, że będziesz w stanie wdrożyć bazę danych taką jak Oracle, tak jak w przypadku Hadoop, i tego rodzaju trendy będą kontynuowane. Ci duzi dostawcy baz danych zarabiają miliardy dolarów i nie chcą stracić swojego rynku, więc są gotowi się do czegoś dostosować lub cokolwiek adoptować.

Eric Kavanagh: Wiesz, to zabawne, ponieważ od dłuższego czasu śledzę dostawców oprogramowania open source i zastanawiałem się nad tym, jak duży będzie to miało wpływ na tradycyjną technologię zamkniętych drzwi i przez pewien czas czułem się jak dostawcy oprogramowania open source robili poważne postępy, a teraz, gdy patrzę na rynek, widzę coś, co mówisz, że duzi faceci zrobili matematykę, zaostrzyli swoje ołówki i wymyślili, jak mogą utkać wiele z tych rzeczy w ich architekturach. Niezależnie od tego, czy chodzi o IBM, Oracle, czy SAP - byłem w zeszłym miesiącu na konferencji SapphireNow, a Steve Lucas, który kieruje połową tej firmy, chwalił się, że SAP zawiera teraz w swojej platformie chmurowej HANA więcej komponentów open source niż którykolwiek z ich konkurenci. Jeśli zrobisz matematykę, jest to dość imponujące oświadczenie i mówi mi, że duzi faceci nigdzie się nie wybiorą.

Bert Scalzo: Nie, postawiłbym swoje pieniądze na oba. To znaczy, jeśli spojrzeć, akcje Microsoftu ostatnio kosztowały około 50 USD, a kilka lat temu było to 25 lat. Nie podwoisz ceny akcji w krótkim okresie, chyba że robisz dobre rzeczy, a ty wiem, od robienia wszystkiego, począwszy od Windows 10, który jest darmowy przez pierwszy rok, po wszystkie inne inteligentne rzeczy, które robią, ta rozciągliwa baza danych jest moim zdaniem fenomenalna. Myślę, że co się stanie, wielu ludzi trafi na platformę Azure, a nie bezpośrednio, nie tak, jak powiedzieli: „Migruj moją bazę danych na platformę Azure”. Migruje tam magicznie, ponieważ zostanie zarchiwizowana tam za pomocą tej nowej funkcji bazy danych stretch, więc wdrożenie platformy Azure będzie po prostu gwałtowne.

Eric Kavanagh: To jeden z trendów na rynku, który nawet ja widzę, nawet na komputerze Mac. Kiedy idziesz na komputerze Mac, aby zapisać niektóre dokumenty, teraz - a nowsze komputery Mac po prostu przechodzą przez chmurę, prawda? Chodzi mi o to, że strategia ta ma wiele sensu, a ja też na nią patrzę i mówię: „Dobra, próbują mnie zwabić kawałek po kawałku do środowiska chmurowego, a pewnego dnia, kiedy chcę obejrzeć jakiś film, jeśli moja karta kredytowa wygasła, będę miał kłopoty. ”

Bert Scalzo: Tak, ale robisz to dalej.

Eric Kavanagh: Tak. To prawda.

Bert Scalzo: Wkładasz wszystko.

Eric Kavanagh: Cóż, nie do końca wszystko.

Bert Scalzo: Nie, mam na myśli-

Eric Kavanagh: Tak, śmiało.

Bert Scalzo: Te trendy społeczne docierają do firm. Teraz firmy nadal mają wiele innych rzeczy do zrobienia, ale widzą te trendy i robią te same rzeczy. Nie widzę, żeby Oracle lub Microsoft odchodziły. W rzeczywistości będę kupować akcje na obu za każdym razem, gdy nastąpi spadek.

Eric Kavanagh: W rzeczy samej. Cóż, ludzie, idera.com, I-D-E-R-A dot com. Jak powiedział Bert, ma tam mnóstwo darmowych rzeczy i jest to jeden z nowych trendów na rynku - daj darmowe rzeczy do zabawy, daj się wciągnąć, a potem kup prawdziwe rzeczy.

Ludzie, to kolejna gorąca technologia. Dzięki za dzisiejszy czas, Bert, oczywiście Dez i Robin. Porozmawiamy z tobą w przyszłym tygodniu, ludzie, dzieje się wiele rzeczy. Jeśli masz jakieś pomysły, nie krępuj się, naprawdę. Porozmawiamy z wami następnym razem, uważajcie. PA pa.