Katalogi danych i dojrzewanie rynku uczenia maszynowego

Wideo: Combining the Power of Data Catalogs and Artificial Intelligence

Zawartość

Imperatyw Infonomics
Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia
Co katalogi danych mogą zrobić dla firm
Dodawanie uczenia maszynowego
Jak wybrać

Źródło: Nmedia / Dreamstime.com

Na wynos:

Rynek MLDC rośnie, a przedsiębiorstwa starające się efektywnie wykorzystywać duże zbiory danych za pomocą uczenia maszynowego powinny być świadome najważniejszych nazwisk w branży i ich indywidualnych rankingów.

To epoka dużych zbiorów danych. Jesteśmy zalewani informacjami, a firmom trudno jest zarządzać nimi i czerpać z nich wartość.

Dzisiejszy przepływ dużych zbiorów danych to nie tylko wielkość, różnorodność i szybkość, ale także złożoność. Jak zostało wskazane przez SAS w Big Data History and Current Considerations, jest to czynnik strumieni „z wielu źródeł, co utrudnia łączenie, dopasowywanie, czyszczenie i przekształcanie danych między systemami”. (Chcesz dowiedzieć się więcej o big data? Sprawdź (Big) Datas Big Future.)

Znalezienie cennego wglądu nie polega jedynie na zgromadzeniu jak największej ilości danych, ale na znalezieniu odpowiednich danych. Niemożliwe jest przepracowanie tego wszystkiego za pomocą ręcznych procesów. Właśnie dlatego coraz więcej firm „zwraca się do katalogów danych, aby zdemokratyzować dostęp do danych, umożliwić plemiennej wiedzy na temat danych gromadzenie informacji, stosowanie zasad dotyczących danych i szybką aktywację wszystkich danych w celu uzyskania wartości biznesowej”.

W tym miejscu na zdjęciu pojawiają się katalogi danych (czasami nazywane także katalogami informacyjnymi). Jak zdefiniowano tutaj, umożliwiają one „użytkownikom eksplorację wymaganych źródeł danych i zrozumienie eksplorowanych źródeł danych, a jednocześnie pomagają organizacjom w osiągnięciu większej wartości z ich obecnych inwestycji”. Jednym ze sposobów jest to, że umożliwia znacznie większy dostęp do danych wśród różnych typów użytkowników, którzy mogą z nich korzystać lub się do nich przyczyniać.

Imperatyw Infonomics

Zwracając uwagę na dramatycznie zwiększone zapotrzebowanie na katalogi danych pod koniec 2017 r., Gartner nazwał je „nową czernią”. Zostały one uznane za szybkie i ekonomiczne rozwiązanie do „inwentaryzacji i klasyfikacji organizacji, które coraz częściej dystrybuują i dezorganizują zasoby danych oraz mapują swoje łańcuchy dostaw informacji”. Konieczność ta pojawiła się z powodu wzrostu „infonomiki”, która wymaga zastosowania tej samej skrupulatności do śledzenia informacji, jak w przypadku zarządzania innymi aktywami biznesowymi. (Aby uzyskać więcej informacji na temat łańcuchów dostaw, zobacz Jak uczenie maszynowe może poprawić efektywność łańcucha dostaw.)

Gartners biorą udział w The Forrester Wave ™: Katalogi danych uczenia maszynowego, II kw. 2018 r. Ponad połowa uczestników ankiety w tym raporcie powiedziała, że planuje zbudować wdrożenie swojego katalogu danych. Prawdopodobnie były one w dużej mierze motywowane faktem, że każde z nich miało co najmniej siedem jezior danych w swojej organizacji. Jak wyjaśnia Gartner na temat katalogów danych, katalogi danych są szczególnie przydatne do wyciągania „oszustwa, znaczenia i wartości danych”, które zazwyczaj pozostają w niesklasyfikowanej formie w jeziorze danych.

Forrester informuje, że ponad jedna trzecia decydentów zajmujących się danymi i analizami miała do czynienia z 1000 TB lub więcej danych w 2017 r., Co stanowi zaledwie 10–14 procent rok wcześniej. Zarządzanie danymi w tej skali stanowi coraz większe wyzwanie, a konkretnie dwa wyzwania:

„1) łączenie istniejących procesów biznesowych w celu pozyskiwania danych w celu ich analizy i wdrażania informacji oraz 2) pozyskiwania, gromadzenia, zarządzania i zarządzania danymi w miarę ich wzrostu”.

Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia

Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.

Co katalogi danych mogą zrobić dla firm

Gartner określa konkretne sposoby, w jakie katalogi danych mogą poprawić przepływ informacji i wydajność organizacji:

Zestawianie i przekazywanie aktualnych zasobów informacyjnych zasobów dostępnych dla organizacji.
Tworzenie wspólnego glosariusza terminów biznesowych, który definiuje semantyczną interpretację i znaczenie danych organizacji, zapewniając w ten sposób środki do mediacji i rozwiązywania definicyjnych niespójności.
Umożliwiamy dynamiczne i sprawne środowisko współpracy, aby umożliwić współpracownikom z branży biznesowej i IT komentowanie, dokumentowanie i udostępnianie danych.
Zapewnienie przejrzystości wykorzystania danych z analizą pochodzenia i wpływu.
Monitorowanie, audyt i śledzenie danych w celu wsparcia procesów zarządzania informacjami.
Przechwytywanie metadanych w celu usprawnienia wewnętrznej analizy wykorzystania i ponownego wykorzystania danych, optymalizacji zapytań i certyfikacji danych.
Ujednolicanie informacji w ramach ich wykorzystania biznesowego poprzez przechwytywanie, komunikowanie i analizowanie istniejących danych, skąd pochodzą, w jakich wadach są wykorzystywane, dlaczego są potrzebne, jak przepływają między procesami i systemami, kto jest za nie odpowiedzialny, co to znaczy i jaką ma wartość.

Prawidłowe zidentyfikowanie i dostępność danych dla kluczowych osób w organizacji jest ważne, raport Gartnera mówi, że nie tylko dla znalezienia sposobu „zarabiania na zasobach danych dla cyfrowych wyników biznesowych”, ale dla zachowania zgodności z przepisami, niezależnie od tego, czy są to branże szczegółowe, takie jak Ustawa o przenośności i rozliczalności ubezpieczeń zdrowotnych (HIPAA) lub o bardziej ogólnym charakterze, jak ogólne rozporządzenie o ochronie danych (RODO).

Dodawanie uczenia maszynowego

Ale nic nie jest pozbawione wad. W przypadku katalogów danych problemem był powolny i żmudny proces związany z ręcznym budowaniem ich przy użyciu wszystkich metadanych, które należy wprowadzić. W tym momencie pojawia się komponent uczenia maszynowego.

Katalogi danych ocenione przez Forrester są nazywane MLDC, ponieważ wykorzystują moc uczenia maszynowego, jednego z elementów sztucznej inteligencji. Jak wyjaśniono na blogu Podium Data, umożliwia to „zbudowanie trwałego repozytorium metadanych, a następnie zastosowanie ML / AI w celu wykrycia i ujawnienia potencjalnie użytecznych informacji na temat bazowych zasobów danych”.

Jak wybrać

Aby pomóc organizacjom ocenić, które firmy powinny wybrać, Forrester zastosował 29 punktów oceny w 12 najlepszych MLDC. Zidentyfikowano liderów tego rynku jako: IBM, Relito, Unifi Software, Alation i Collibra. Silnymi wykonawcami, które znalazł, są Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics i Cloudera. Hortonworks stoi samotnie w randze „pretendenta”.

Nie należy jednak przechodzić samych ogólnych rankingów. Raport przedstawia poszczególne mocne i słabe strony każdego z nich. W związku z tym, jeśli jakaś szczególna cecha, taka jak badania i rozwój, ma ogromne znaczenie dla organizacji, może uznać Hortonworks za równorzędne IBM i Colilbra w tym aspekcie, ponieważ ci trzej mają najwyższy wynik pięciu za tę jakość, która była dwa punkty lepsze niż Alation i Coloudera i cztery punkty lepsze niż Cambridge Semantics.

W związku z tym raport Forrester radzi tym, którzy używają tego raportu jako wskazówek, aby nie zakładali, że firma o najwyższej pozycji jest najlepszym wyborem dla wszystkich. Powinny zwrócić szczególną uwagę na podział oceny, aby znaleźć to, co spełnia ich szczególne wymagania.