Jak uporządkowane są twoje dane? Badanie danych ustrukturyzowanych, nieustrukturyzowanych i częściowo ustrukturyzowanych

Wideo: What is the difference between structured and unstructured data?

Zawartość

Co to są dane strukturalne?
Co to są dane nieustrukturyzowane?
Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia
Pomiędzy: dane częściowo ustrukturyzowane
Czy dane nieustrukturyzowane można przekształcić w dane ustrukturyzowane?

Źródło: monsitj / iStockphoto

Na wynos:

Dowiedz się o danych ustrukturyzowanych, nieustrukturyzowanych i częściowo ustrukturyzowanych.

Historycznie, analitycy danych byli w stanie odszyfrować i wyodrębnić informacje tylko z jednego rodzaju danych: danych strukturalnych. Tego rodzaju dane można było łatwo przeszukiwać ze względu na jasne wzorce, ale stanowiły niewielki procent wszystkich dostępnych danych.

Nieustrukturyzowane dane obejmowały także wideo, audio, s oraz dane pochodzące z mediów społecznościowych i urządzeń mobilnych. Była to, oczywiście, największa dostępna rezerwa surowych informacji, ale nikt nie był w stanie rzetelnie wykorzystać tego zasobu.

Sytuacja się jednak zmieniła, ponieważ zwiększona dostępność pamięci i lepsze możliwości przetwarzania dały początek nieustrukturyzowanej analizie danych - nowej, a zatem niedojrzałej formie technologii. Lepsza inteligencja biznesowa w pełni wykorzystuje tę okazję i poczyniono znaczne inwestycje w agregację ustrukturyzowanych i nieustrukturyzowanych analiz danych w celu uzyskania dostępu do tej pozornie niekończącej się kopalni złota.

Rzućmy okiem na te dwa formaty danych, aby zrozumieć ich różnice i to, co przyniesie przyszłość wszystkim analitykom danych.

Co to są dane strukturalne?

Dane strukturalne to generowane przez człowieka lub maszynę i wysoce zorganizowane informacje, które można łatwo przechowywać w strukturach baz danych wierszy zwanych relacyjnymi bazami danych (RDB). Jest to wszystko, co istnieje w formacie, który można łatwo uchwycić, zapisać i zorganizować w strukturze RDB, aby następnie przeanalizować. (Aby dowiedzieć się więcej o bazach danych, zapoznaj się z naszym Wprowadzenie do baz danych.)

Przykłady obejmują kody pocztowe, numery telefonów i dane demograficzne użytkowników, takie jak wiek lub płeć. Dane znajdujące się w tych bazach danych można przeszukiwać za pomocą funkcji Structured Query Language (SQL) lub funkcji WYSZUKAJ.PIONOWO w arkuszach kalkulacyjnych Excel. Można także wykonać algorytmy, aby szybko wyszukiwać dane znalezione w różnych polach za pomocą ich indeksów lub danych liczbowych i alfabetycznych. Jednak wszystkie dane są ściśle zdefiniowane pod względem rodzaju i nazwy pola, a zatem możliwość ich przechowywania, wyszukiwania i analizy jest w pewnym stopniu ograniczona.

Typowe aplikacje wykorzystujące dane strukturalne obejmują oprogramowanie do zarządzania szpitalem, aplikacje do zarządzania relacjami z klientami (CRM) i systemy rezerwacji linii lotniczych. Ze względu na staranną organizację i łatwy dostęp, ustrukturyzowane dane są przydatne i wydajne w przypadku dużych ilości informacji. Jednak podczas wiercenia w poszukiwaniu czarnego oleju ukrytego w niekończącej się ilości danych wytwarzanych codziennie przez ludzkość, wyszukiwanie ustrukturyzowanych danych jest niczym innym jak drapaniem po powierzchni.

Co to są dane nieustrukturyzowane?

Zdecydowana większość danych znalezionych w organizacji jest nieustrukturyzowana, a niektórzy szacują, że nawet do 80 procent wszystkich obecnie dostępnych danych. Z definicji dane nieustrukturyzowane to wszystko, co nie ma możliwej do zidentyfikowania struktury wewnętrznej. Jednak niektóre rodzaje danych należą do tej kategorii mają jakaś forma niejasnej struktury wewnętrznej, ale nie jest ona zgodna z bazą danych ani arkuszem kalkulacyjnym.

Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia

Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.

Większość danych biznesowych jest nieuporządkowana, od interakcji z obsługą klienta, plików, dzienników internetowych, filmów i innych treści multimedialnych, automatyzacji sprzedaży, po posty w mediach społecznościowych. Nie trzeba wyjaśniać, jak cenne mogą być te dane, jeśli można je wydobywać, organizować i analizować.

Większość nieustrukturyzowanych danych jest generowana przez ludzi, a zatem jest zrozumiała dla innych ludzi. Oznacza to, że starsza inteligencja komputerowa nie rozumie tego rodzaju informacji, ponieważ są one zbyt dalekie od liniowości języka maszynowego i strukturalnych baz danych.

Pomiędzy: dane częściowo ustrukturyzowane

Dane częściowo ustrukturyzowane to trzeci rodzaj danych, który reprezentuje znacznie mniejszy fragment całego tortu (5-10 procent). Częściowo ustrukturyzowane dane, dosłownie uwięzione między tymi dwoma światami, zawierają wewnętrzne znaczniki semantyczne i oznaczenia, które identyfikują oddzielne elementy, ale brakuje im struktury wymaganej do umieszczenia w relacyjnej bazie danych.

Na przykład s mogą wydawać się danymi strukturalnymi, ponieważ można je podzielić na kategorie według daty, rozmiaru pliku lub godziny. Jednak tak nie jest, ponieważ najcenniejsze informacje znajdują się w nich, a nie ich stosunkowo proste etykiety. nie mogą być naprawdę ułożone według treści i tematu, ponieważ ludzie nie mówią tak surowymi wzorami, aby maszyna mogła je jednoznacznie zrozumieć. Inne przykłady częściowo ustrukturyzowanych danych obejmują bazy danych NoSQL, otwarty standard JSON i język znaczników XML.

Dane częściowo ustrukturyzowane są zwykle wyszukiwane i katalogowane w celu analizy przy użyciu analizy metadanych. Na przykład skan rentgenowski składa się z ogromnej liczby pikseli tworzących obraz - które są z natury nieuporządkowanymi danymi, do których nie można uzyskać dostępu. Jednak skanowany plik nadal będzie zawierał część metadanych, która zawiera informacje na jego temat, takie jak adnotacje i identyfikator użytkownika.

Czy dane nieustrukturyzowane można przekształcić w dane ustrukturyzowane?

Podstawowym wyzwaniem, przed którym stoi każdy analityk danych, jest uporządkowanie dostępnych informacji w uporządkowany, uporządkowany sposób, aby można było uzyskać do nich dostęp i zrozumieć. Narzędzia do eksploracji danych zwykle nie są przystosowane do analizowania informacji, które z definicji są zbyt podobne do ludzkiego języka, co oznacza, że tylko inny człowiek może je gromadzić i klasyfikować.

Jednak sama ilość nieustrukturyzowanych danych sprawia, że każda próba ich przechowywania lub organizowania jest wyjątkowo pracochłonna i kosztowna. Pula informacji pochodzących, powiedzmy, z internetowej wyszukiwarki jest tak ogromna, że większość elementów wymaga ogromnej inwestycji pod względem pracy i zasobów, aby wyodrębnić te najbardziej podstawowe. Nawet najskuteczniejsze techniki eksploracji danych wciąż brakuje znacznej ilości informacji znalezionych w sieci, a co gorsza, w głębokiej sieci.

Ale istnieją techniki. I są rozwijane z niesamowitą prędkością. Na przykład metadane można wykorzystać do połączenia danych strukturalnych i nieustrukturyzowanych. Zebrane informacje mogą być filtrowane i indeksowane zarówno przez użytkowników, jak i algorytmy, aby po prostu analizować odpowiednie dane. Inne rozwiązania obejmują „przenoszenie danych”, który jest procesem, w którym złożone dane są stopniowo organizowane krok po kroku przez użytkowników nietechnicznych. (Aby uzyskać więcej informacji na temat zwykłych użytkowników przetwarzających dane, zobacz Jak duże dane mogą pomóc w samoobsługowej analizie).

W pewnym momencie będziemy w stanie skutecznie przekształcić te masowo niezorganizowane ilości informacji w bardziej zorganizowany i zrestrukturyzowany format. Może nie dzisiaj, może nie jutro, ale wkrótce będziemy w stanie najechać największą kryptę, jaką ludzkość kiedykolwiek widziała: duże zbiory danych.