Czy w dużych danych może być kiedykolwiek zbyt dużo danych?

Wideo: Ataki cybernetyczne - zabezpiecz swoje dane, pilnuj swoich pieniędzy

Zawartość

P:

ZA:

Odpowiedź na pytanie brzmi: TAK. W projekcie dużych zbiorów danych może być absolutnie za dużo danych.

Istnieje wiele sposobów, w jakie może się to zdarzyć, i różne powody, dla których specjaliści muszą ograniczać i selekcjonować dane na wiele sposobów, aby uzyskać właściwe wyniki. (Przeczytaj 10 wielkich mitów na temat dużych zbiorów danych).

Ogólnie rzecz biorąc, eksperci mówią o odróżnieniu „sygnału” od „szumu” w modelu. Innymi słowy, w morzu dużych zbiorów danych trudne do zdobycia są odpowiednie dane wglądowe. W niektórych przypadkach szukasz igły w stogu siana.

Załóżmy na przykład, że firma próbuje wykorzystać duże zbiory danych do wygenerowania szczegółowych informacji na temat segmentu bazy klientów i ich zakupów w określonych ramach czasowych. (Przeczytaj Co robi big data?)

Przyjmowanie ogromnej ilości zasobów danych może skutkować pobieraniem losowych danych, które nie są istotne, lub może nawet powodować stronniczość, która wypacza dane w jednym lub innym kierunku.

Spowalnia to również znacznie proces, ponieważ systemy komputerowe muszą zmagać się z coraz większymi zestawami danych.

W tak wielu różnych projektach bardzo ważne jest, aby inżynierowie danych przetwarzali dane na ograniczone i określone zestawy danych - w powyższym przypadku byłyby to tylko dane dla badanego segmentu klientów, tylko dane z tego czasu badane ramy oraz podejście, które eliminuje dodatkowe identyfikatory lub podstawowe informacje, które mogą dezorientować rzeczy lub spowalniać systemy. (Rola ReadJob: Inżynier danych.)

Aby dowiedzieć się więcej, zobaczmy, jak to działa na granicy uczenia maszynowego. (Czytaj Machine Learning 101.)

Eksperci uczenia maszynowego mówią o czymś, co nazywa się „nadmiernym dopasowaniem”, w którym zbyt skomplikowany model prowadzi do mniej efektywnych wyników, gdy program uczenia maszynowego traci dostęp do nowych danych produkcyjnych.

Przeuczenie ma miejsce, gdy złożony zestaw punktów danych zbyt dobrze pasuje do początkowego zestawu treningowego i nie pozwala programowi łatwo dostosować się do nowych danych.

Z technicznego punktu widzenia przeregulowanie nie jest spowodowane zbyt dużą liczbą próbek danych, ale koronacją zbyt wielu punktów danych. Można jednak argumentować, że posiadanie zbyt dużej ilości danych może również przyczyniać się do tego rodzaju problemów. Radzenie sobie z przekleństwem wymiaru wiąże się z niektórymi z tych samych technik, które były stosowane we wcześniejszych projektach dużych zbiorów danych, gdy specjaliści próbowali wskazać, co zasilają systemy informatyczne.

Najważniejsze jest to, że duże zbiory danych mogą być niezwykle pomocne dla firm lub mogą stać się poważnym wyzwaniem. Jednym z aspektów jest to, czy firma ma odpowiednie dane w grze. Eksperci wiedzą, że nie zaleca się po prostu zrzucania wszystkich zasobów danych do zasobnika i przedstawiania w ten sposób spostrzeżeń - w nowych natywnych i wyrafinowanych systemach danych w chmurze podejmowane są wysiłki w celu kontrolowania, zarządzania i selekcjonowania danych w celu uzyskania dokładniejszych i efektywne wykorzystanie zasobów danych.