7 kroków do nauki eksploracji danych i nauki danych

Autor: Eugene Taylor
Data Utworzenia: 12 Sierpień 2021
Data Aktualizacji: 22 Czerwiec 2024
Anonim
7 kroków do nauki eksploracji danych i nauki danych - Technologia
7 kroków do nauki eksploracji danych i nauki danych - Technologia

Zawartość


Źródło: Paul Fleet / Dreamstime.com

Na wynos:

Nauki o danych najlepiej się uczy, wykonując te czynności, ale ważna jest również dobra podstawa statystyki i uczenia maszynowego.

Często jestem pytany, jak nauczyć się eksploracji danych i analizy danych. Oto moje streszczenie.

Możesz najlepiej uczyć się eksploracji danych i analizy danych, wykonując je, więc zacznij analizować dane tak szybko, jak to możliwe! Nie zapomnij jednak nauczyć się teorii, ponieważ potrzebujesz solidnych podstaw statystycznych i uczenia maszynowego, aby zrozumieć, co robisz i znaleźć prawdziwe samorodki wartości w hałasie dużych zbiorów danych.

Oto siedem kroków do nauki eksploracji danych i analizy danych. Mimo że są ponumerowane, możesz je wykonywać równolegle lub w innej kolejności.

  1. Języki: Naucz się R, Python i SQL
  2. Narzędzia: dowiedz się, jak korzystać z narzędzi do eksploracji danych i wizualizacji
  3. książki: Przeczytaj książki wprowadzające, aby zrozumieć podstawy
  4. Edukacja: oglądaj seminaria internetowe, bierz udział w kursach i rozważ certyfikat lub stopień naukowy w dziedzinie danych (czytaj więcej w Ben Loricas Jak pielęgnować specjalistę ds. Danych).
  5. Dane: sprawdź dostępne zasoby danych i znajdź tam coś
  6. Konkursy: Weź udział w konkursach eksploracji danych
  7. Interakcja z innymi naukowcami danych za pośrednictwem sieci społecznościowych, grup i spotkań

W tym artykule używam zamiennie eksploracji danych i analizy danych. Zobacz moją prezentację, Omówienie branży analitycznej, w której przyglądam się ewolucji i popularności różnych terminów, takich jak statystyki, odkrywanie wiedzy, eksploracja danych, analizy predykcyjne, analiza danych i duże zbiory danych.


1. Nauka języków

Niedawna ankieta KDnuggets wykazała, że ​​najpopularniejszymi językami do eksploracji danych są R, Python i SQL. Istnieje wiele zasobów dla każdego, na przykład:

  • Bezpłatny e-book o Data Science with R
  • Rozpoczęcie pracy z Python dla Data Science
  • Python do analizy danych: zwinne narzędzia do danych w świecie rzeczywistym
  • Niezbędny Python: pozyskiwanie danych do Data Science
  • W3 Schools Learning SQL

2. Narzędzia: Data Mining, Data Science i oprogramowanie do wizualizacji

Istnieje wiele narzędzi do eksploracji danych do różnych zadań, ale najlepiej nauczyć się korzystać z pakietu do eksploracji danych, który obsługuje cały proces analizy danych. Możesz zacząć od narzędzi typu open source (darmowych), takich jak KNIME, RapidMiner i Weka.

Jednak w przypadku wielu zadań analitycznych musisz znać SAS, które jest wiodącym narzędziem komercyjnym i jest szeroko stosowane. Inne popularne oprogramowanie do analizy i eksploracji danych to MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler i Rattle.


Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia

Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.

Wizualizacja jest istotną częścią każdej analizy danych. Dowiedz się, jak korzystać z Microsoft Excel (dobry do wielu prostszych zadań), grafiki R, (szczególnie ggplot2), a także Tableau - doskonały pakiet do wizualizacji. Inne dobre narzędzia do wizualizacji to TIBCO Spotfire i Miner3D.

3. książki

Dostępnych jest wiele książek o eksploracji danych i analizach danych, ale możesz je sprawdzić:

  • Eksploracja i analiza danych: podstawowe pojęcia i algorytmy, bezpłatne pobieranie plików PDF (wersja robocza), autorstwa Mohammeda Zaki i Wagner Meira Jr.
  • Data Mining: Practical Machine Learning Tools and Techniques, autor: Ian Witten, Eibe Frank i Mark Hall, autorzy Weka, i wykorzystując Weka w przykładach
  • Elementy uczenia statystycznego, eksploracji danych, wnioskowania i prognozowania - Trevor Hastie, Robert Tibshirani, Jerome Friedman. Świetne wprowadzenie dla zorientowanych matematycznie
  • LIONbook: Learning and Intelligent Optimization, autor: Roberto Battiti i Mauro Brunato, bezpłatnie dostępny w sieci, rozdział po rozdziale
  • Mining of Massive Datasets Book, A. Rajaraman, J. Ullman
  • Książka StatSoft Electronic Statistics (darmowa), zawiera wiele tematów eksploracji danych

4. Edukacja: seminaria internetowe, kursy, certyfikaty i stopnie naukowe

Możesz zacząć od obejrzenia niektórych z wielu bezpłatnych seminariów internetowych i webcastów na najnowsze tematy z zakresu analityki, big data, eksploracji danych i data science.

Istnieje również wiele kursów online, krótkich i długich, wiele z nich jest darmowych. (Zobacz internetowy katalog edukacyjny KDnuggets.)

Sprawdź w szczególności te kursy:

  • Machine Learning, w Coursera, prowadzony przez Andrew Ng
  • Uczenie się od danych w edX, prowadzone przez profesora Caltecha, Yasera Abu-Mostafę
  • Otwarty kurs online z zakresu nauk o danych stosowanych, od Syracuse iSchool
  • Data Mining with Weka, bezpłatny kurs online
  • Sprawdź także bezpłatne slajdy internetowe z mojego kursu Data Mining, semestralnego kursu wprowadzającego do eksploracji danych

Na koniec zastanów się nad uzyskaniem certyfikatów w zakresie eksploracji danych i nauki o danych lub stopni naukowych, takich jak magister danych.

5. Dane

Będziesz potrzebować danych do analizy - patrz katalog KDnuggets zestawów danych dla wyszukiwania danych, w tym:

  • Witryny i portale rządowe, federalne, stanowe, miejskie, lokalne i publiczne
  • Interfejsy API danych, huby, platformy handlowe, platformy, portale i wyszukiwarki
  • Darmowe publiczne zbiory danych

6. Konkursy

Ponownie najlepiej się uczyć, robiąc to, więc bierz udział w konkursach Kaggle. Zacznij od konkursów dla początkujących, takich jak przewidywanie przetrwania Titanica za pomocą uczenia maszynowego.

7. Interakcja: spotkania, grupy i sieci społecznościowe

Możesz dołączyć do wielu grup rówieśniczych. Zobacz 30 najlepszych grup LinkedIn w zakresie analityki, Big Data, Data Mining i Data Science.

AnalyticBridge to aktywna społeczność zajmująca się analizami i analizą danych.

Możesz wziąć udział w wielu spotkaniach i konferencjach dotyczących analityki, Big Data, eksploracji danych, nauki danych i odkrywania wiedzy.

Rozważ także dołączenie do ACM SIGKDD, która organizuje doroczną konferencję KDD - wiodącą konferencję badawczą w tej dziedzinie.

Ten artykuł jest dostępny na stronie KDNuggets.com. Został użyty za zgodą autora.