![7 kroków do nauki eksploracji danych i nauki danych - Technologia 7 kroków do nauki eksploracji danych i nauki danych - Technologia](https://a.continuousdev.com/technology/7-steps-for-learning-data-mining-and-data-science.jpg)
Zawartość
- 1. Nauka języków
- 2. Narzędzia: Data Mining, Data Science i oprogramowanie do wizualizacji
- Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia
- 3. książki
- 4. Edukacja: seminaria internetowe, kursy, certyfikaty i stopnie naukowe
- 5. Dane
- 6. Konkursy
- 7. Interakcja: spotkania, grupy i sieci społecznościowe
Źródło: Paul Fleet / Dreamstime.com
Na wynos:
Nauki o danych najlepiej się uczy, wykonując te czynności, ale ważna jest również dobra podstawa statystyki i uczenia maszynowego.
Często jestem pytany, jak nauczyć się eksploracji danych i analizy danych. Oto moje streszczenie.
Możesz najlepiej uczyć się eksploracji danych i analizy danych, wykonując je, więc zacznij analizować dane tak szybko, jak to możliwe! Nie zapomnij jednak nauczyć się teorii, ponieważ potrzebujesz solidnych podstaw statystycznych i uczenia maszynowego, aby zrozumieć, co robisz i znaleźć prawdziwe samorodki wartości w hałasie dużych zbiorów danych.
Oto siedem kroków do nauki eksploracji danych i analizy danych. Mimo że są ponumerowane, możesz je wykonywać równolegle lub w innej kolejności.
- Języki: Naucz się R, Python i SQL
- Narzędzia: dowiedz się, jak korzystać z narzędzi do eksploracji danych i wizualizacji
- książki: Przeczytaj książki wprowadzające, aby zrozumieć podstawy
- Edukacja: oglądaj seminaria internetowe, bierz udział w kursach i rozważ certyfikat lub stopień naukowy w dziedzinie danych (czytaj więcej w Ben Loricas Jak pielęgnować specjalistę ds. Danych).
- Dane: sprawdź dostępne zasoby danych i znajdź tam coś
- Konkursy: Weź udział w konkursach eksploracji danych
- Interakcja z innymi naukowcami danych za pośrednictwem sieci społecznościowych, grup i spotkań
W tym artykule używam zamiennie eksploracji danych i analizy danych. Zobacz moją prezentację, Omówienie branży analitycznej, w której przyglądam się ewolucji i popularności różnych terminów, takich jak statystyki, odkrywanie wiedzy, eksploracja danych, analizy predykcyjne, analiza danych i duże zbiory danych.
1. Nauka języków
Niedawna ankieta KDnuggets wykazała, że najpopularniejszymi językami do eksploracji danych są R, Python i SQL. Istnieje wiele zasobów dla każdego, na przykład:
- Bezpłatny e-book o Data Science with R
- Rozpoczęcie pracy z Python dla Data Science
- Python do analizy danych: zwinne narzędzia do danych w świecie rzeczywistym
- Niezbędny Python: pozyskiwanie danych do Data Science
- W3 Schools Learning SQL
2. Narzędzia: Data Mining, Data Science i oprogramowanie do wizualizacji
Istnieje wiele narzędzi do eksploracji danych do różnych zadań, ale najlepiej nauczyć się korzystać z pakietu do eksploracji danych, który obsługuje cały proces analizy danych. Możesz zacząć od narzędzi typu open source (darmowych), takich jak KNIME, RapidMiner i Weka.
Jednak w przypadku wielu zadań analitycznych musisz znać SAS, które jest wiodącym narzędziem komercyjnym i jest szeroko stosowane. Inne popularne oprogramowanie do analizy i eksploracji danych to MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler i Rattle.
Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia
Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.
Wizualizacja jest istotną częścią każdej analizy danych. Dowiedz się, jak korzystać z Microsoft Excel (dobry do wielu prostszych zadań), grafiki R, (szczególnie ggplot2), a także Tableau - doskonały pakiet do wizualizacji. Inne dobre narzędzia do wizualizacji to TIBCO Spotfire i Miner3D.
3. książki
Dostępnych jest wiele książek o eksploracji danych i analizach danych, ale możesz je sprawdzić:
- Eksploracja i analiza danych: podstawowe pojęcia i algorytmy, bezpłatne pobieranie plików PDF (wersja robocza), autorstwa Mohammeda Zaki i Wagner Meira Jr.
- Data Mining: Practical Machine Learning Tools and Techniques, autor: Ian Witten, Eibe Frank i Mark Hall, autorzy Weka, i wykorzystując Weka w przykładach
- Elementy uczenia statystycznego, eksploracji danych, wnioskowania i prognozowania - Trevor Hastie, Robert Tibshirani, Jerome Friedman. Świetne wprowadzenie dla zorientowanych matematycznie
- LIONbook: Learning and Intelligent Optimization, autor: Roberto Battiti i Mauro Brunato, bezpłatnie dostępny w sieci, rozdział po rozdziale
- Mining of Massive Datasets Book, A. Rajaraman, J. Ullman
- Książka StatSoft Electronic Statistics (darmowa), zawiera wiele tematów eksploracji danych
4. Edukacja: seminaria internetowe, kursy, certyfikaty i stopnie naukowe
Możesz zacząć od obejrzenia niektórych z wielu bezpłatnych seminariów internetowych i webcastów na najnowsze tematy z zakresu analityki, big data, eksploracji danych i data science.
Istnieje również wiele kursów online, krótkich i długich, wiele z nich jest darmowych. (Zobacz internetowy katalog edukacyjny KDnuggets.)
Sprawdź w szczególności te kursy:
- Machine Learning, w Coursera, prowadzony przez Andrew Ng
- Uczenie się od danych w edX, prowadzone przez profesora Caltecha, Yasera Abu-Mostafę
- Otwarty kurs online z zakresu nauk o danych stosowanych, od Syracuse iSchool
- Data Mining with Weka, bezpłatny kurs online
- Sprawdź także bezpłatne slajdy internetowe z mojego kursu Data Mining, semestralnego kursu wprowadzającego do eksploracji danych
Na koniec zastanów się nad uzyskaniem certyfikatów w zakresie eksploracji danych i nauki o danych lub stopni naukowych, takich jak magister danych.
5. Dane
Będziesz potrzebować danych do analizy - patrz katalog KDnuggets zestawów danych dla wyszukiwania danych, w tym:
- Witryny i portale rządowe, federalne, stanowe, miejskie, lokalne i publiczne
- Interfejsy API danych, huby, platformy handlowe, platformy, portale i wyszukiwarki
- Darmowe publiczne zbiory danych
6. Konkursy
Ponownie najlepiej się uczyć, robiąc to, więc bierz udział w konkursach Kaggle. Zacznij od konkursów dla początkujących, takich jak przewidywanie przetrwania Titanica za pomocą uczenia maszynowego.
7. Interakcja: spotkania, grupy i sieci społecznościowe
Możesz dołączyć do wielu grup rówieśniczych. Zobacz 30 najlepszych grup LinkedIn w zakresie analityki, Big Data, Data Mining i Data Science.
AnalyticBridge to aktywna społeczność zajmująca się analizami i analizą danych.
Możesz wziąć udział w wielu spotkaniach i konferencjach dotyczących analityki, Big Data, eksploracji danych, nauki danych i odkrywania wiedzy.
Rozważ także dołączenie do ACM SIGKDD, która organizuje doroczną konferencję KDD - wiodącą konferencję badawczą w tej dziedzinie.
Ten artykuł jest dostępny na stronie KDNuggets.com. Został użyty za zgodą autora.