Xin chào mọi người!
Mình là Minh, thành viên mới của diễn đàn.
Minh hiện là sinh viên ngành Tài chính - Ngân hàng, nhưng lại muốn học về Big Data và muốn ứng dụng nó cho Tài chính Ngân hàng, nhưng Minh lại không biết phải học những gì để trở thành một Data Scientist của Big Data.
Mong mọi người giúp đỡ.
Trao đổi về tự học cho nghề Data Scientist trong Big Data
Có lẽ em đang hiểu nhầm data science là 1 cái gì đó rất hào nhoáng, nhưng thực chất em cũng đang học về nó đấy thôi, đó là thống kê! Anh nhớ trong ngành kinh tế cũng có học về phần mềm này, em tham khảo thử nhé :
https://www.ibm.com/vn-en/marketplace/spss-predictive-analytics-enterprise
Phương pháp học top-down, từ ứng dụng đến lý thuyết toán.
Đầu tiên bạn học Data Science Specialization, có tổng cộng 10 courses. Bạn học xong thì hiểu được quy trình xử lý data từ crawling, cleaning, visualization, data mining, report, có đủ kiến thức căn bản Data Science. Ngôn ngữ được học là ngôn ngữ R, không phổ biến hơn Python.
Bước thứ 2 là học Python và các thư viện đi kèm với Python.
- Python: Learn Python The Hard Way
- Numpy: Numpy Quick Start, Numpy User Guide
- Pandas: Pandas Tutorial, Pandas Tutorial, Pandas Documentation
- SciPy: Scipy Reference
- StatsModels: Stable Documentation
- Scikit-learn: ScikitLearn Documentation
- Matplotlib: Matplotlib docs
- Seaborn: Seaborn Tutorial
- Plotty: Ploty Home Page
Bước 3 là học lý thuyết, mình gợi ý một số quyển sách sau:
- Database System: Fundamentals of Database Systems
- Database AdAdministration: Database Administration: The Complete Guide to DBA Practices and Procedure
- Data Mining: Data Mining - Concepts and Techniques
- Probability: An Introduction to Probability Theory and Its Application
- Statistics: Think Stats: Exploratory Data Analysis
- Machine Learning: The Elements of Statistical Learning: Data Mining, Inference, and Prediction
Bước 4, bước cuối cùng, bạn tự tạo 1 project nào về lĩnh vực bạn quan tâm, như User Behavior, tiến hành bước lấy data, xử lý data, vẽ biểu đồ trên không gian 2D 3D.
Phương pháp top-down để bạn có được kiến thức căn bản thôi nhé, nhưng cũng đủ để bạn có công việc.
Thời gian học có thể từ 3 đến 6 tháng, tuỳ vào kĩ năng lập trình của bạn.
Học Data Science xong, em có thể theo learning path sau để học tiếp Big Data. Có thể bỏ qua bước học Python trong ảnh.
Để giải thích về BigData cho bạn thì không nói trong 1 hai câu là xong được,tuy nhiên có thề nhìn từ những thách thức của BigData là bạn thấy được nó là gì, dùng công nghệ nào, đó là:
- Thu thập (Capturing)
- Lưu trữ (Storage)
- Truyền dẫn (Transfer)
- Tìm kiếm (Search)
- Truy vấn (Querying)
- Phân tích (Analysis)
- Cập nhật (Updating)
- Trực quan hóa (Visualization)
- Chia sẻ (Sharing)
- Bảo mật thông tin (Information Privacy)
Bạn có thể xem chi tiết tại đây.