Làm trong lĩnh vực Big Data thì cần học gì?

Em có mong muốn làm trong lĩnh vực Big Data. Vậy nên em mong mọi người chia sẻ kinh nghiệm trong khi làm việc trong lĩnh vực Big Data: Cần học những kĩ năng gì? Nên học ngôn ngữ nào? Sử dụng các công cụ gì? Có nên học cao học như Thạc sĩ, Tiến sĩ hay không?..

Ngoài ra ở Việt Nam có những công ty nào có làm về lĩnh vực Big Data thì mọi người chia sẻ luôn nhé :slight_smile:

Có một chia sẻ của một anh đang làm data engineer á bạn https://daynhauhoc.com/t/i-have-an-engineer-i-have-a-big-data-ohh-i-lost-in-space/38369

“Big data” hay cái gì gì đấy nó chỉ là tên của một vấn đề trong data analytics / data science thôi (Sau này marketing kiểu gì gì đấy nó được coi thành một lĩnh vực / nghề nghiệp luôn :sweat_smile:). Thường có hai nhành nghề nghiệp chính liên quan: Data engineer và data scientist. Data engineer giải quyết các vấn đề liên quan đến việc lưu trữ, xử lý dữ liệu, từ sử dụng công cụ nào, tổ chức hệ thống ra sao, biến đổi dữ liệu thế nào… Data scientist / data analyst giải quyết vấn đề liên quan đến phân tích, rút trích thông tin hữu ích từ dữ liệu, sử dụng dữ liệu để giải quyết bài toán được đặt ra. Nhánh 2 thường yêu cầu trình độ master trở lên.

Học thì có thể học ở đây nè bạn https://bigdatauniversity.com/learn/.

4 Likes

Có 2 hướng chính là data engineer và data science, mình học data science chủ yếu trên trường (cảm thấy chỉ vừa đủ để đọc các tài liệu khác thôi), còn data engineer thì tự mày mò các framework và tool để build giả lập một số DWH và vấn đề thực tế rồi solve thử. :smiley: đụng rất ít đến các vấn đề thực tế như scale, balance,…
Có nhiều công ty làm về lĩnh vực Big Data lắm, nhưng mà lượng đủ lớn trong thời gian dài thì thường các công ty về quảng cáo hoặc thương mại điện tử.
p/s: Mình thấy trang kaggle cũng hay, thường hay lên đọc hướng phân tích của họ (không dám chơi hehe)

1 Like

Chắc bác cũng học về lĩnh vực này đúng không? thấy bác tham gia nhiều vào các chủ đề trong lĩnh vực Big data

Sao không dám chơi, trên đó khó lắm hả bạn?

Vì cần thời gian và đầu tư (có thể cả tiền), mình thì đọc các bài phân tích các dataset của các bác trên đó thôi.

Mình trước có tìm hiểu thôi chứ không làm việc trực tiếp bên đó :sweat_smile:

Kaggle có nhiều bài hướng dẫn khá hay :smiley:. Bạn lên đó đọc thử. Nhánh của Kaggle là dành cho data scientist / AI researcher, dữ liệu trên đó ở mức small -> medium chứ không có “Big” cỡ terabyte đâu. https://www.kaggle.com/c/titanic, cái bài thi này là bài hướng dẫn mở đầu cho mọi người.

1 Like

BD là một phân ngành rộng, đòi hỏi người trong lĩnh vực này phải trao dồi rất nhiều kiến thức, không chỉ trong lập trình, trong thuật toán, trong hệ thống, trong thống kê lẫn hiển thị dưới dạng biểu đồ thay vì con số, mà còn cả lĩnh vực mà họ đang áp dụng BD vào. Ví dụ như ngành QC thì họ phải hiểu rõ các khải niệm của marketing, ngành y tế thì phải nắm được các khái niệm cơ bản của y học… Cho nên hỏi BD thì cần học gì thì trả ai trả lời bạn, mà bạn phải từ trả lời là muốn làm gì trước thì mới hướng dẫn được.

@Itachi_Citus: cái hình Roles ấy post cho vui thôi, vì phân ngành này đang cực kì khan hiếm, một người có thể đảm nhận làm các job của 4 vị trí là chuyện thường.

Nếu DE không là người làm scale và balance hệ thống thì ai làm nữa :scream_cat:

Btw, hôm bữa mình mới đi một hội thảo của dân kinh tế họ nói về CRM (không phải phần mềm CRM nhé, mà CRM đối với họ là qui trình trong kinh doanh xoay quanh khách hàng), lúc này họ show ra những data visualization cực kì bá đạo, nếu nhìn vào ngay lập tức đã phân tích được vấn đề, như nhân viên, phòng ban nào đang có vấn đề, các chiến lược công ty đang thực hiện là gì… Một điều mà dân kỹ thuật rất khó làm được, chứ ko phải đơn giản query show vài ba cái chart vớ vấn lên. Và nó cũng ảnh hưởng thiết thực tới phân ngành BD, không phải chỉ gói gọn trong kỹ thuật ko, mà nên đi tìm hiểu bên ngoài, rồi áp dụng vào lại hệ thống BD của mình.

3 Likes

Ý là mình chưa có dịp làm thử :sweat: có mượn đc 2 server để setup qua lại nhưng chưa thấy thấm thía gì cả (đang ở trình độ “install & run” :sunglasses:)

Visualization cũng là một nghệ thuật mà, đồng ý là cái này cần trao dồi qua kinh nghiệm và cần thời gian.

Thường thì em thấy data scientist không có nhiều kiến thức trong việc triển khai hệ thống, cấu hình máy chủ. Ngược lại data engineer không có nhiều kiến thức trong xác suất thống kê, phân tích dữ liệu và máy học (nếu có thì cũng biết kiểu… biết xài thư viện thôi). Ở công ty em hiện tại 2 vị trí đó tách biệt khá rõ chứ không dẫm lên nhau :sweat_smile:. Nếu công ty không tách ra hình như không hiệu quả trong thời gian dài :sweat_smile:, thường chỉ dừng lại ở mức visualize, “hiểu” được dữ liệu chứ chưa đến mức phân tích dữ liệu, đưa ra hệ thống hỗ trợ quyết định :smiley:.

Dừng lại ở tầng 2

1 Like

Em thấy mấy anh chị ở vị trí consultant của thế, đợt em làm công tỹ cũ, lượng record lên tới 3 tỉ record/ngày. làm về chứng khoáng, bên em phân tích để kiểm tra xem người chơi có vi phạm luật không, sau khi phân tích đưa ra số liệu cuối cùng, mấy bác consultant nhìn vào là biết có vấn đề, không hợp lý. Dev xem lại mới biết bị miss :smiley:

Theo mình thì cần phải biết:

  1. Toán: Xác suất thống kê, đại số tuyến tính.
  2. Python, R (2 ngôn ngữ hay dùng )
  3. Hadoop, Spark (nếu học Spark thì nên biết Scala vì Spark được viết bằng Scala).
  4. Machine Learning.
  5. Một số thư viện như : Sckit-learn, Numpy, Scipy…

:grinning:

3 Likes

Do chung ta là dân Kỹ thuật nên suy nghĩ theo kiểu kỹ thuật, mà kg xét đến yếu tố Nghiệp Vụ. Big data có nghiều loại như data analysis hay data science. Nhưng nếu analysis thì analysis cái gì/như thế nào do nghiệp vụ quyết định.

VD nếu đề bài là phân tích cầu thủ đang đá bóng, các bác phân tích được không ? Phải yêu cầu cụ thể cầu thủ chạy bao nhiều km, chuyền bao nhiêu quả, sút bao nhiêu cú hay chỉ phân tích chiều cao/cân nặng và chế độ dinh dưỡng.tập luyện hằng ngày.

Có yêu cầu rồi, bây giờ thu thập dữ liệu, dựa vào camera/pm nhận dạng ảnh để biết từng cầu thủ. Đưa data cầu thủ này vào dữ liệu rồi phân tích.

Nếu kg biết mình sẽ phân tích cái gì, thì rất khó làm việc hiệu quả.

PS: không biết mình có nói thừa không :smiley: !

1 Like

Hay nha
Cảm ơn nhiều nha

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?