Data mining: Thu thập dữ liệu từ nhiều website bán hàng (e.g. Skyscanner, websosanh.vn)

Chào các anh chị và các bạn,

Mình hiện tai đang nghiên cứu việc lấy dữ liệu bằng phương pháp data mining.
Như câu hỏi trên tự đề: Làm thế nào ta có thể lấy giữ liệu từ các trang bán hàng ?

Mình là một newbie trong lĩnh vực này.
Mong anh chị nào và các bạn đi trước cho mình vài từ khóa để mình có thể tiếp cận phương pháp này.
Xin cảm ơn nhiều!

Theo mình biết thì có 2 cách:

  1. Website sẽ cung cấp API để bạn truy xuất dữ liệu, cách thì thường thì ít, và nếu có thì các API sẽ tính phí.
  2. Viết crawler/spider để “ăn cắp” dữ liệu từ website, cách này thường sẽ khó vì mỗi website mỗi kiểu, và thường các website có nhiều dữ liệu thì người ta có cơ chế để chống crawling. Bạn tìm hiểu thêm về web crawling sẽ biết.

1 điều hiển nhiên là dữ liệu từ website của ngta, thuộc quyền sỡ hữu của ngta (dữ liệu thu thập bằng tiền), sẽ đụng chạm đến vấn đề quyền sỡ hữu, nếu làm cho vui thì không sao, còn nếu làm app mang tính thương mại thì phải xem xét

2 Likes
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?