Hỏi cách crawl data như video

Em muốn nhờ mọi người thử xem vid rồi cho em hỏi:

  • Crawl data từ youtube như thế là có sử dụng API key không ạ, nếu có thì cho em hỏi cách dùng như thế nào ạ.
  • Có thể là em sai nhưng em không nghĩ dùng API key mà được như thế đâu ạ. Nếu thế thì crawl bằng cách nào, em thử liên tục mà không có cách nào ổn hết, source youtube thay liên tục. (Em dùng C# ạ)

Mong mọi người giải đáp ạ. Em xin cảm ơn.

https://drive.google.com/file/d/14VyVg0FV2gTerHPZhPVJj36zGzwyu0gQ/view?usp=sharing

PS: Em có thử hỏi 2 tác giả rồi nhưng lại sủi hết nguyên tháng trời rồi ạ.

Rõ là trong video nói là cào bằng dữ liệu HTML trả về. Bạn tự thử và phân tích cấu trúc HTML (hoặc JSON) mà Youtube trả về để lấy dữ liệu bạn cần (hình dại diện video, tiêu đề, mô tả, id - cũng là tham số cho url). Bạn ấy có dùng đến các điều khiển (control) hỗ trợ duyệt web (có thể là WebBrowser) để hiển thị dữ liệu cào được.

Thêm

Trong video, người hỏi (giảng viên/giáo viên) có yêu cầu so sánh 2 kết quả từ ứng dụng của bạn ấy và kết quả tìm kiếm bằng trình duyệt, chúng chắc chắn khác nhau. Như bạn ấy nói, nó gợi ý.
Các video gợi ý theo tài khoản đăng nhập, hoặc lịch sử xem, quốc gia, ngôn ngữ, chủ đề mà người xem hướng tới, được lưu ở Cookie hoặc LocalStorage nếu chưa đăng nhập. Kết quả được cá nhân hóa, nên nó sẽ không giống nhau 100%.

7 Likes

Dạ cám ơn bác. Vụ đó em xử lí bằng cách cào theo id cũng được rồi ạ. Mà sẵn tiện bác biết cách chỉnh web browser sử dụng phiên bản mới nhất không ạ. Mặc dù edge của em up to date rồi ạ.

1 Like

Bác chơi C# ak …Em thì dùng Python
Đối với video thì em dùng thư viện youtube-dl để tải về
Còn tiêu đề và các thông tin khác thì em sử dụng BS4 để phân tích cú pháp để lấy…

2 Likes

Em cũng nghe python có nhiều thư viện hỗ trợ cào, tính để khi nào tìm hiểu. C# thì em xài regex :v

1 Like
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?