Thu thập thông tin trang web bằng java

đề bài: Thu thập thông tin về các quán ăn trên trang web foody ? nghĩa là như nào vậy ạ

Google: java http request

Đọc dữ liệu trang dạng html hoặc lấy kết quả của Ajax từ trang, sau đó tách lấy dữ liệu hàng quán ăn.

3 Likes

tách dữ liệu kiểu như nào ạ

cái đề bài này dùng jsoup được ko anh ơi ?

Dùng JSoup thì càng tiện lợi hơn, dễ dàng trích xuất dữ liệu từ web.

2 Likes

Em có học qua Jsoup để trích xuất dữ liệu về thì thấy một số hạn chế:

  • Lấy dữ liệu từ các trang https:// sau một thời gian bị block ip (đối với mỗi router)
  • Các trang mà sử dụng ajax thì em cũng chưa lấy đc
    Làm sao để xử lý các vấn đề này ạ ?
  • Mình không dùng nên không rõ điều gì xảy ra với JSoup khiến bị chặn, do JSoup hay do cơ chế của https.
  • Ajax không thuộc dạng html, mà JSoup hỗ trợ xml/html nên không thể lấy dữ liệu dạng json (thường là vậy).
3 Likes
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?