đề bài: Thu thập thông tin về các quán ăn trên trang web foody ? nghĩa là như nào vậy ạ
Thu thập thông tin trang web bằng java
Google: java http request
Đọc dữ liệu trang dạng html hoặc lấy kết quả của Ajax từ trang, sau đó tách lấy dữ liệu hàng quán ăn.
3 Likes
tách dữ liệu kiểu như nào ạ
cái đề bài này dùng jsoup được ko anh ơi ?
Dùng JSoup thì càng tiện lợi hơn, dễ dàng trích xuất dữ liệu từ web.
2 Likes
Em có học qua Jsoup để trích xuất dữ liệu về thì thấy một số hạn chế:
- Lấy dữ liệu từ các trang https:// sau một thời gian bị block ip (đối với mỗi router)
- Các trang mà sử dụng ajax thì em cũng chưa lấy đc
Làm sao để xử lý các vấn đề này ạ ?
- Mình không dùng nên không rõ điều gì xảy ra với
JSoup
khiến bị chặn, doJSoup
hay do cơ chế củahttps
. - Ajax không thuộc dạng html, mà JSoup hỗ trợ xml/html nên không thể lấy dữ liệu dạng json (thường là vậy).
3 Likes