Hỏi về cách tạo một crawler để tìm kiếm thông tin

longnhse03685 · August 19, 2021, 9:02am

Thầy giáo có giao cho bọn em một project tìm hiểu về crawler và tạo ra một con crawler để thu thập thông tin từ ít nhất 2 trang web rồi lưu chúng vào MongoDB theo dạng có sẵn . Em mới chỉ đến dạng tìm hiểu crawler là gì , nên chả biết bắt đầu code một crawler thế nào ? . Mong mọi người tư vấn giúp ạ ! .

reoteu_ray · March 1, 2017, 4:59pm

bạn thử tìm hiểu về khai phá dữ liệu web coi có thông tin cần thiết ko…con crawler nó như 1 con robot tự động đoc website và trích xuất thông tin mà ta muốn lấy , bạn đọc thử cái này https://toidicodedao.com/2015/07/28/tutorial-trich-xuat-thong-tin-tu-website-voi-html-aglitity-pack/ thử

Dao_An · March 1, 2017, 4:59pm

https://www.amazon.com/Web-Scraping-Python-Collecting-Modern/dp/1491910291
Tìm quyển này về đoc nhé, đọc 2,3 chap đầu là làm đc thôi :D, biết tí cú pháp python là ok

Luong_Quang_Manh · March 1, 2017, 6:01pm

Theo mình, một trong những lựa chọn tốt nhất chính là Scrapy. Được viết bằng Python nên nó khá tiện lợi, dễ sử dụng, nhiều tính năng.

P/s: Trong trường hợp chỉ scrape dữ liệu từ một hay vài trang (chứ không phải cả website), bạn có thể chỉ cần sử dụng requests + beautifulsoup + lxml là quá ổn rồi.