Hỏi về cách tạo một crawler để tìm kiếm thông tin

Thầy giáo có giao cho bọn em một project tìm hiểu về crawler và tạo ra một con crawler để thu thập thông tin từ ít nhất 2 trang web rồi lưu chúng vào MongoDB theo dạng có sẵn . Em mới chỉ đến dạng tìm hiểu crawler là gì , nên chả biết bắt đầu code một crawler thế nào ? . Mong mọi người tư vấn giúp ạ ! :frowning: .

bạn thử tìm hiểu về khai phá dữ liệu web coi có thông tin cần thiết ko…con crawler nó như 1 con robot tự động đoc website và trích xuất thông tin mà ta muốn lấy , bạn đọc thử cái này https://toidicodedao.com/2015/07/28/tutorial-trich-xuat-thong-tin-tu-website-voi-html-aglitity-pack/ thử

1 Like

https://www.amazon.com/Web-Scraping-Python-Collecting-Modern/dp/1491910291
Tìm quyển này về đoc nhé, đọc 2,3 chap đầu là làm đc thôi :D, biết tí cú pháp python là ok

2 Likes

Theo mình, một trong những lựa chọn tốt nhất chính là Scrapy. Được viết bằng Python nên nó khá tiện lợi, dễ sử dụng, nhiều tính năng.

P/s: Trong trường hợp chỉ scrape dữ liệu từ một hay vài trang (chứ không phải cả website), bạn có thể chỉ cần sử dụng requests + beautifulsoup + lxml là quá ổn rồi.

1 Like
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?