Crawl data trong Python

Chào mọi người, mọi người có thể cho em hỏi một chút là hiện tại với Python thì để Crawl data thì cái đang là mới nhất và được sử dụng nhiều nhất ạ??? Em xin cảm ơn!

Sử dụng request kết hợp với beautifulsoup là crawl đc hầu hết trang web rồi.
Nếu web đó sử dụng single-page application (SPA) thì sài thêm puppeteer.
Nếu web có captcha đơn giản thì sài tesseract để vượt captcha
Python cũng có hẳn 1 framework để crawl là scrapy nhưng m hầu như chưa bao giờ cần sài tới :smiley:

3 Likes

Mình toàn dùng Scrapy.
http://doc.scrapy.org/en/latest/intro/tutorial.html

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?