Chào mọi người, mọi người có thể cho em hỏi một chút là hiện tại với Python thì để Crawl data thì cái đang là mới nhất và được sử dụng nhiều nhất ạ??? Em xin cảm ơn!
Crawl data trong Python
Sử dụng request kết hợp với beautifulsoup là crawl đc hầu hết trang web rồi.
Nếu web đó sử dụng single-page application (SPA) thì sài thêm puppeteer.
Nếu web có captcha đơn giản thì sài tesseract để vượt captcha
Python cũng có hẳn 1 framework để crawl là scrapy nhưng m hầu như chưa bao giờ cần sài tới 
3 Likes
Mình toàn dùng Scrapy.
http://doc.scrapy.org/en/latest/intro/tutorial.html
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?