Nếu bạn đã lấy được file HTML về, xem như xong phần Scrapy, và chúng ta không đề cập gì đến nó nữa. Còn bạn chưa làm được, hãy làm tiếp đi nhé, link Tutorial mình đã đưa rồi.
Khi lấy dữ liệu về mà nhiều thì phải ghi xuống file hoặc database sau đó mới đọc lên lại để xử lý. Cách tiếp cận theo kiểu đọc được file nào xử lý file đó cũng được, nhưng có vẻ không mang tính công nghiệp lắm, cũng không vấn đề gì nếu số lượng ít.
Ví dụ giờ bạn đã dùng Scrapy lấy được file .html về, lưu thành file đặt tên là abc.html đi nhé. Có thể đưa file đó lên đây xem thử.
Và bạn cài thư viện Súp Đẹp cho Python với lệnh: pip install beautifulsoup4
Rồi bắt đầu dùng Súp Đẹp để xử lý file abc.html của bạn: https://www.crummy.com/software/BeautifulSoup/bs4/doc/ , sau khi xử lý xong, nó sẽ nằm kết quả trong biến, bạn có thể save lại thành file hay lưu vào database là tuỳ ý.
Nếu dùng các thư viện thấy khó quá, hãy quay về với cách căn bản nhất: dùng Regular Expression.