Helo mọi người. Năm mới chúc mọi người có thật nhiều sức khỏe và niềm vui bên gia đình và người thân nhé <3
Em đang có ý tưởng là làm 1 trang web tự động đăng tin covid 19.
Data em sẽ crawl từ các trang báo -> sau đó tiền sử lí, stopword, tokenize, . . .
Sau đó lưu data vào sqlite. Rồi auto post lên web site.
Các bác có keyword hay project tương tự của ý tưởng này không ạ.
Em xin cám ơn <3
Tạo trang web tự động đăng tin Covid 19
crawl mới đúng chính tả.
Báo có RSS đó bạn, cứ định kỳ 30 phút feed lại RSS 1 lần để lấy URL tin mới rồi lọc tin covid ra. Chọn được URL post liên quan tới covid thì crawl về lưu database của mình.
Đâu cần xử lý chuổi phức tạp. Content báo viết từ text editor ra, content không có CSS toàn căn lề, in đậm, in nghiêng, thụt đầu dòng, … bằng HTML thôi nên lấy y nguyên vậy ráp vào web mình. Ảnh thì chơi kiểu hotlinking luôn cứ để y nguyên URI vậy.
SQLite chỉ chạy localhost thôi (không biết có chạy remote được không) nên phảt treo máy tính cá nhân 24/7. Chuyển qua MySQL, SQL server thì thuê được server.
Có database rồi thì làm backend, frontend thôi.
Mình có làm project dạng này rồi. Chả cần lưu database làm gì luôn. Project chỉ có mỗi phần frontend, mỗi khi user truy cập dùng chính javascript tại máy user đi crawl web khác. Hosting cho file tĩnh HTML, CSS, JS thì free, data cache tại máy user, lại đỡ bị trang báo chặn IP khi crawl quá nhiều.
anh cho em xin tham khảo với ạ. Em làm cái này bằng Python á không biết có thể làm tương tự như project của anh không nữa
Keyword với cách làm mình đưa hết rồi đó bạn.
Mục đích làm project của bạn là gì?
- Nếu mục đích nặng về phần data để xử lý thống kê, vẽ biểu đồ, data analysis, … thì mình không tư vấn được. Python thì làm backend bằng framework django đó bạn.
- Nếu mục đích của bạn là cần data để viết content như viết blog, viết báo thì làm như cách của mình bên trên. JS thì bạn chọn một trong các framework, lib này để làm: Reactjs, Angular, vue, … Rồi bạn lên trang chủ NPM tìm thư viện nào phù hợp thì cài vào.
dạ cám ơn a ạ. Em làm thiên về phần xử lí dữ liệu. Python