mình có một thắc mắc trong việc rút xuất thông tin từ trang báo VNExpress. Mình đã cố thử viết rất nhiều pattern để lấy được nội dung trang báo nhưng không thành công. Mình có một link trang báo ví dụ suckhoe.vnexpress.net/tin-tuc/suc-khoe/co-gai-han-quoc-nhiem-virus-zika-sau-khi-tro-ve-tu-viet-nam-3399372.html lấy được content html thì mình lấy được rồi,ai rành regex có thể viết cho mình một cái pattern được không ạ
Xin cám ơn !
Cách lấy nội dung trong VNExpress
Dùng thư viện xử lý html mà lấy nội dung (nằm trong một thẻ nhất định).
Với C# thì có: https://html-agility-pack.net/
Ooops!
5 Likes
Đây, dùng regex này để xóa html tag:
<[^>]+> => replace bằng ""
Nên dùng thư viện để parse thì xử lý tốt hơn, python thì có lxml + BeautifulSoup
3 Likes
Nó có rss đó. Bạn thử đi
1 Like