Cách lấy nội dung trong VNExpress

mình có một thắc mắc trong việc rút xuất thông tin từ trang báo VNExpress. Mình đã cố thử viết rất nhiều pattern để lấy được nội dung trang báo nhưng không thành công. Mình có một link trang báo ví dụ suckhoe.vnexpress.net/tin-tuc/suc-khoe/co-gai-han-quoc-nhiem-virus-zika-sau-khi-tro-ve-tu-viet-nam-3399372.html lấy được content html thì mình lấy được rồi,ai rành regex có thể viết cho mình một cái pattern được không ạ
Xin cám ơn !

Dùng thư viện xử lý html mà lấy nội dung (nằm trong một thẻ nhất định).
Với C# thì có: https://html-agility-pack.net/

Ooops! :roll_eyes:

5 Likes

Đây, dùng regex này để xóa html tag:

<[^>]+> => replace bằng ""

Nên dùng thư viện để parse thì xử lý tốt hơn, python thì có lxml + BeautifulSoup

3 Likes

Nó có rss đó. Bạn thử đi

1 Like
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?