Chào mọi người,
T đang cần crawl tất cả những URL trong 1 site của wikipedia. Nhưng có 1 vấn đề là có 1 số URL ko liên quan tới nội dung (vd như nhưng link edit, log-in,donate, các link chưa có nội dung như red-link…). T đã nghĩ cách để loại bỏ các URL này như sau:
-
Chỉ lấy trong
class="bodycontent"- phần nội dung của trang wiki -
Sau đó loại bỏ các link ko liên quan tới nội dung
Mà bước thứ 2 thì t làm loại bỏ 1 cách thiếu khái quát (nếu 1 URL t biết là vi phạm thì dựa vào dấu hiệu mà tạo 1 regex để loại đi) và t ko chắc là có bao nhiêu loại URL như thế này. Vậy có cách nào để loại bỏ các URL này 1 cách khái quát ko ạ?
Vd

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?