Crawl URL trên wikipedia

Chào mọi người,

T đang cần crawl tất cả những URL trong 1 site của wikipedia. Nhưng có 1 vấn đề là có 1 số URL ko liên quan tới nội dung (vd như nhưng link edit, log-in,donate, các link chưa có nội dung như red-link…). T đã nghĩ cách để loại bỏ các URL này như sau:

  1. Chỉ lấy trong class="bodycontent" - phần nội dung của trang wiki

  2. Sau đó loại bỏ các link ko liên quan tới nội dung

Mà bước thứ 2 thì t làm loại bỏ 1 cách thiếu khái quát (nếu 1 URL t biết là vi phạm thì dựa vào dấu hiệu mà tạo 1 regex để loại đi) và t ko chắc là có bao nhiêu loại URL như thế này. Vậy có cách nào để loại bỏ các URL này 1 cách khái quát ko ạ?
Vd

Wikipedia có cung cấp API: https://en.wikipedia.org/w/api.php nên việc gì phải tốn công crawl làm gì?

7 Likes

Em chỉ lấy URL liên quan đến content trong 1 site cụ thể thôi ạ,còn các URL như edit … thì loại ra ấy ạ Để e thử xem thế nào ạ, e cảm ơn a nhé

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?