mình đang muốn xây dưng 1 tool để liệt kê các web site được gắn trên 1 trang web.mọi người có cách gì ko chỉ giúp mình với
Tool liệt kê website
Có thể dùng document.link của JS
2 Likes
bạn có biết trong python dùng gi ko?
hình như là beautifulsoup , mà thấy khó học lắm
1 Like
Nếu python thì thường dùng thư viện Beautifulsoup (thư viện phổ biến nhất để lấy và phân tích xml của một webpage).
Dùng thư viện đó scrap xml về rồi tìm các thẻ <a>
rồi lấy giá trị của href
.
Cụ thể ntn thì bạn tự tìm hiểu đi.
1 Like
Bạn gg với từ khoá parse html, trong java nó là jsoup, c# nó là htmlagility, tất nhiên chỉ là 2 cái trong vô số ( ý tưởng là đoc mã nguồn find tất cả các thẻ href, mình nghĩ là như vậy
1 Like
đây là 1 playlist hướng dẫn đầy đủ cách tạo tool bạn muốn bằng python
3 Likes
Bạn có thể xài scrapy cũng ổn. Mình chưa thử beautifulsoup nhưng mình nghĩ cả 2 tools này đều có thể thoả mãn yêu cầu của bạn.
1 Like