Khi crawl đến 1 website nào đó website đó có biết được nguồn nào crawl qua không?

Giau_Nguyen · March 26, 2020, 5:28pm

Mấy bác cho em hỏi khi mình crawl đến 1 website nào đó web đó có bắt được ip hay biết được từ website nào crawl qua không ạ!

drgnz · March 26, 2020, 5:08pm

IP thì 100% bắt được nha.
Còn từ website nào qua thì nó hay check referral, bạn xoá field này trong header đi là được :3

Giau_Nguyen · March 27, 2020, 2:35am

Có check được là request đến bao nhiêu lần không bác (em sợ nó kiểm nhiều sẽ chặn)
Referral là sao bác em dùng code php dom qua.

TaoLaoBidaoBanBanhBa · March 27, 2020, 2:42am

Để crawl thông tin từ website khác, mà sợ bị lộ tung tích IP thì bạn có thể dùng proxy (có nhiều loại proxy, có loại giấu IP gốc, có loại vẫn trắng sáng như bình thường)

Còn nếu sự bị block IP do requests nhiều quá, thì bạn làm thêm cái function để thay đổi proxy liên tục (ví dụ như đổi sang proxy khác sau n lần request) thì sẽ tránh được.

Tất nhiên, xài proxy cũng đồng nghĩa với việc thông tin của bạn nó đi qua cửa của nhà người ta (người cung cấp proxy), người ta biết hết, nắm được hếtt.
Bạn google theo keyword “php request proxy”

Giau_Nguyen · March 27, 2020, 2:44am

Thanks bác nhé, cho em hỏi lộ IP là IP web mình dùng dom hay là IP máy tính vậy bác hay là IP server chạy cron ?

noz1995 · March 27, 2020, 2:47am

Nhiều website có tính năng chặn request nếu không có http user agent. Mình phải thêm user agent vào, coi như để xác minh danh tính.

IP là của server chạy cron.

Với cả crawl nhiều quá là không tốt
Vài giây hoặc vài phút một lần là được. Chứ anh cũng phải để cho người ta kiếm cơm chớ :))

drgnz · March 27, 2020, 3:01am

Tuỳ website, có web thì chặn nhiều requests/giây thì mấy request bị lố sẽ return 404 hoặc 400 hoặc lỗi thôi. Có website thì chơi luôn hệ thống chặn bot/crawler thì chỉ có cách tìm cách vượt rào :"> Còn có website cào thoải mái trời mây :3 => Tự detect cơ chế chặn bot và bypass

Còn chặn IP thì như TaoLao nói á. Kiếm cái proxy pool xài. THường các công cụ cung cấp proxy pool sẽ tự làm IP Rotation (Tự động đổi IP) cho mình nên không cần phải code nữa cho mợt OvOb. Mà giá thì cũng khoai lắm. Nếu chọn pool gọi là IP vô tận mà còn IP xịn thì vài trăm - nghìn đô / tháng là ít. Còn nếu chọn proxy pool với giới hạn IP thì vài chục -> vài trăm $ thôi.

superthin · August 25, 2020, 6:38am

Mình từng biết có thằng hình như cài trình duyệt không có GUI (Headless browser) vào một con server nào đó và crawl một trong những website của mình. Mình không biết làm gì, đối phó ra sao với chuyện đó

Để cào dữ liệu thông thường, một người làm việc cào cứ cào, nếu anh ấy/ cô ấy bị ban thì thuê proxy hoặc VPN để thực hiện cho đến khi bị ban/ banned hết thì… nghỉ giải lao

Với một số người crawl giỏi, có tư duy của một hacker thực thụ thì dường như không có trang web nào chặn nổi bởi sự phân tán. Họ viết virus, mã độc rồi lây nhiễm mã độc vào rất nhiều máy người dùng khắp thế giới, rồi điều khiển mạng bot net này để crawl một/ chùm website nào đó khủng khủng như Amazon, Alibaba, Wikipedia, Web Archive,… rồi gửi kết quả về cho họ. Tất nhiên, nảy sinh vấn đề: ổ cứng và hạ tầng nào hacker có đủ tiền sở hữu đủ để lưu nổi cái mớ hàng triệu Terabyte này.

Giau_Nguyen · March 29, 2020, 4:21pm

cám ơn tất cả mọi người nhé!