Khi crawl đến 1 website nào đó website đó có biết được nguồn nào crawl qua không?

Mấy bác cho em hỏi khi mình crawl đến 1 website nào đó web đó có bắt được ip hay biết được từ website nào crawl qua không ạ!

IP thì 100% bắt được nha.
Còn từ website nào qua thì nó hay check referral, bạn xoá field này trong header đi là được :3

4 Likes
  1. Có check được là request đến bao nhiêu lần không bác (em sợ nó kiểm nhiều sẽ chặn)
  2. Referral là sao bác em dùng code php dom qua.

Để crawl thông tin từ website khác, mà sợ bị lộ tung tích IP thì bạn có thể dùng proxy (có nhiều loại proxy, có loại giấu IP gốc, có loại vẫn trắng sáng như bình thường)

Còn nếu sự bị block IP do requests nhiều quá, thì bạn làm thêm cái function để thay đổi proxy liên tục (ví dụ như đổi sang proxy khác sau n lần request) thì sẽ tránh được.

Tất nhiên, xài proxy cũng đồng nghĩa với việc thông tin của bạn nó đi qua cửa của nhà người ta (người cung cấp proxy), người ta biết hết, nắm được hếtt.
Bạn google theo keyword “php request proxy

4 Likes

Thanks bác nhé, cho em hỏi lộ IP là IP web mình dùng dom hay là IP máy tính vậy bác hay là IP server chạy cron ?

Nhiều website có tính năng chặn request nếu không có http user agent. Mình phải thêm user agent vào, coi như để xác minh danh tính.

IP là của server chạy cron.

Với cả crawl nhiều quá là không tốt :joy:
Vài giây hoặc vài phút một lần là được. Chứ anh cũng phải để cho người ta kiếm cơm chớ :))

4 Likes

:joy: Tuỳ website, có web thì chặn nhiều requests/giây thì mấy request bị lố sẽ return 404 hoặc 400 hoặc lỗi thôi. Có website thì chơi luôn hệ thống chặn bot/crawler thì chỉ có cách tìm cách vượt rào :"> Còn có website cào thoải mái trời mây :3 => Tự detect cơ chế chặn bot và bypass

Còn chặn IP thì như TaoLao nói á. Kiếm cái proxy pool xài. THường các công cụ cung cấp proxy pool sẽ tự làm IP Rotation (Tự động đổi IP) cho mình nên không cần phải code nữa cho mợt OvOb. Mà giá thì cũng khoai lắm. Nếu chọn pool gọi là IP vô tận mà còn IP xịn thì vài trăm - nghìn đô / tháng là ít. Còn nếu chọn proxy pool với giới hạn IP thì vài chục -> vài trăm $ thôi.

4 Likes

Mình từng biết có thằng hình như cài trình duyệt không có GUI (Headless browser) vào một con server nào đó và crawl một trong những website của mình. Mình không biết làm gì, đối phó ra sao với chuyện đó :smiley:

Để cào dữ liệu thông thường, một người làm việc cào cứ cào, nếu anh ấy/ cô ấy bị ban thì thuê proxy hoặc VPN để thực hiện cho đến khi bị ban/ banned hết thì nghỉ.

Với một số người crawl giỏi, có tư duy của một hacker thực thụ thì dường như không có trang web nào chặn nổi bởi sự phân tán. Họ viết virus, mã độc rồi lây nhiễm mã độc vào rất nhiều máy người dùng khắp thế giới, rồi điều khiển mạng bot net này để crawl một/ chùm website nào đó khủng khủng như Amazon, Alibaba, Wikipedia, Web Archive,… rồi gửi kết quả về cho họ. Tất nhiên, nảy sinh vấn đề: ổ cứng và hạ tầng nào hacker có đủ tiền sở hữu đủ để lưu nổi cái mớ hàng triệu Terabyte này.

4 Likes

cám ơn tất cả mọi người nhé!

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?