Cào dữ liệu trong php

Sáng nay thầy có cho bài tập nghiên cứu về việc cào dữ liệu từ 1 trang web lấy nó tự động về trang web của mình, có hai dạng là:

  1. >>
  • Đăng ký lấy API Key
  • Kết xuất XML
  • Viết PHP đoạn xử lý hiển thị và cho câu khuyến nghị.
  1. Cào dữ liệu thông qua thư viện Simple HTML DOM Parser.

Ai có tài liệu hay kinh nghiệm gì về kĩ thuật cào dữ liệu này chia sẻ giúp em với ạ.

1 Like

cào dữ liệu hay crawler thì mình dùng scrapy

3 Likes

bạn có từ khoá rồi mà tự tra đi thôi. ngay trong daynhauhoc cũng có khá nhiều bài về chủ đề này rồi

4 Likes

Cái #1 thì là do bên website nạn nhân cung cấp sẵn API rồi, nên chỉ việc lấy ra để sử dụng thôi. Thường thì họ sẽ có documents hướng dẫn sử dụng API của họ. Họ có thể giới hạn số lần gọi API trong 1 giờ hay 1 phút, nếu cần cào nhiều, thì phải tìm cách lách cái giới hạn đó.

Cái #2 thì bạn tìm hiểu kỹ về xpath và xử lý string, được thì xem thêm cái regex nữa.

2 Likes
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?