Lấy xpath từ trang Lazada

Ha_Temwin · April 27, 2018, 5:11pm

Em đang định crawl một số sản phẩm ở lazada sử dụng scrapy nhưng đang làm thì bị vướng ở chỗ get xpath. Em nêu vấn đề ra đây nhờ các bác xem xét giúp.

Em lấy ví dụ 1 link em định crawl: https://www.lazada.vn/ao-khoac-vest-form-dai-cao-cap-hana-fashion-10600481.html

Và em muốn crawl cái tiêu đề của nó:

inspect code của nó như sau:

Em chạy thử xpath trên tab console (chrome) thì được như sau:

Như vậy xpath em xác định là chuẩn rồi đúng không ạ?
Nhưng khi chạy trên Scrapy thì nó lại ra thế này. Tức là không có kết quả đấy ạ:

Sau đấy em thử lại theo các bước như thế này:

**Nhìn vào hình ảnh các bác hiểu chứ ạ? Tức là em phải thay id=prod_title bằng class=product-info-name thì mới ra kết quả.
Em quay lại tìm trong source cụm từ product-info-name thì không hề thấy có.
Như vậy là như thế nào ạ?!?!?!
Các bro vào giúp em vụ này với :((

tanphat1095 · January 5, 2018, 3:57pm

h1 mỗi page chỉ có duy nhất 1 thẻ thôi nên xpath(’//h1’) là được rồi bác
mình cũng đang làm dự án về scrapy đây

Ha_Temwin · January 10, 2018, 12:46pm

Em biết.
Nhưng thẻ H1 này là em lấy ví dụ thôi.
bác có crawl được trang lazada không?

tanphat1095 · January 11, 2018, 3:48am

Lazada thì chưa thử, mà cũng hay gặp mấy trường hợp giống bác. View source của pages xem cho chắc

Ha_Temwin · January 11, 2018, 4:02am

buồn cười là view source page nó vẫn không giải quyết được vấn đề.

Bác thử crawl một vài info trên lazada xem. Nó lạ lắm

tap_su_01 · January 11, 2018, 4:22am

Em viewsource và lấy theo id title vẫn đúng. Em crawl bằng nodejs

NeiK · January 7, 2019, 9:19am

Theo em phân tích thì là do Lazada sử dụng js để render ra title sau.
Hoặc do khi mình dùng scrapy nó ko lấy giao diện web. Bác thử thêm:

user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"

vào dưới start_urls xem nhé