Hỏi về API lấy dữ liệu

Thanh_Nhan · October 8, 2019, 3:56pm

Hiện tại em đang tiến hành crawl trang web vicare.vn để phục vụ học tập. Em có thấy ở trang danh sách các câu hỏi và bài viết cộng đồng của trang này (https://vicare.vn/hoi-bac-si/) có dùng infinite scroll. Em inspect network thì thấy gọi api dạng kiểu như https://vicare.vn/api/v2/thread/?scrollID=fdasfdasfdsa… mà không phải là page=? như các tutorial hay hướng dẫn. Không biết ai đã có kinh nghiệm mấy API như thế này có thể chia sẻ cho em biết là làm ntn được không ạ. Em muốn dùng API lấy dữ liệu luôn mà gọi nó chỉ trả về đúng 10 kết quả như nhau

Dao_An · January 28, 2019, 2:46pm

Sao thấy có cần điền scrollID đâu nhỉ https://vicare.vn/api/v1/cms_posts/

Thanh_Nhan · January 28, 2019, 2:59pm

Về mấy bài viết này thì không cần scroll Id nó cũng sẽ trả về random các bài viết khác nhau nhưng em đang crawl câu hỏi của người dùng bằng api https://vicare.vn/api/v2/thread/. Api này nếu không truyền scrollID vào thì lúc nào cũng chỉ trả về 10 items đầu giống nhau thôi

Dao_An · January 28, 2019, 3:17pm

Điều scrollID vào thì mỗi lần ra mỗi page khác nhau mà nhỉ?

https://vicare.vn/api/v2/thread/?scroll_id=cXVlcnlUaGVuRmV0Y2g7MjsyMzM5NTgyMzM6UXRQazhyWFNUT1dnNER6ZlJMam4yQTsyMzM5NTgyMzQ6UXRQazhyWFNUT1dnNER6ZlJMam4yQTswOw==

Thanh_Nhan · January 28, 2019, 3:24pm

Ô sao nãy em cóp thử 1 cái id nó toàn ra giống nhau, em cám ơn nhé. Mà anh cho em hỏi không biết sao họ lại làm kiểu ntn nhỉ

MeigyokuThmn · January 29, 2019, 3:23am

Đây là kĩ thuật phân trang nhưng không sử dụng skip và limit, bạn có thể tham khảo thực hành trong Mongodb:

Kĩ thuật này không thể phân ra các trang có số cụ thể, chính vì vậy người ta mới dùng infinite scroll.

Thanh_Nhan · January 29, 2019, 3:32am

Cám ơn bác, để em ngâm cứu

kiencon · January 30, 2019, 2:33am

Trong couchdb thì không phân trang theo kiểu skip, limit mà dùng id để đánh dấu trang, limit để trả về số lượng, dữ liệu được sort mặc định theo id. Nếu truyền vào id giống nhau thì trả về kết quả như nhau, nếu id không khai báo thì trả về limit kết quả đầu tiên, và có kèm theo total_rows là tổng số doc hiện có.

Thanh_Nhan · January 30, 2019, 3:57am

Thế cái id của các trang này được gen như thế nào vậy bác, em có thử lấy 1 url mà trang vicare gọi, dùng postman thì thấy cùng 1 scrollID nhưng mỗi lần trả về các kết quả khác nhau, nhưng cũng cái id đấy để tầm một lúc lâu sau thì chỉ trả về đúng 10 kết quả đầu tiên, phải vào trang web để lấy cái id khác

MeigyokuThmn · January 30, 2019, 4:45am

Cái scroll_id là 1 mã base64, decode ra thì thấy queryThenFetch, đây là 1 lệnh của ElasticSearch.
Mình kiểm tra thử thì thấy scroll_id không thay đổi gì cả nhưng kết quả vẫn thay đổi. Có khi người ta dùng session chăng.

vanhieu · January 30, 2019, 4:58am

Mình đã từng làm rất nhiều bài toán crawl data kiểu này rồi. Lời khuyên của mình là bạn hãy tìm hiểu và sử dụng Selenium. Chắc không mất quá 50 dòng code để lấy dữ liệu đâu.

Ý tưởng: Cho nó cuộn xuống cuối trang chừng nào vẫn có thể cuộn, rồi lấy page_source để parse.

Dao_An · January 30, 2019, 5:02am

Dùng headless browser tốc độ crawl sẽ chậm hơn. Bất đắc dĩ mới dùng

Mit_to_Nguyen · April 3, 2019, 5:17am

bác lấy api này ở đâu thế, em đang tìm api lấy danh sách các bệnh viện?

Thanh_Nhan · April 11, 2019, 9:48am

Mình lấy trên trang vicare.vn. Trang này cũng có danh sách về các cơ sở y tế đấy nhưng k có api. Bác có thể thử crawl xem