Lọc nội dung trang web bằng proxy

phongle · November 2, 2021, 3:43pm

Làm thế nào để máy tính người dùng request một trang web thì proxy đọc trước trang web đó quét xem có chứa từ khóa bị cấm không nếu không có thì trả kết quả về cho người dùng. Em cảm ơn!

Ý tưởng của em là proxy sẽ download trang HTML đó về (giống như control S trên browser) sau đó dùng regex để kiểm tra các file HTML. Rồi dùng chính bản sao này làm cache luôn. Nhưng vấn đề là không biết được web thật đã cập nhật hay chưa để xóa cache. Nó chỉ có tác dụng với những trang public mà có thể crawl được. Còn những page phía sau form login (facebook) thì không check được hoặc trang public mà frontend theo kiểu SSR (reactjs)

 _________           _______           ________ 
|         |         |       |         |        |
| Your PC |  -----  | Proxy |  -----  | Server |
|_________|         |_______|         |________|

superthin · November 3, 2021, 1:54am

Ý tưởng dựa vào đâu không thấy nói, có những cái phải có cơ sở chứ trình độ chưa cao mà tự ngồi soạn ra kiến trúc là chuyện quá khó, tỉa râu trên đầu.

Xem qua 1 bài viết trên Viablo chấm asia để hình dung cách người ta làm Proxy.

kisuluoibieng · November 3, 2021, 3:00am

Bạn có khả năng làm được phần nào trong ý tưởng trên?
Làm đã làm được bất kì cái gì liên quan đến proxy chưa?
Như vothin đã nói, chưa có kiến thức thì học thôi, mà kiến thức cơ sở, cơ bản thì phải tự bạn học thôi, chứ 1 cái comment không giúp bạn làm được điều bạn kể trên
Còn nếu bạn đang tìm một gợi ý về nguồn tài liệu để vào thẳng vâdn đề của bạn thì cũng chẳng có đâu, cái này muốn làm thì cần rất nhiều kiến thức cơ bản (và thực hành).
Kiến thức cơ bản thì google cái là ra thôi

library · November 3, 2021, 11:31am

Ý tưởng của em là proxy sẽ download trang HTML đó về (giống như control S trên browser) sau đó dùng regex để kiểm tra các file HTML. Rồi dùng chính bản sao này làm cache luôn. Nhưng vấn đề là không biết được web thật đã cập nhật hay chưa để xóa cache. Nó chỉ có tác dụng với những trang public mà có thể crawl được. Còn những page phía sau form login (facebook) thì không check được hoặc trang public mà frontend theo kiểu SSR (reactjs)

Cậu đã thấy vấn đề của nó rồi đó
Vậy nên, ý tưởng của cậu không hoạt động đâu.
Về lý thuyết, proxy có thể đọc nội dung response và scan nội dung này, tuy nhiên:

Cậu sẽ phải say goodbye với bảo mật, quyền riêng tư.
Scan nội dung bằng regex rất chậm, đã vậy cậu còn cache nội dung nó lại (vốn chăng có ý nghĩa gì, trừ khi cậu chắc chắn các trang web kia không bao giờ thay đổi)
Không hiệu quả. Cậu có lọc được hình ảnh không? Cậu có lọc được khi người ta cố tình thêm dấu chấm vào giữa các chữ không? Và việc lọc từ khóa cấm có thể khiến cho một số từ ghép, vốn không nên bị cấm, trở thành bị cấm.
Cậu cũng không làm gì được với kết nối https.
Không thực tế. Ai muốn dùng proxy vừa chậm, vừa không secure?

Vậy nên, cậu nghĩ giải pháp khác đi nha