Có anh chị nào ở đây từng nghiên cứu về thuật toán tìm kiếm của google sử dụng chưa ạ. Vd: mình gõ thuật toán thì google sẽ trả ra các trang web liên quan đến thuật toán . Có thể giải thích cho em cách thuật toán google tìm kiếm nó hoạt động được không ạ, có code giải thích càng tốt
Thuật toán trích xuất từ khóa, tìm kiếm của google
Mình không biết algorithm Google bây giờ xài là gì nhưng hồi mình học về Numerical Analysis (toán phân tích số) thì ông giáo sư mình nói Google hồi đó dùng vài chiêu về Matrix (SOR, Power Method, Perturbation, Markov, etc… ) + nhiều kiến thức Graph theory để làm Google Search.
Links tham khảo:
- http://www4.ncsu.edu/~ipsen/ps/slides_man.pdf
- https://www.rose-hulman.edu/~bryan/googleFinalVersionFixed.pdf
- http://www4.ncsu.edu/~ipsen/ps/cedya.pdf
Mấy cái thuật toán này phức tạp, kiến thức ít nhất là Đại Học level hay cao hơn. Bạn đọc thử coi nha.
Tên là PageRank, là giải thuật được đề xuất của Larry Page khi làm PhD Thesis.
Chắc giờ giải thuật đó được cải tiến nhiều rồi.
Google không thể show một cách rõ ràng các thuật toán mình dùng được bạn, nếu vậy thì đã có rất nhiều Search engine giống Google xuất hiện rồi.
Nhưng để hiểu cách mà google thực hiện việc tìm kiếm cũng khả thi. Đây là cách hiểu của mình.
- Đầu tiên phải làm rõ là Từ khóa bạn gõ sẽ không được tìm kiếm trên Internet mà được tìm kiếm trong trong liệu của Google
- Và đây là cách mà Google có được lượng dữ liệu khổng lồ đó.
- Nếu bạn từng làm web bạn sẽ biết đến file
robot.txt
đây là file kiểm soát những conBOT
của SE truy cập vào trang của bạn. - Những con BOT này Google gọi là Spider. Không phải spider man mà là spider bot.
- Nó sẽ len lỏi trong môi trường Internet truy cập vào tất cả những trang web mà nó có thể. Ví dụ như nó vào
daynhauhoc.com
trong site này có link đến những bài/trang khác thì nó lại tiếp tục truy cập vào đó… - Kết quả là thâu tóm một hệ thống index rất nhiều website trên Internet.
- Tiếp đó khi nhận được từ khóa thì Google bắt đầu tìm kiếm trong dự liệu của mình. Từ title page, content, URL,… về sự xuất hiện của từ khóa
- Google đủ thông mình để tìm luôn các từ đồng nghĩa hoặc dự đoán sai lỗi chính tả
- Quá trình tìm kiếm này thì @Asterick đã có trích một số tài liệu phía trên
- Sau khi tìm kiếm thì sẽ bắt đầu xếp hạng thứ tự hiển thị. Cái này cũng có thể đã được sắp xếp trước khi thực hiện tìm kiếm rồi
- PageRank mà @hungaya nói là thật toán cơ sở trong việc sắp xếp.
- Ngoài ra Google còn rất nhiều thuật toán khác để xếp hạng. và thay đổi liên tục làm cho mấy bạn làm về SEO phải chật vật
- 2 thuật toán được nhắc nhiều khi SEO là Panda và Penguin.
Hy vọng mấy cái mình chém ở trên là đúng