Xin chào mọi người, mình đang làm một bài toán như sau:
Input: một list bài viết và một từ khoá.
Output: bài viết chứa từ khoá đó và vị trí các dòng nơi mà từ khoá đó hiện diện.
Cách hiện tại mình làm:
- Lưu bài viết trong database.
- Lọc các bài viết có nội dung chứa keyword.
- Với mỗi bài viết, mình dùng hàm split cắt bài viết thành một mảng chứa các dòng.
- Lặp qua mỗi dòng, nếu có chứa từ khoá thì index chính là chỉ số cần tìm.
Cách này thì mình thấy hơi chuối, lỡ có có 1 triệu văn bản, mỗi văn bản 1000 bài viết thì vấn đề hiệu suất không ổn một tý nào cả. Mình chưa nghĩ ra được giải pháp nào hay hơn, lên đây xin nhờ mọi người cho ý kiến tham khảo để giải tiếp, rất mong được mọi người giúp đỡ.
Mình xin chân thành cảm ơn.
Vậy bạn mò từ khóa full text search algorithms trên google chưa?
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?