Xác định một hay nhiều file truyện đầu vào có phải là truyện kiếm hiệp hay không

Hiện em có một bài toán như sau, liên quan đến NLP, AI, ML mà chưa biết xử lý theo hướng nào, tìm hiểu tài liệu nào, sử dụng thuật toán nào cho tối ưu. Vậy trong page có pro nào trong lĩnh vực này, soi đường chỉ lối cho e chút với ạ, e cảm ơn nhiều nhiều
Bài toán: Nhận đầu vào là một hay nhiều file truyện, trả lời xem truyện đó có phải là truyện kiếm hiệp hay ko? (sử dụng AI, NLP, ML). TRả lời “Yes” hoặc “No”. Sau đó phải đưa ra cả độ tin cậy(confident) của hệ thống.

1 Like

Bài toán này thuộc dạng binary classiffion , mình nghĩ có thể dùng decision tree đẻ đưa ra quyết định có phải là truyện kiếm hiệp hay không . Trong python có thư viện sklearn hỗ trợ decistion tree . Bạn có thể tham khảo ví dụ về hoa iris để hiểu hơn . Việc thu thập dữ liệu , và tiền xử lý dữ liệu cũng rất quan trọng , nó quyết định đến perfomance của việc dự đoán .
Còn việc đưa ra độ tin cậy thì mình không biết.

Về các thuật toán cơ bản thì mình nghĩ bạn thử dùng SVM hoặc LogisticRegression xem. Với Deep Learning thì thử mạng RNN xem sao. Bài toán này có lẽ không khó vì truyện kiếm hiệp thì câu từ rất đặc trưng. Các thuật toán hầu hết đều sử dụng hàm softmax cho đầu ra với bài toán phân lớp nên có cả xác suất với từng lớp rồi, chỉ việc lấy ra thôi.

Cảm ơn tiền bối đã đưa ra chỉ dẫn :slight_smile:

Cảm ơn tiền bối đã chỉ dẫn :slight_smile:

cứ thử language model trước đi đã

1 Like

Chúc bạn thành công. Không có gì lên hỏi tiếp :grin:

1 Like
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?