Tìm tài liệu: tìm hiểu một số phương pháp trích gọn câu trong văn bản Tiếng Việt (khai phá dữ liệu)

Em đang cần tìm tài liệu gấp cho đề tài: Tìm hiểu một số pp trích gọn câu trong văn bản Tiếng Việt. Các ac giúp em với ạ

Information Extraction là lĩnh vực lớn, em có thể đọc sơ qua tại đây

2 Likes

A ơi cho e hỏi trích gọn có nghĩa là gì ạ

Vấn đề là em cần trích nội dung gì?

  • Semantic, đánh giá tích cực hay tiêu cực, từ 1 đến 5 sao.
  • Entity, trích tên người, nơi chốn, thời gian.
  • Relationship, quan hệ giữa các đối tượng (người, nơi chốn, thời gian), output là semantic graph hoặc logic vị từ.
  • … (có nhiều nữa, mà chỉ biết 3 cái)
2 Likes

Ngoài ra, còn có lĩnh vực khó hơn là Text Summarization, tạo bản tóm tắt từ đoạn text bất kì.
Bản tóm tắt có thể là:

  • Raw text, có số lượng từ ngắn hơn text ban đầu
  • Keyword, rút trích từ khoá, thuật ngữ chính.

Em có thể thao khảo thêm, nhưng lĩnh vực này có vẻ nâng cao so với Data Mining
https://machinelearningmastery.com/gentle-introduction-text-summarization/

4 Likes

Vâng. E cảm ơn a nhiều ạ.

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?