Hệ quản trị cơ sở dữ liệu văn bản

Chào anh/chị, hiện tại e đang có bài tập nhóm yêu cầu môn Hệ quản trị cơ sở dữ liệu mà chưa có hướng đi cụ thể, mong các anh/chị có bài tham khảo cho e xin hay cho e hướng đi cụ thể, em cảm ơn!

Xây dựng hệ CSDL lưu trữ và tìm kiếm văn bản.

  1. Hãy xây dựng/sưu tầm một bộ dữ liệu văn bản gồm ít nhất 100 files văn bản khác nhau, mỗi file dài ít nhất 10 trang, các file văn bản đều có cùng định dạng (SV tùy chọn định dạng văn bản).
  2. Hãy tìm hiểu các kỹ thuật xử lý và tìm kiếm văn bản hiện hành.
  3. Xây dựng hệ thống nhận dạng và tìm kiếm văn bản với đầu vào là một trang văn bản mới, đầu ra là một vài files văn bản trong CSDL có nội dung giống nhất hoặc chứa nội dung của trang văn bản đầu vào.
    a. Trình bày sơ đồ khối của hệ thống và quy trình thực hiện yêu cầu của đề bài.
    b. Trình bày các thuộc tính được sử dụng để nhận dạng và tìm kiếm văn bản trong hệ thống, cùng các kỹ thuật để trích rút các thuộc tính đó.
    c. Trình bày cách lưu trữ và quản lý các thuộc tính văn bản và cách nhận dạng, tìm kiếm các văn bản trong CSDL dựa trên các thuộc tính đó.
  4. Demo hệ thống và đánh giá kết quả đã đạt được.

#1. Xin xỏ, lụm lặt đâu đó 100 files word (*.docx)

#2. Tìm hiểu về và xử lý trường hợp duplicate file

#3. Tìm hiểu cách lấy nội dung từ docx --> text

#4a. Tìm hiểu về search + fulltext search với SQL

Hoặc, 4b. Tìm hiểu về elasticsearch

4 Likes

Cậu thử đọc tài liệu này xem:

2 Likes
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?