Thu thập dữ liệu để phục vụ học máy

Chào mọi người,

Sắp tới mình đang lên kế hoạch phát triển một mô hình phân loại câu có chứa từ ngữ thô tục hay không, nhằm phục vụ cho đồ án tốt nghiệp. Tuy nhiên, mình gặp khó khăn khi chưa tìm được bộ dữ liệu tiếng Việt phù hợp. Hiện tại, mình chỉ mới tìm thấy một bộ dữ liệu tiếng Việt được dịch từ bộ dữ liệu tiếng Anh.

Do đó, mình đã tạo một biểu mẫu khảo sát và rất mong nhận được sự hỗ trợ từ mọi người. Bạn có thể nhập các câu chứa từ ngữ thô tục hoặc không đều được.

Xin cảm ơn mọi người trước nhé!

https://forms.gle/GiV2F5yop5dXk2457

(post withdrawn by author, will be automatically deleted in 24 hours unless flagged)

Tìm dữ liệu -> train model -> Repat. Có khả năng generalize không? Không. Làm đồ án cử nhân? Yes!

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?