Đùa tí, phần bạn xử lý chỉ bé như mẩu “cứt mũi” giữa một bể bơi. Còn phần bạn muốn mọi người giúp, nó là cái bể bơi… và là phần việc rất khó, ngay cả Google còn bó tay. Lý do:
-
Chúng ta không tìm thấy những tài liệu đáng tin cậy để quyết định lúc nào viết thường/ viết hoa mà chỉ theo khuyến cáo của cơ quan nọ kia. Ví dụ như Bộ Nội vụ <= click. Điều này khiến bạn không thể định nghĩa được lúc nào cần viết hoa, lúc nào không => lập trình thế nào?
-
Hầu hết anh em vào Dạy Nhau Học đều không phải là nhà ngôn ngữ/ nghiên cứu về câu, chữ để tự xây dựng được quy tắc viết hoa.
-
Dạy máy tính “đọc hiểu” được một chữ trong câu nên viết thường hay viết hoa là việc quá khó, các hãng lớn như Facebook, Google, và vài hãng tự hào với trí tuệ nhân tạo còn cảm thấy bó tay trong việc xử lý ngôn ngữ.
Như vậy, cách xử lý tạm ổn với cấp độ sinh viên hoặc lập trình viên bình thường chỉ là ta sẽ làm từ điển từ, cụm từ để đối chiếu vào đó mà viết hoa một số từ khi bắt gặp. Trường hợp này sẽ giải quyết được một số từ/ ngữ nhất định mà thôi, còn lại có khi viết hoa đến buồn cười.
Ví dụ ta có từ điển lưu hàng ngàn/ hàng chục ngàn cụm từ để nếu dò thấy những từ như: việt nam, nguyễn văn, nguyễn thị,… thì Pascal Case thành Việt Nam, Nguyễn Văn, Nguyễn Thị…
Nhưng rõ ràng cách này là có những tập hợp mà người làm ra tự điển không thể lường trước/ đoán biết được.
Bài toán này có phần nào đó giống với bài toán mà một số phần mềm cố gắng giải quyết: người dùng gõ tiếng Việt không dấu và phần mềm tự thêm dấu để tiết kiệm đánh máy/ convert từ văn bản tiếng Việt không có dấu hoặc một số máy tính cài bộ gõ tiếng Việt chưa được.
Như vậy, chủ topic nên tìm kiếm mấy tác giả của các phần mềm như EasyVN, Tockyvnkey Telex, VietnameseAccent, VietMarker và cả nhóm làm trình duyệt Cốc Cốc,… xem thử họ có gợi ý gì không.