Chào mọi người,
Em đang thực hiện nghiên cứu khoa học về nhận diện giọng nói sử dụng mô hình Wav2Vec. Trong phần kiểm thử, em sử dụng tập dữ liệu từ Common Voice để kiểm tra và tính toán tỷ lệ lỗi từ (WER). Tuy nhiên, khi em thử nghiệm bằng giọng nói tự nhiên của mình, kết quả lại có rất nhiều từ không chính xác. Em nên làm gì trong trường hợp này? Nếu báo cáo với hội đồng và họ yêu cầu kiểm tra ứng dụng bằng giọng nói mà thấy độ chính xác thấp, thì em sẽ phải giải thích như thế nào? (Mô hình đã có tích hợp xử lý ngôn ngữ tự nhiên NLP nhưng khi nói bằng lời của em thì nó vẫn không chính xác rất nhiều).
Em xin cảm ơn ạ.
Hỏi về nhận diện giọng nói bằng Wav2vec
Mình thì chẳng biết gì về cái bạn nói nhưng có thể cho bạn vài gợi ý.
Mọi thứ trong lĩnh vực phần mềm đều quy về:
Input -> process -> output
Input = rác => xử lý khó khăn/ nặng nhọc => output rác
Wav2Vec của bạn hinh như đóng vai process.
Hiện nay output của bạn có khả năng cao đang là rác (mình đoán thế, nếu không đúng, xí xóa cho mình). Vậy, nếu input của bạn rác bởi bạn thu âm bằng mic thường có chứa tạp âm hoặc tín hiệu kém => xử lý việc này cho tốt hơn (vào phòng kín cách âm/ mượn mic xịn của các bạn làm podcast) => có được file âm thanh chất lượng hơn là việc làm đầu tiên. Và cũng dùng phần mềm tinh chỉnh âm thanh để file được tốt hơn chút xíu, ví dụ Audacity.
Tiếp theo, mình đoán rằng bạn nói tiếng Việt nên Wav2Vec không hiểu hoặc tiếng Anh (của bạn đang khác xa với common voice - giả sử bạn đã khử nhiễu) chưa ổn => đọc tài liệu Wav2Vec và các thảo luận liên quan xem những lập trình viên xử lý các thứ tiếng khác không phải tiếng Anh, ví dụ như thảo luận này.
Cũng kịp nắm lý thuyết cho vững, có nhiều bạn chỉ dùng công cụ và mong nó cho ra kết quả ngon lành cành đào ngay (đây là sự mơ mộng ngây thơ rất đáng yêu, thường thấy ở SV ) mà không chịu xem qua để hiểu kiến thức nền (thường phải tương đương tối thiểu 1200 trang A4) thì xem ra không phải cách làm việc của lao động trí óc.
Em đang thực hiện nghiên cứu khoa học về nhận diện giọng nói sử dụng mô hình Wav2Vec
If you do scientific research, then you know what the word research means: RE-SEARCH or in plain English: SEARCH AGAIN. Wav2Vec is an AI scientific work by Meta owned by Zuckerberg and is still in its infancy. Neural network, self-supervised, etc. are the biggest buzzwords in the IT scene right now.
Em nên làm gì trong trường hợp này? Nếu báo cáo với hội đồng và họ yêu cầu kiểm tra ứng dụng bằng giọng nói mà thấy độ chính xác thấp, thì em sẽ phải giải thích như thế nào?
What you are asking here cannot be answered with an existing coding algorithm. “Self-supervised” here means an AI algorithm that self-corrects and adapts to the circumstances without human intervention. If you do research on wav2vec, as you said, you need to find an algorithmic way to self-supervise in your working environment. Or look for a group of people who share your idea and work together to develop such a self-supervised algorithm.
xử lý ngôn ngữ tự nhiên NLP nhưng khi nói bằng lời của em thì nó vẫn không chính xác rất nhiều
Natural voice recognition is the hardest task of all. The reason is obvious: the natural voice is burdened by a) the dialect, b) the pitch of the speaker’s voice, c) the quality of the microphone and the recording device.
Ngoài những gì bác @superthin
đã nói, thì xin bổ sung thêm một số ý kiến:
- Một là tại sao lại là wav2vec? Bạn đã thử với các model khác chưa? Ngay cả các doc chính thức còn bảo wav2vec2 hoặc wav2vec2-bert này tốt hơn hẳn này
- Hai là, việc sử dụng 1 model và nó tốt với 1 tập dữ liệu, và hoàn toàn xấu với tập dữ liệu khác là chuyện hoàn toàn bình thường. Huống hồ gì tập dữ liệu bằng giọng nói thật của bạn chưa chắc đã chuẩn => solution chỗ này là hoặc bạn finetune model kia trên tập dữ liệu mới của bạn luôn hoặc tìm model khác phù hợp hơn như trên
- Ba là, còn nếu không làm được các điểm trên nữa thì thôi demo bằng tập có sẵn và bảo model này lấy từ chỗ khác, chưa sửa đổi hay adapt gì hết và chấp nhận số phận thôi
Dạ, nhờ mọi người em có từ khóa để nghiên cứu thêm. Em cảm ơn tất cả mọi người ạ