Hỏi về nhận diện giọng nói bằng Wav2vec

Chào mọi người,
Em đang thực hiện nghiên cứu khoa học về nhận diện giọng nói sử dụng mô hình Wav2Vec. Trong phần kiểm thử, em sử dụng tập dữ liệu từ Common Voice để kiểm tra và tính toán tỷ lệ lỗi từ (WER). Tuy nhiên, khi em thử nghiệm bằng giọng nói tự nhiên của mình, kết quả lại có rất nhiều từ không chính xác. Em nên làm gì trong trường hợp này? Nếu báo cáo với hội đồng và họ yêu cầu kiểm tra ứng dụng bằng giọng nói mà thấy độ chính xác thấp, thì em sẽ phải giải thích như thế nào? (Mô hình đã có tích hợp xử lý ngôn ngữ tự nhiên NLP nhưng khi nói bằng lời của em thì nó vẫn không chính xác rất nhiều).
Em xin cảm ơn ạ.

Mình thì chẳng biết gì về cái bạn nói nhưng có thể cho bạn vài gợi ý.

Mọi thứ trong lĩnh vực phần mềm đều quy về:

Input -> process -> output

Input = rác => xử lý khó khăn/ nặng nhọc => output rác

Wav2Vec của bạn hinh như đóng vai process.

Hiện nay output của bạn có khả năng cao đang là rác (mình đoán thế, nếu không đúng, xí xóa cho mình). Vậy, nếu input của bạn rác bởi bạn thu âm bằng mic thường có chứa tạp âm hoặc tín hiệu kém => xử lý việc này cho tốt hơn (vào phòng kín cách âm/ mượn mic xịn của các bạn làm podcast) => có được file âm thanh chất lượng hơn là việc làm đầu tiên. Và cũng dùng phần mềm tinh chỉnh âm thanh để file được tốt hơn chút xíu, ví dụ Audacity.

Tiếp theo, mình đoán rằng bạn nói tiếng Việt nên Wav2Vec không hiểu :smiley: hoặc tiếng Anh (của bạn đang khác xa với common voice - giả sử bạn đã khử nhiễu) chưa ổn => đọc tài liệu Wav2Vec và các thảo luận liên quan xem những lập trình viên xử lý các thứ tiếng khác không phải tiếng Anh, ví dụ như thảo luận này.

Cũng kịp nắm lý thuyết cho vững, có nhiều bạn chỉ dùng công cụ và mong nó cho ra kết quả ngon lành cành đào ngay (đây là sự mơ mộng ngây thơ rất đáng yêu, thường thấy ở SV :smiley: ) mà không chịu xem qua để hiểu kiến thức nền (thường phải tương đương tối thiểu 1200 trang A4) thì xem ra không phải cách làm việc của lao động trí óc.

Em đang thực hiện nghiên cứu khoa học về nhận diện giọng nói sử dụng mô hình Wav2Vec

If you do scientific research, then you know what the word research means: RE-SEARCH or in plain English: SEARCH AGAIN. Wav2Vec is an AI scientific work by Meta owned by Zuckerberg and is still in its infancy. Neural network, self-supervised, etc. are the biggest buzzwords in the IT scene right now.

Em nên làm gì trong trường hợp này? Nếu báo cáo với hội đồng và họ yêu cầu kiểm tra ứng dụng bằng giọng nói mà thấy độ chính xác thấp, thì em sẽ phải giải thích như thế nào?

What you are asking here cannot be answered with an existing coding algorithm. “Self-supervised” here means an AI algorithm that self-corrects and adapts to the circumstances without human intervention. If you do research on wav2vec, as you said, you need to find an algorithmic way to self-supervise in your working environment. Or look for a group of people who share your idea and work together to develop such a self-supervised algorithm.

xử lý ngôn ngữ tự nhiên NLP nhưng khi nói bằng lời của em thì nó vẫn không chính xác rất nhiều

Natural voice recognition is the hardest task of all. The reason is obvious: the natural voice is burdened by a) the dialect, b) the pitch of the speaker’s voice, c) the quality of the microphone and the recording device.

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?