Nhận dạng file âm thanh động vật từ thư viện tự tạo cho trước

Em chào các anh chị.
Em có bài tập lớn là nhận dạng tiếng động vật từ thư viện 1000 file âm thanh động vật mình tự tạo. mà em còn chưa biết làm ra sao ạ.
Theo em tự tìm hiểu thì ta có các bước sau:

  1. Từ file âm thanh ta tiền xử lý bằng khử nhiễu
  2. Rút đặc trưng
  3. Xây dựng mô hình tiếng động vật
  4. Đưa file nhận dạng vào mô hình để đối chiếu với thư viện để ra được xác suất.

Anh( chị) cho em hỏi ở phần 2.trích rút đặc trưng thì ta làm như nào ạ( biên độ, cao độ, tìm đăc trưng âm thanh theo thời gian và không gian) hay làm như nào ạ.

Anh chị có thể gợi ý giúp em để làm bài này không ạ. Nếu anh chị nào có source code thì cho em để tham khảo ạ( Thầy em cho sử dụng code bên ngoài).

Em dã tham khảo một số bài viết:

  1. Hỏi về đề tài nhận dạng giọng nói
  2. Anh chị cho em hỏi đây có phải là code của bài trên không ạ. Em tìm được mà xem không hiểu: https://github.com/doanhpv-0200/speech2text/tree/no-trans

Em cảm ơn ạ.

Trước khi làm đề tài nào đó bạn nên tìm các paper liên quan để tham khảo hướng giải quyết, rồi đề xuất giải pháp tối ưu hơn.

Trường hợp của bạn thì keyword là: Animal voice recognition.

3 Likes

Em cảm ơn ạ. tìm đấy rồi nhưng không thấy có. Em làm theo rút đặc trưng MFCC.


nhưng em cũng chưa hiểu lắm trong MFCC tại sao khi khử nhiễu ta lại tăng cường độ âm thanh của những tần số cao mà âm thanh đầu vào lại là cường độ âm thanh chạy theo hàm thời gian trước nên ta không biết tần số âm thanh cao là ở đâu.
Thầy em hỏi thế. Nên em phải chuyển đổi fourier trước để được hàm cường độ âm thanh chạy theo hàm tần số. Anh thấy nó có đúng không ạ.
Em cảm ơn nhiều ạ.

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?