Phân đoạn file ghi âm hội thoại theo người nói bằng mfcc

Pukin_Cuny · March 2, 2018, 4:34pm

Mình đang muốn lập trình phân đoạn file ghi âm hội thoại theo người nói bằng mfcc. Tức là mình có file ghi âm cuộc hội thọại,1 thời điểm 1 người nói, tách file đấy ra thành nhiều file nhỏ mỗi đoạn 1 người nói
Ai có kinh nghiệm làm rồi giúp mình với

hitman17528 · March 3, 2018, 3:21am

Tool : https://github.com/tyiannak/pyAudioAnalysis/wiki/5.-Segmentation
Theory : https://www.hindawi.com/journals/mpe/2015/209814/
HMM theory :
https://www.autonlab.org/tutorials/hmm.html
https://www.intechopen.com/books/hidden-markov-models-theory-and-applications

Pukin_Cuny · March 3, 2018, 5:00am

mình cảm ơn. Nhưng ở đây là mình cần phân đoạn theo sự thay đổi giọng nói. Mình chưa biết làm thế nào để biết sự khác nhau giữa các đoạn để phân ra. Ở đây mình có tìm ;phương pháp mfcc nhưng vẫn chưa hiểu cách thức làm

hitman17528 · March 3, 2018, 6:12am

MFCC ko phải phương pháp, nó là đặc trưng của âm thanh, có thể trích xuất bằng FFT! Nguyên tắc là phải có đủ data để máy học rồi phân loại thôi, link của mình có nói về cái này!

Pukin_Cuny · March 4, 2018, 7:52am

Mình tưởng phân đoạn ra thì cứ so khớp sau với trước chứ bạn?đây là mình chỉ phân đoạn chứ không phải xác minh người nói. Mình tưởng vậy thì không cần data để máy học nhỉ?

hitman17528 · March 4, 2018, 8:50am

Ok vậy bạn cứ sử dụng MFCC và các feature khác thử xem sao! Chúc bạn thành công!

Pukin_Cuny · March 4, 2018, 9:31am

với cái đề của mình như vậy bạn có ý tưởng gì không?nếu có bạn gợi ý giúp mình với