Phân đoạn file ghi âm hội thoại theo người nói bằng mfcc

Mình đang muốn lập trình phân đoạn file ghi âm hội thoại theo người nói bằng mfcc. Tức là mình có file ghi âm cuộc hội thọại,1 thời điểm 1 người nói, tách file đấy ra thành nhiều file nhỏ mỗi đoạn 1 người nói
Ai có kinh nghiệm làm rồi giúp mình với

Tool : https://github.com/tyiannak/pyAudioAnalysis/wiki/5.-Segmentation
Theory : https://www.hindawi.com/journals/mpe/2015/209814/
HMM theory :
https://www.autonlab.org/tutorials/hmm.html
https://www.intechopen.com/books/hidden-markov-models-theory-and-applications

mình cảm ơn. Nhưng ở đây là mình cần phân đoạn theo sự thay đổi giọng nói. Mình chưa biết làm thế nào để biết sự khác nhau giữa các đoạn để phân ra. Ở đây mình có tìm ;phương pháp mfcc nhưng vẫn chưa hiểu cách thức làm

MFCC ko phải phương pháp, nó là đặc trưng của âm thanh, có thể trích xuất bằng FFT! Nguyên tắc là phải có đủ data để máy học rồi phân loại thôi, link của mình có nói về cái này!

Mình tưởng phân đoạn ra thì cứ so khớp sau với trước chứ bạn?đây là mình chỉ phân đoạn chứ không phải xác minh người nói. Mình tưởng vậy thì không cần data để máy học nhỉ?

Ok vậy bạn cứ sử dụng MFCC và các feature khác thử xem sao! Chúc bạn thành công!

với cái đề của mình như vậy bạn có ý tưởng gì không?nếu có bạn gợi ý giúp mình với

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?