Ý tưởng về chuyển giọng nói thành text trong AI

Hiện giờ đa số phân tích tiếng Việt nên số lượng bài báo và luận văn nghiên về Knowledge nhiều hơn: ghép trợ từ, tìm từ ghép, từ điển ngữ nghĩa,… Vì vậy nếu xây dựng các ứng dụng rút trích thông tin, hệ thống tư vấn,… hay nếu làm với thầy cô chuyên về NLP sẽ làm bên Knowledge.

Về hướng hiện đại, thì có thầy cô trẻ hay nghiên cứu sinh làm, gần như xây lại từ đầu.

Về giải thuật, mình thấy đa số chỉ dùng đến classification hay SVM là đủ chính xác. Chưa cần thiết phải làm tới RNN. Dự án không nhất thiết phải hiểu toàn bộ văn bản, như làm về phân tích cảm xúc, thì chỉ cần mô hình Ngram, Markov là đủ.

1 Like

Bạn lên coursera học khóa machine learning của Andrew Ng để lấy căn bản. Học xong khóa này bạn sẽ biết mình nên bắt đầu từ đâu.

khoá học andrew ở trong nam hả bác em thấy ngoài bắc k có ạ

Nhưng mà bạn ơi, Andrew Ng là người Trung quốc mà…

1 Like

Uhm, người tàu, ko phải vn, sorry

Ông ấy đâu phải người Tàu…

1 Like

Dân tộc Hoa != người Tàu mà :v

Vả lại bố mẹ ông này là người HK (thuộc Anh).

là speech to text bạn ơi!
Ý tưởng thì speech to text hay speech recogntion hiện nay có hai hướng đi chính:

  • Hướng cơ bản, đã có nhiều nghiên cứu và sản phầm: nhận dạng tiếng nói dựa trên mô hình Markov ẩn hay speech recognition based on Hidden markov model. có các công cụ hỗ trợ có sẵn như sphinx, HTK.
  • Hướng thứ hai, mới và mạnh là: nhận dạng tiếng nói dựa trên các mô hình mạng nơ ron. Speech recognition based on deep neural network. có các công cụ hỗ trợ như kaldi.
    => tùy mong muốn của bạn mà đi theo hai hướng khác nhau, tuy nhiên bạn nên tìm hiểu cơ bản về nhận dạng tiếng nói trước theo một vài keyword như: speech recognition, automatic speech recognition, nhận dạng tiếng nói…
1 Like

Bạn cày online đi. nói về AI thì to quá mình nghĩ trước khi tìm hiểu về AI bạn có thể tìm hiểu một mảng của nó là “Học máy” hay machine learning: trang này hay nè. https://machinelearningcoban.com/

1 Like

Quan trọng gì người nước nào, kiến thức thì không có kì thị gì hết

Để chuyển giọng nói thành text mình không nghĩ cần AI và cũng kg rõ AI giải quyết được gì trong việc nay. Nó đơn giản chỉ là việc input là 1 âm thanh => output là một text. Chỉ cần có đủ Database để recognize gới tin “âm thanh” đầu vào là được.

Để làm điều này, Google và W3C điều cung cấp API support. Google có tốn $ còn W3C thì free.

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?