Cần góp ý phần mềm hỗ trợ người câm điếc giao tiếp với người thường

hopptit · November 9, 2022, 3:55pm

Chào mọi người mình đang là sinh viên CNTT năm 3 của học viện bưu chính. Nhóm mình có 5 thành viên và đang lên ý tưởng viết 1 app nhằm đưa công nghệ xóa bỏ rào cản về ngôn ngữ giữa người khuyết tật và người bình thường, Cái app này sẽ có chức năng thu âm thanh của người bình thường muốn nói và app sẽ xử lý và chuyển thành hình ảnh theo ngôn ngữ của người câm điếc. Để viết nó thì team mình chia 4 giai đoạn : giai đoạn 1 thu âm thanh, giai đoạn 2 chuyển âm thanh thành văn bản, giai đoạn 3 lọc bỏ văn bản chỉ thu lai trong mỗi câu của văn bản những từ chính mà vẫn đảm bảo được nội dung và cuối cùng là đưa văn bạn vừa lọc đó thành hình ảnh. Bọn mình chưa có phương pháp để xửa lý giai đoạn 3 nên mong mọi người giúp đỡ team mình.

ltd · November 15, 2014, 7:34am

Ý tưởng không mới nhưng thực hiện cái này không dễ. Nhóm bạn có 5 người, các bạn định dự định làm cái này trong bao lâu? Các bạn sử dụng ngôn ngữ hay framework gì để thực hiện cái này? Theo bạn nói gì các bạn là sinh viên, vậy các bạn có giáo viên hay người hướng dẫn hay không? Mình không chê sinh viên dở, nhưng tới 99% sinh viên ~~Việt Nam~~ khó có thể thực hiện được cái này. Vì với chương trình như thế này mà làm được thì các công ty lớn tầm cỡ thế giới đã làm rồi. Vì nếu Đạt có người thân bị khiếm khuyết như thế, Đạt sẵn sàng bỏ ra từ 5-10tr để có được một ứng dụng như thế này. Thậm chí có thể trả nhiều hơn vài lần số tiền đó để có được chương trình này. Nếu các bạn thành công thì các bạn dễ dàng trở thành triệu phú USD.

Giai đoạn này @hopptit đã có giải pháp hoặc đã thử làm chưa, trong diễn đàn mình có bạn @ngohuy đang làm dự án này. Bạn @ngohuy sử dụng Qt để thu âm, không biết bạn ấy đã làm xong chưa.

@ngohuy Cái này có thể mất bao lâu để hoàn thành vậy Huy?

Đây là một phần khó, có vẻ như nhóm đã hoàn thành được cái này. Rất thú vị. Nhóm của @hopptit làm cái này như thế nào?

Đạt đã từng làm cái này, nhưng ngôn ngữ được sử dụng là tiếng anh. Với tiếng Anh Đạt có thể giải quyết vấn đề này khá đơn giản vì thư viên ngôn ngữ tiếng Anh được hỗ trợ rất tốt. Đạt sử dụng CMUSphinx để triển khai cái này. Sử dụng thư viện ngôn ngữ tiếng Anh mã nguồn mở luôn. Đat nói trước là không có thư viện phục vụ tiếng Việt, và chi phí để thực hiện cái thư viện này là quá sức với 5 người.

Chi phí để thực hiện một thư viện thuộc về ngôn ngữ bất kỳ có thể xem ở đây. Đạt tóm tắt cho nhanh như thế này, bạn cần

1 giờ để thu âm cho các câu lệnh và điều khiển của 1 người
5 giờ để thu âm cho các câu lệnh và điều khiển của 200 người
10 giờ để thu âm ra lệnh của 1 người
VÀ bạn phải có kiến thức vầ cấu trúc âm của ngôn ngữ đó
VÀ bạn phải có thời gian để huấn luyện và tối ưu hóa (1 tháng)

Và quan trọng hơn hết là những điều trên đều đúng. Chi phí để mua 1 bộ thư viện chỉ dùng để phân biệt số (0,1,2,3…n) trong tiếng Anh ít nhất là 500 USD. Cái này Đạt hỏi công ty bán bộ ngôn ngữ thì họ nói vậy.

Theo hiểu biết của Đạt thì có lẽ python xử lý ngôn ngữ tự nhiên tốt nhất (nhưng chỉ tốt với tiếng Anh). Các bạn nghiên cứu từ khóa “python semantic”. Có nhiều thư viện sử dụng python để phân tích ngữ nghia của một câu nói.

Ví dụ ta nhập vào: “Ngày mai ta sẽ đi chơi lúc 6 giờ chiều”. Thì dựa vào các thư viện này ta có thể lấy được thời gian chính xác. Giả sử hôm nay là 15/11/2014 thì ta sẽ có được thời gian chính xác là

16/11/2015 6PM

Cái này thì dễ hơn bước 2 cả ngàn lần. Nhóm bạn đã làm cách nào để vượt qua bước 2?

Bước này dễ hơn bước 3. Bạn chỉ cần một bộ từ điển, với từ x ta có hình y. Nhập vào X ta có được Y. Bộ từ điển này có thể dễ dàng thực hiện với nhiều ngôn ngữ Hướng đối tượng bằng cách sử dụng Class Dictionary.

Trong C++ ta có map
Trong C# ta có dictionary
Trong Java ta có dictionary
Trong Python ta có dictionary Theo hiểu biết của Đạt thì có lẽ python xử lý ngôn ngữ tự nhiên tốt nhất (nhưng chỉ tốt với tiếng Anh)

ltd · November 15, 2014, 7:50am

Honey_moon · November 15, 2014, 12:27pm

kinh khủng! e thấy iphone 6 (mình nói nó có thể in ra văn bản nó có thể nhắn tin bằng giọng nói mà e k bik cách nó hoạt động là nhận dạng 1 giọng nói theo 1 tần số sau đó cho phép ng dùng tạo ra 1 đoạn ký tự với tần số đó hay là phân tích tần số giọng ra văn bản đc luôn),hay 1 số smart tivi nó có thể nhận diện âm thanh. thu âm thanh để thực hiện 1 số thao tác đơn giản bằng tiếng anh. mấy bạn sinh viên thật có tài chứ!
theo mình thì việc lọc đơn giản là ta phân biệt cấu trúc của câu : chủ ngữ, vị ngữ; các bạn dùng động từ làm từ khoá ( chạy, đi , cười, giơ tay ) giống như là ( next, back, return trong remote điều khiển tv thôi)… lọc trong 1 câu rồi gán video tương xứng với từ khoá " động từ "!

hopptit · November 15, 2014, 5:46pm

Lúc đầu mình cứ nghĩ giai đoạn 2 dễ vậy tại sao anh đạt bảo là mức hai khó nhất. Bây giờ mình đã hiểu ra để làm mức hai có 3 cách

cách 1: Tự code, cái này rất khó và không thể một mình nhóm mình làm được. Vì các công ty lớn như Google, Microsoft, Apple họ thuê hẳn một nhóm lớn để thực hiện công việc này.
cách 2: Sử dụng thư viện, cái này có thể giúp cho chạy phần mềm mà không cần internet.
cách 3: Sử dụng dịch vụ từ Google, Microsoft hoặc Apple và tất nhiên cần internet để lấy text về. Và quan trọng hơn là các dịch này có thể đóng bất cứ lúc nào hoặc chuyển từ miễn phí sang tính phí.

ltd · November 16, 2014, 2:46am

Trong trường hợp này nhóm của @hopptit cứ tiếp tục làm theo cách 3. Hãy xem output của cách 3 trước, tức là dùng phone để test thử xem khả năng nhận dạng giọng nói tiếng Việt của các dịch vụ này như thế nào.

Dưới đây là một video demo về việc nhận dạng sử dụng google và apple apps.

Dựa vào output của cái này mình sẽ định nghĩa việc tiếp theo là gì. Nhớ test giọng địa phương nữa, xem khả năng nhận diện như thế nào.

2nd · November 17, 2014, 1:18pm

Nếu nói về giao tiếp thì phải từ cả 2 phía, như bạn trình bày ở trên thì mới duy nhất một phía là người bình thường nóii và chuyển thành hình ảnh để người câm điếc hiểu được còn người câm điếc muốn làm cho người bình thường hiểu thì sao nhỉ, mình nghĩ dự án của bạn có vẻ khó thực hiện.

ltd · November 17, 2014, 1:48pm

Ờ hen, mới được có 1 chiều @2nd nói mới để ý.

Honey_moon · November 17, 2014, 3:09pm

Tín hiệu câm đâu? Đến tín hiệu câm còn k bik thì ở đâu mà có thể nc đc! phần mềm này dùng để truyền đạt ngôn ngữ cho ng câm hiểu chứ ng câm mún nc vs mình thì chỉ có dùng tín hịu câm để nói lại với mình thôi a ! cái vụ này a Đạt k bik rồi kakakaka

ltd · November 17, 2014, 3:15pm

Nhưng mà ở đây là người bình thường không biết ký hiệu của người câm em ơi

Honey_moon · November 17, 2014, 3:20pm

e hỏi a này nếu ngta k bik tín hiệu câm thế vậy ng câm k bik nói vậy ng câm truyền đạt sao cho ng ta hiểu (ng câm đc dạy tín hiệu câm và nói chuyện bằng tín hiệu câm )? Tiêu rồi a Đạt bí rồi ! vui ghê

ltd · November 18, 2014, 7:50am

Vấn đề ở đây là như thế này:

Người câm/điếc <-> Người câm/điếc giao tiếp bằng ngôn ngữ ký hiệu

Người Thường <-> Người câm/điếc giao tiếp bằng ngôn ngữ ký hiệu luôn.

Nhưng chương trình này có mục đích dịch ngôn ngữ tiếng nói thành ngôn ngữ ký hiệu chứ không dịch theo chiều ngược lại.

Có nghĩa là

Người thường nói -> dịch -> ngôn ngữ ký hiệu.

Nhưng ngược lại

Người câm/điếc dùng ký hiệu thì chưa có thể dịch sang ngôn ngữ tiếng nói được

hopptit · November 18, 2014, 3:07pm

Em nghĩ chưa đủ khả năng thì làm 1 chiều cũng giúp được phần nào người khuyết tật . Tại sao cứ phải hoàn thiện thì mới thực hiện ạ?

Honey_moon · November 18, 2014, 3:43pm

A Đạt đặt yêu cầu cao quá! nhóm bạn chỉ cần làm sao cho ng khuyết tật hiểu là thành công rồi! ng khuyết tật k có môi trường học như mình! nên ko phải khó mà là đừng nghĩ tới!

ltd · November 18, 2014, 3:52pm

Chết, mọi người hiểu nhầm ý anh rồi. Anh giải thích thiếu sót của phần mềm này do bạn @2nd phát hiện ra.

@hopptit em cứ tiếp tục làm đi chứ, 1 chiều cũng là sản phẩm mà. Không phải anh đã nói với @hopptit là phải làm xong bước này thì mới tới bước khác được sao?

2nd · November 19, 2014, 4:49pm

tại bạn @hopptit đặt tiêu đề là giao tiếp nên mình mới nói vậy

hopptit · November 20, 2014, 1:23pm

Dạ em vẫn làm mà anh . Nhưng đợt này em đang bận ôn thi học kỳ chút anh ạ!

ltd · November 20, 2014, 1:24pm

Nhớ vào cập nhật thông tin nhé, dự án hay đấy

hopptit · November 20, 2014, 1:28pm

Tình hình là bọn em hẹn được chủ tịch hội câm điếc rồi anh! họ có 1 bộ giao tiếp theo từng chủ đề anh ạ!

ltd · November 20, 2014, 1:29pm

Vậy là khả thi hơn đúng không? Còn vụ em test sử dụng dịch vụ nhận dạng giọng nói trên phone như thế nào rồi?