Xin góp ý phần mềm hỗ trợ người câm điếc giao tiếp với người thường

Chào mọi người mình đang là sinh viên CNTT năm 3 của học viện bưu chính. Nhóm mình có 5 thành viên và đang lên ý tưởng viết 1 app nhằm đưa công nghệ xóa bỏ rào cản về ngôn ngữ giữa người khuyết tật và người bình thường, Cái app này sẽ có chức năng thu âm thanh của người bình thường muốn nói và app sẽ xử lý và chuyển thành hình ảnh theo ngôn ngữ của người câm điếc. Để viết nó thì team mình chia 4 giai đoạn : giai đoạn 1 thu âm thanh, giai đoạn 2 chuyển âm thanh thành văn bản, giai đoạn 3 lọc bỏ văn bản chỉ thu lai trong mỗi câu của văn bản những từ chính mà vẫn đảm bảo được nội dung và cuối cùng là đưa văn bạn vừa lọc đó thành hình ảnh. Bọn mình chưa có phương pháp để xửa lý giai đoạn 3 nên mong mọi người giúp đỡ team mình.

12 Likes

Ý tưởng không mới nhưng thực hiện cái này không dễ. Nhóm bạn có 5 người, các bạn định dự định làm cái này trong bao lâu? Các bạn sử dụng ngôn ngữ hay framework gì để thực hiện cái này? Theo bạn nói gì các bạn là sinh viên, vậy các bạn có giáo viên hay người hướng dẫn hay không? Mình không chê sinh viên dở, nhưng tới 99% sinh viên Việt Nam khó có thể thực hiện được cái này. Vì với chương trình như thế này mà làm được thì các công ty lớn tầm cỡ thế giới đã làm rồi. Vì nếu Đạt có người thân bị khiếm khuyết như thế, Đạt sẵn sàng bỏ ra từ 5-10tr để có được một ứng dụng như thế này. Thậm chí có thể trả nhiều hơn vài lần số tiền đó để có được chương trình này. Nếu các bạn thành công thì các bạn dễ dàng trở thành triệu phú USD.

Giai đoạn này @hopptit đã có giải pháp hoặc đã thử làm chưa, trong diễn đàn mình có bạn @ngohuy đang làm dự án này. Bạn @ngohuy sử dụng Qt để thu âm, không biết bạn ấy đã làm xong chưa.

@ngohuy Cái này có thể mất bao lâu để hoàn thành vậy Huy?

Đây là một phần khó, có vẻ như nhóm đã hoàn thành được cái này. Rất thú vị. Nhóm của @hopptit làm cái này như thế nào?

Đạt đã từng làm cái này, nhưng ngôn ngữ được sử dụng là tiếng anh. Với tiếng Anh Đạt có thể giải quyết vấn đề này khá đơn giản vì thư viên ngôn ngữ tiếng Anh được hỗ trợ rất tốt. Đạt sử dụng CMUSphinx để triển khai cái này. Sử dụng thư viện ngôn ngữ tiếng Anh mã nguồn mở luôn. Đat nói trước là không có thư viện phục vụ tiếng Việt, và chi phí để thực hiện cái thư viện này là quá sức với 5 người.

Chi phí để thực hiện một thư viện thuộc về ngôn ngữ bất kỳ có thể xem ở đây. Đạt tóm tắt cho nhanh như thế này, bạn cần

  • 1 giờ để thu âm cho các câu lệnh và điều khiển của 1 người
  • 5 giờ để thu âm cho các câu lệnh và điều khiển của 200 người
  • 10 giờ để thu âm ra lệnh của 1 người
  • VÀ bạn phải có kiến thức vầ cấu trúc âm của ngôn ngữ đó
  • VÀ bạn phải có thời gian để huấn luyện và tối ưu hóa (1 tháng)

Và quan trọng hơn hết là những điều trên đều đúng. Chi phí để mua 1 bộ thư viện chỉ dùng để phân biệt số (0,1,2,3…n) trong tiếng Anh ít nhất là 500 USD. Cái này Đạt hỏi công ty bán bộ ngôn ngữ thì họ nói vậy.

Theo hiểu biết của Đạt thì có lẽ python xử lý ngôn ngữ tự nhiên tốt nhất (nhưng chỉ tốt với tiếng Anh). Các bạn nghiên cứu từ khóa “python semantic”. Có nhiều thư viện sử dụng python để phân tích ngữ nghia của một câu nói.

Ví dụ ta nhập vào: “Ngày mai ta sẽ đi chơi lúc 6 giờ chiều”. Thì dựa vào các thư viện này ta có thể lấy được thời gian chính xác. Giả sử hôm nay là 15/11/2014 thì ta sẽ có được thời gian chính xác là

16/11/2015 6PM

Cái này thì dễ hơn bước 2 cả ngàn lần. Nhóm bạn đã làm cách nào để vượt qua bước 2?

Bước này dễ hơn bước 3. Bạn chỉ cần một bộ từ điển, với từ x ta có hình y. Nhập vào X ta có được Y. Bộ từ điển này có thể dễ dàng thực hiện với nhiều ngôn ngữ Hướng đối tượng bằng cách sử dụng Class Dictionary.

Trong C++ ta có map
Trong C# ta có dictionary
Trong Java ta có dictionary
Trong Python ta có dictionary Theo hiểu biết của Đạt thì có lẽ python xử lý ngôn ngữ tự nhiên tốt nhất (nhưng chỉ tốt với tiếng Anh)

7 Likes
4 Likes

kinh khủng! e thấy iphone 6 (mình nói nó có thể in ra văn bản nó có thể nhắn tin bằng giọng nói mà e k bik cách nó hoạt động là nhận dạng 1 giọng nói theo 1 tần số sau đó cho phép ng dùng tạo ra 1 đoạn ký tự với tần số đó hay là phân tích tần số giọng ra văn bản đc luôn),hay 1 số smart tivi nó có thể nhận diện âm thanh. thu âm thanh để thực hiện 1 số thao tác đơn giản bằng tiếng anh. mấy bạn sinh viên thật có tài chứ!
theo mình thì việc lọc đơn giản là ta phân biệt cấu trúc của câu : chủ ngữ, vị ngữ; các bạn dùng động từ làm từ khoá ( chạy, đi , cười, giơ tay ) giống như là ( next, back, return trong remote điều khiển tv thôi)… lọc trong 1 câu rồi gán video tương xứng với từ khoá " động từ "!

3 Likes

Lúc đầu mình cứ nghĩ giai đoạn 2 dễ vậy tại sao anh đạt bảo là mức hai khó nhất. Bây giờ mình đã hiểu ra để làm mức hai có 3 cách

  • cách 1: Tự code, cái này rất khó và không thể một mình nhóm mình làm được. Vì các công ty lớn như Google, Microsoft, Apple họ thuê hẳn một nhóm lớn để thực hiện công việc này.
  • cách 2: Sử dụng thư viện, cái này có thể giúp cho chạy phần mềm mà không cần internet.
  • cách 3: Sử dụng dịch vụ từ Google, Microsoft hoặc Apple và tất nhiên cần internet để lấy text về. Và quan trọng hơn là các dịch này có thể đóng bất cứ lúc nào hoặc chuyển từ miễn phí sang tính phí.
3 Likes

Trong trường hợp này nhóm của @hopptit cứ tiếp tục làm theo cách 3. Hãy xem output của cách 3 trước, tức là dùng phone để test thử xem khả năng nhận dạng giọng nói tiếng Việt của các dịch vụ này như thế nào.

Dưới đây là một video demo về việc nhận dạng sử dụng google và apple apps.

Dựa vào output của cái này mình sẽ định nghĩa việc tiếp theo là gì. Nhớ test giọng địa phương nữa, xem khả năng nhận diện như thế nào.

4 Likes

Nếu nói về giao tiếp thì phải từ cả 2 phía, như bạn trình bày ở trên thì mới duy nhất một phía là người bình thường nóii và chuyển thành hình ảnh để người câm điếc hiểu được còn người câm điếc muốn làm cho người bình thường hiểu thì sao nhỉ, mình nghĩ dự án của bạn có vẻ khó thực hiện.

2 Likes

Ờ hen, mới được có 1 chiều :smile: @2nd nói mới để ý.

1 Like

Tín hiệu câm đâu? Đến tín hiệu câm còn k bik thì ở đâu mà có thể nc đc! phần mềm này dùng để truyền đạt ngôn ngữ cho ng câm hiểu chứ ng câm mún nc vs mình thì chỉ có dùng tín hịu câm để nói lại với mình thôi a ! :smiley: cái vụ này a Đạt k bik rồi kakakaka

1 Like

Nhưng mà ở đây là người bình thường không biết ký hiệu của người câm em ơi :frowning:

2 Likes

e hỏi a này :smile: nếu ngta k bik tín hiệu câm thế vậy ng câm k bik nói vậy ng câm truyền đạt sao cho ng ta hiểu (ng câm đc dạy tín hiệu câm và nói chuyện bằng tín hiệu câm )? Tiêu rồi a Đạt bí rồi ! vui ghê

2 Likes

:smiley:
Vấn đề ở đây là như thế này:

Người câm/điếc <-> Người câm/điếc giao tiếp bằng ngôn ngữ ký hiệu

Người Thường <-> Người câm/điếc giao tiếp bằng ngôn ngữ ký hiệu luôn.

Nhưng chương trình này có mục đích dịch ngôn ngữ tiếng nói thành ngôn ngữ ký hiệu chứ không dịch theo chiều ngược lại.

Có nghĩa là

Người thường nói -> dịch -> ngôn ngữ ký hiệu. 

Nhưng ngược lại

Người câm/điếc dùng ký hiệu thì chưa có thể dịch sang ngôn ngữ tiếng nói được

Em nghĩ chưa đủ khả năng thì làm 1 chiều cũng giúp được phần nào người khuyết tật . Tại sao cứ phải hoàn thiện thì mới thực hiện ạ?

1 Like

A Đạt đặt yêu cầu cao quá! nhóm bạn chỉ cần làm sao cho ng khuyết tật hiểu là thành công rồi! ng khuyết tật k có môi trường học như mình! nên ko phải khó mà là đừng nghĩ tới!

Chết, mọi người hiểu nhầm ý anh rồi. Anh giải thích thiếu sót của phần mềm này do bạn @2nd phát hiện ra.

@hopptit em cứ tiếp tục làm đi chứ, 1 chiều cũng là sản phẩm mà. Không phải anh đã nói với @hopptit là phải làm xong bước này thì mới tới bước khác được sao?

1 Like

tại bạn @hopptit đặt tiêu đề là giao tiếp nên mình mới nói vậy

1 Like

Dạ em vẫn làm mà anh :slight_smile: . Nhưng đợt này em đang bận ôn thi học kỳ chút anh ạ! :frowning:

2 Likes

Nhớ vào cập nhật thông tin nhé, dự án hay đấy :smile:

1 Like

Tình hình là bọn em hẹn được chủ tịch hội câm điếc rồi anh! họ có 1 bộ giao tiếp theo từng chủ đề anh ạ! :slight_smile:

1 Like

Vậy là khả thi hơn đúng không? Còn vụ em test sử dụng dịch vụ nhận dạng giọng nói trên phone như thế nào rồi?

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?