Dùng tts có lợi hay mp3 có lợi hơn?

Chào mọi người,

Hà mã tím đáng yêu đang sản xuất 1 cái đồng hồ nói bé bỏng nhưng gặp 1 vấn đề là cần cạnh tranh mạnh về kích thước ứng dụng.
Hà mã tím đáng yêu hiện đang dùng mp3 để phát âm thanh ví dụ “Bây giờ là 10 giờ 20 phút”, nhiều ngôn ngữ. Mỗi ngôn ngữ thêm thì kích thước ứng dụng sẽ tăng +0.5Mb. Tuyến tính lên thì +10 thì +5Mb, +100 thì +50Mb,…
Hà mã tím đáng yêu đang nghiên cứu liệu có thể dùng TTS không, TTS thì chưa đủ ngôn ngữ, nếu đủ thì lại không thể offline.
Vậy liệu nếu dùng TTS thì có giảm được kích thước ứng dụng hay không?
-> Yêu cầu: chuỗi phát cấu trúc không cần thay đổi.
-> Điều kiện hiện thời: Hà mã tím đáng yêu chưa rành về train model.

Cảm ơn các bạn rất rất nhiều!

3 Likes

Trong ứng dụng gốc chỉ có file nhạc tiếng Anh, sử dụng một CDN để fake cho dung lượng giảm xuống, bật ứng dụng lên mới tải thêm?

8 Likes

1 vote cho mp3. Để dùng TTS offline thì cần phải train model, nhưng vấn đề là với một cái đồng hồ thông minh thì phần cứng của nó có đủ để dùng train model hay lưu trữ mấy cái model đó không? Với lại, chẳng ai rảnh đi train model trên một cái smartwatch cả. Thay vào đó, dùng mp3 sẽ nhẹ hơn, nhanh hơn, lợi hơn so với TTS trong trường hợp này. User đâu phải lúc nào cũng cần dùng tất cả ngôn ngữ hiện có, vậy nên nên cho một mục tải file âm thanh của mỗi ngôn ngữ khác nhau về. User cần ngôn ngữ nào, tải ngôn ngữ đó về, nếu không đủ chỗ chứa thì chấp nhận xóa bớt :penguin:

10 Likes

đúng rồi hỗ trợ 200 ngôn ngữ nhưng user chỉ cần 2-3 ngôn ngữ là hết :V Làm sao mà cho lựa chọn download language pack nào như cái keyboard trong android cho phép down keyboard cho mỗi ngôn ngữ ấy, ai lại đi down hết 200 ngôn ngữ về =]

7 Likes

Lưu file mp3 để cloud nào đấy rồi lúc chạy app thì tải về thôi.
Tải theo ngôn ngữ mặc định máy lúc nào user đổi ngôn ngữ thì tải lại.

8 Likes

bác @HR16 fullstack DNH luôn rùi, cái gì cũng biết hết í :grin: trên thông cloud dưới thông devOps ^^

5 Likes

Nên dùng tts online và lưu output offline. Tại ứng dụng chỉ lưu text content và mp3 của ngôn ngữ người dùng chọn, muốn thêm cái gì thì “xin mời anh bật mạng” :laughing:. Sau này, nếu phát triển những chức năng mới cũng dễ hơn (và có thể nó là lựa chọn duy nhất, vd: Nhắc nhở, đồng hồ thông mình, …)

Dùng tts cũng nhanh hơn và chất lượng tốt hơn nữa https://vimeo.com/user118434385/review/432704698/415c3e752b

Nếu bác không có ý định phát triển thêm chức năng hay nội dung thì nên làm offline mp3.

5 Likes

Thì là mp3 chứ chi nữa :thinking: ? TTS offline mà thớt đang nói là dùng machine learning trên đồng hồ.

2 Likes

Thì mình dùng tts online như server đó. Đơn giản nhất là sử dụng api của google dịch. Quan trọng là nó chỉ tải những cái nó cần chứ không phải toàn bộ 1 hay nhiều ngôn ngữ. Ví dụ chức năng đọc tin nhắn là nội dung động thì không thể nào gói lại cả language pack rồi tải lại được và nếu dòng tin nhắn đó là ngôn ngữ khác với ngôn ngữ người dùng chọn thì lại phải xử lý rất nhiều vấn đề khác nữa. Không thể gọi phương pháp này là mp3 hay tts được, nó là hybrid

Tất nhiên, tùy vào nhu cầu của Hà Mã thôi.

2 Likes

Công nhận :smiley: bác ấy còn rep rất có tâm nữa :sunny: Respect

1 Like

Cảm ơn @Dao_An @phamvandung @HR16 @hoangthan @tntxtnt @CamTu @noz1995
Hà Mã cảm ơn mọi người rất nhiều, chỉ pick được 1 solution nên Hà Mã pick của anh @HR16 thôi nhé!
Cảm ơn mọi người rất nhiều!
Hà Mã đã chọn cách: Dùng mp3 file, chia thành gói theo ngôn ngữ để trên server, user cần cái nào thì tự mà tải =]]

4 Likes
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?