Google phát triển hệ thống nhận dạng giọng nói hoạt động không cần mạng, thử nghiệm trên Nexus 5

Google đã vừa phát triển một hệ thống nhận dạng giọng nói dung lượng đủ nhỏ để chiếc điện thoại Nexus 5 có thể phản hồi "nhanh hơn thời gian thực" mà không cần kết nối Internet.

Hệ thống này không cần đến trung tâm phân tích dữ liệu từ xa, không phụ thuộc vào kết nối mạng và có thể dùng trên nhiều thiết bị như smartphone, smartwatch hay mọi loại thiết bị có bộ nhớ eo hẹp khác. Theo tài liệu được nhóm nghiên cứu tại Google công bố, mục tiêu của họ là nhằm tạo ra một hệ thống nhận dạng giọng nói không quá nặng nhưng hoạt động chính xác để có thể chạy trực tiếp trên thiết bị.

Nói về yếu tố nhỏ nhẹ thì hệ thống nhận dạng giọng nói này có dung lượng chỉ 20,3 MB và khi được thử nghiệm trên chiếc Nexus 5 với CPU 2,26 GHz, 2 GB RAM thì tỉ lệ sai từ của hệ thống vào khoảng 13,5% với thử thách đọc chính tả.

Google sở hữu hàng tá nghiên cứu tương tự và không khó để hình dung hệ thống nhận dạng giọng nói trên hoạt động dựa trên các công nghệ máy học (machine-learning). Trong trường hợp này, Google gọi là "mạng thần kinh định kỳ (RNNs) bộ nhớ dài ngắn hạn (LSTM) và được dạy bởi mạng thần kinh nhân tạo phân loại theo thời gian (CTC) và mô hình rủi ro tối thiểu Bayes (sMBR)." Những kỹ thuật rất cao siêu mà chỉ dân trong nghề mới hiểu được.

Google phát triển hệ thống nhận dạng giọng nói hoạt động không cần mạng thử nghiệm trên Nexus 5

Để thu nhỏ hệ thống, các nhà nghiên cứu đã phát triển một mô hình chung dành cho mỗi cặp định danh gồm chỉ thị giọng nói và lệnh. Với việc sử dụng nhiều kỹ thuật khác nhau, họ đã nén mô hình nhận biết âm thanh này xuống còn 1/10 so với dung lượng ban đầu.

Các nhà nghiên cứu cũng nêu rõ rằng hệ thống nhận dạng giọng nói hoạt động ngoại tuyến (offline) hiện đã có thể thực hiện một lệnh kiểu như yêu cầu gởi một email đến một ai đó và có thể tái sắp xếp thời gian cho hành động này. Hệ thống chỉ đơn giản là phiên dịch lại lệnh ngay lập tức và thực thi sau đó. Tuy nhiên, để phiên dịch chính xác thì hệ thống cần các thông tin cá nhân tương ứng, chẳng hạn như tên người nhận email. Giải pháp của nhóm nghiên cứu là tích hợp danh bạ trên thiết bị vào hệ thống.

Để dạy cho mô hình nhận biết âm thanh này, các nhà nghiên cứu đã trích xuất 3 triệu lời nói, tổng dung lượng khoảng 2000 giờ từ hệ thống tìm kiếm bằng âm thanh của Google (Google Voice). Và để khiến hệ thống đáng tin cậy hơn, Google cũng dùng các đoạn âm nhiễu từ các video đăng tải trên YouTube.

Theo: Tinhte
Bạn đang trả lời thảo luận của: ( Thôi )

(Vui lòng đăng nhập trước để có thể gửi thảo luận, chia sẻ kinh nghiệm hoặc đặt câu hỏi)

Tin Tức | 14-03-2016
Đập hộp Galaxy S7 Edge phiên bản chip Snapdragon 820, Snapdragon 820 trong S7 Edge có hai nhân 2.15 GHz và 2 nhân 1.6 GHz. Các thông số còn lại giữ ngu...
Tin Tức | 14-03-2016
Các thương hiệu điện thoại lừng danh như Sony, HTC, BlackBerry hay Nokia (giờ thuộc Microsoft) hiện đã bay khỏi top 10 nhà sản xuất điện thoại lớn nhất...
Tin Tức | 14-03-2016
Trong buổi ra mắt ở hội chợ South by Southwest (SXSW) tại Austin, Sony’s Future Lab thuộc bộ phận nghiên cứu và phát triển của Sony đã giới thiệu chiếc...
Tin Tức | 11-03-2016
Dù được đánh giá là sở hữu cấu hình tốt, trải nghiệm đáng giá, nhưng Xiaomi Mi 5 vẫn gặp phải những rào cản lớn tại thị trường Việt Nam.
Tin Tức | 11-03-2016
Chuẩn Wi-Fi đã ngày càng trở nên phổ biến với mỗi người dùng công nghệ giúp cho việc sử dụng Internet của chúng ta được dễ dàng - 5 bước đơn giản để ph...
Tin Tức | 11-03-2016
Google đã khiến nhiều người dùng bất ngờ khi âm thầm công bố phiên bản Preview đầu tiên của Android 7.0 "N" và ngay bây giờ đã có thể tải về dành cho N...
Tin Tức | 11-03-2016
Một số hình ảnh cùng thông tin cấu hình chi tiết biến thể mới của Redmi 3 vừa được hé lộ từ TENAA (Cơ quan cấp chứng nhận viễn thông Trung Quốc).
Tin Tức | 11-03-2016
Có vẻ như những hình ảnh về chiếc HTC 10 cứ lần lượt được đưa lên mạng Internet, cho chúng ta cái nhìn gần như là toàn bộ về sản phẩm này.