Số lượng ứng dụng và tầm quan trọng của giao diện giọng nói đang tăng lên nhanh chóng
Công nghệ

Số lượng ứng dụng và tầm quan trọng của giao diện giọng nói đang tăng lên nhanh chóng

Một gia đình người Mỹ ở Portland, Oregon gần đây đã biết rằng trợ lý giọng nói của Alex đã ghi âm các cuộc trò chuyện riêng tư của họ và gửi chúng cho một người bạn. Chủ nhân của ngôi nhà, được giới truyền thông mệnh danh là Danielle, nói với các phóng viên rằng cô ấy sẽ "không bao giờ cắm thiết bị đó nữa vì không thể tin tưởng được".

Alexa, được cung cấp bởi loa Echo (1) và các tiện ích khác tại hàng chục triệu ngôi nhà ở Hoa Kỳ, bắt đầu ghi âm khi nghe thấy tên hoặc "từ gọi" do người dùng nói. Điều này có nghĩa là ngay cả khi từ "Alexa" được đề cập trong quảng cáo trên TV, thiết bị vẫn có thể bắt đầu ghi. Đó chính xác là những gì đã xảy ra trong trường hợp này, Amazon, nhà phân phối phần cứng cho biết.

"Phần còn lại của cuộc trò chuyện được trợ lý giọng nói diễn giải như một lệnh để gửi tin nhắn", công ty cho biết trong một tuyên bố. “Tại một số thời điểm, Alexa đã lớn tiếng hỏi:“ Cho ai? ” Sự tiếp tục của cuộc trò chuyện gia đình về sàn gỗ cứng nên được máy coi như một mục trong danh sách liên hệ của khách hàng ”. Ít nhất đó là những gì Amazon nghĩ. Như vậy, việc phiên dịch được giảm thiểu hàng loạt tai nạn.

Tuy nhiên, sự lo lắng vẫn còn. Bởi vì lý do nào đó, trong một ngôi nhà mà chúng ta vẫn cảm thấy thoải mái, chúng ta phải vào một số loại “chế độ giọng nói”, xem những gì chúng ta nói, những gì TV đang phát và tất nhiên, chiếc loa mới này trên ngực ngăn kéo nói. chúng ta.

Tuy nhiên, Bất chấp những khiếm khuyết về công nghệ và những lo ngại về quyền riêng tư, với sự gia tăng phổ biến của các thiết bị như Amazon Echo, mọi người đang bắt đầu quen với ý tưởng tương tác với máy tính bằng giọng nói của họ..

Như Werner Vogels, CTO của Amazon, đã lưu ý trong phiên họp AWS re: Invent vào cuối năm 2017, cho đến nay công nghệ đã hạn chế khả năng tương tác với máy tính của chúng ta. Chúng tôi gõ từ khóa vào Google bằng bàn phím, vì đây vẫn là cách phổ biến nhất và dễ nhất để nhập thông tin vào máy.

Vogels nói. -

lớn bốn

Khi sử dụng công cụ tìm kiếm Google trên điện thoại, chắc hẳn chúng ta đã nhận thấy dấu hiệu micro có cuộc gọi nói cách đây khá lâu. Cái này tìm kiếm bằng google (2), có thể được sử dụng để ra lệnh truy vấn tìm kiếm, nhập tin nhắn bằng giọng nói, v.v. Trong những năm gần đây, Google, Apple và Amazon đã cải tiến rất nhiều công nghệ nhận dạng giọng nói. Các trợ lý giọng nói như Alexa, Siri và Google Assistant không chỉ ghi lại giọng nói của bạn mà còn hiểu những gì bạn nói với họ và trả lời các câu hỏi.

Google Hiện hành được cung cấp miễn phí cho tất cả người dùng Android. Ví dụ, ứng dụng có thể đặt báo thức, kiểm tra dự báo thời tiết và kiểm tra tuyến đường trên bản đồ Google. Tiện ích mở rộng cuộc trò chuyện của Google Hiện hành cho biết Trợ lý Google () – hỗ trợ ảo cho người sử dụng thiết bị. Nó có sẵn chủ yếu trên các thiết bị di động và nhà thông minh. Không giống như Google Hiện hành, nó có thể tham gia trao đổi hai chiều. Trợ lý ra mắt vào tháng 2016 năm 3 như một phần của ứng dụng nhắn tin Google Allo, cũng như trong loa thoại Google Home (XNUMX).

3. Trang chủ Google

Hệ thống iOS cũng có trợ lý ảo riêng, Siri, là một chương trình được bao gồm trong hệ điều hành iOS, watchOS, tvOS homepod và macOS của Apple. Siri ra mắt cùng với iOS 5 và iPhone 4s vào tháng 2011 năm XNUMX tại hội nghị iPhone Let's Talk.

Phần mềm dựa trên giao diện đàm thoại: nó nhận dạng giọng nói tự nhiên của người dùng (với iOS 11, bạn cũng có thể nhập lệnh theo cách thủ công), trả lời câu hỏi và hoàn thành nhiệm vụ. Nhờ sự ra đời của máy học, một trợ lý theo thời gian phân tích sở thích cá nhân người dùng để cung cấp các kết quả và khuyến nghị phù hợp hơn. Siri yêu cầu kết nối Internet liên tục - các nguồn thông tin chính ở đây là Bing và Wolfram Alpha. iOS 10 đã giới thiệu hỗ trợ cho các tiện ích mở rộng của bên thứ ba.

Một trong bốn lớn Cortana. Nó là một trợ lý cá nhân thông minh do Microsoft tạo ra. Nó được hỗ trợ trên các nền tảng Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android và iOS. Cortana lần đầu tiên được giới thiệu tại Hội nghị nhà phát triển Microsoft Build vào tháng 2014 năm XNUMX ở San Francisco. Tên của chương trình bắt nguồn từ tên của một nhân vật trong loạt trò chơi Halo. Cortana có sẵn bằng tiếng Anh, Ý, Tây Ban Nha, Pháp, Đức, Trung Quốc và Nhật Bản.

Người dùng của chương trình đã được đề cập Alexa họ cũng phải xem xét các hạn chế về ngôn ngữ - trợ lý kỹ thuật số chỉ nói được tiếng Anh, Đức, Pháp và Nhật.

Trợ lý ảo Amazon lần đầu tiên được sử dụng trong loa thông minh Amazon Echo và Amazon Echo Dot do Amazon Lab126 phát triển. Nó cho phép tương tác bằng giọng nói, phát lại nhạc, tạo danh sách việc cần làm, cài đặt báo thức, phát trực tuyến podcast, phát lại sách nói và thông tin thời tiết, giao thông, thể thao và các thông tin tin tức khác như tin tức (4) theo thời gian thực. Alexa có thể điều khiển nhiều thiết bị thông minh để tạo ra một hệ thống tự động hóa gia đình. Nó cũng có thể được sử dụng để mua sắm thuận tiện trong cửa hàng Amazon.

4. Người dùng sử dụng Echo để làm gì (Theo Nghiên cứu)

Người dùng có thể nâng cao trải nghiệm Alexa bằng cách cài đặt Alexa "skills" (), các tính năng bổ sung do bên thứ ba phát triển, thường được gọi là các ứng dụng như chương trình thời tiết và âm thanh trong các cài đặt khác. Hầu hết các thiết bị Alexa đều cho phép bạn kích hoạt trợ lý ảo của mình bằng mật khẩu đánh thức, được gọi là a.

Amazon chắc chắn thống trị thị trường loa thông minh hiện nay (5). IBM, đã giới thiệu một dịch vụ mới vào tháng 2018 năm XNUMX, đang cố gắng lọt vào top bốn Trợ lý của Watson, được thiết kế cho các công ty muốn tạo hệ thống trợ lý ảo của riêng họ với khả năng điều khiển bằng giọng nói. Ưu điểm của giải pháp IBM là gì? Theo đại diện của công ty, trước hết, về cơ hội lớn hơn nhiều để cá nhân hóa và bảo vệ quyền riêng tư.

Đầu tiên, Trợ lý Watson không có thương hiệu. Các công ty có thể tạo ra các giải pháp của riêng họ trên nền tảng này và gắn nhãn chúng bằng thương hiệu của riêng họ.

Thứ hai, họ có thể đào tạo các hệ thống hỗ trợ của mình bằng cách sử dụng các tập dữ liệu của riêng họ, điều mà IBM cho biết giúp việc thêm các tính năng và lệnh vào hệ thống đó dễ dàng hơn so với các công nghệ VUI (giao diện người dùng bằng giọng nói) khác.

Thứ ba, Watson Assistant không cung cấp cho IBM thông tin về hoạt động của người dùng - các nhà phát triển giải pháp trên nền tảng này chỉ có thể giữ dữ liệu có giá trị cho riêng mình. Trong khi đó, bất kỳ ai xây dựng thiết bị, chẳng hạn với Alexa, nên biết rằng dữ liệu có giá trị của họ sẽ xuất hiện trên Amazon.

Trợ lý Watson đã có một số triển khai. Ví dụ, hệ thống này đã được sử dụng bởi Harman, hãng đã tạo ra trợ lý giọng nói cho mẫu xe ý tưởng Maserati (6). Tại sân bay Munich, một trợ lý của IBM cung cấp năng lượng cho một robot Pepper để giúp hành khách di chuyển xung quanh. Ví dụ thứ ba là Chameleon Technologies, nơi công nghệ giọng nói được sử dụng trong đồng hồ thông minh tại nhà.

6. Trợ lý Watson trong mẫu xe ý tưởng của Maserati

Điều đáng nói thêm là công nghệ cơ bản ở đây cũng không phải là mới. Watson Assistant bao gồm các khả năng mã hóa cho các sản phẩm hiện có của IBM, Watson Conversation và Watson Virtual Agent, cũng như các API để phân tích và trò chuyện ngôn ngữ.

Amazon không chỉ dẫn đầu về công nghệ giọng nói thông minh mà còn đang biến nó thành một hoạt động kinh doanh trực tiếp. Tuy nhiên, một số công ty đã thử nghiệm tích hợp Echo sớm hơn nhiều. Sisense, một công ty trong ngành phân tích và BI, đã giới thiệu tích hợp Echo vào tháng 2016 năm XNUMX. Đổi lại, công ty khởi nghiệp Roxy quyết định tạo ra phần mềm và phần cứng điều khiển bằng giọng nói của riêng mình cho ngành khách sạn. Đầu năm nay, Synqq đã giới thiệu một ứng dụng ghi chú sử dụng xử lý giọng nói và ngôn ngữ tự nhiên để thêm ghi chú và mục lịch mà không cần phải gõ chúng trên bàn phím.

Tất cả những doanh nghiệp nhỏ này đều có tham vọng cao. Tuy nhiên, trên hết, họ học được rằng không phải người dùng nào cũng muốn chuyển dữ liệu của họ cho Amazon, Google, Apple hoặc Microsoft, những công ty đóng vai trò quan trọng nhất trong việc xây dựng nền tảng giao tiếp bằng giọng nói.

Người Mỹ muốn mua

Năm 2016, tìm kiếm bằng giọng nói chiếm 20% tổng số tìm kiếm trên thiết bị di động của Google. Những người sử dụng công nghệ này hàng ngày cho rằng sự tiện lợi và đa nhiệm của nó là một trong những lợi ích lớn nhất của nó. (ví dụ: khả năng sử dụng công cụ tìm kiếm khi đang lái xe ô tô).

Các nhà phân tích của Visiongain ước tính giá trị thị trường hiện tại của trợ lý kỹ thuật số thông minh là 1,138 tỷ USD. Ngày càng có nhiều cơ chế như vậy. Theo Gartner, đến cuối năm 2018 đã 30% tương tác của chúng tôi với công nghệ sẽ thông qua các cuộc trò chuyện với hệ thống giọng nói.

Công ty nghiên cứu IHS Markit của Anh ước tính rằng thị trường trợ lý kỹ thuật số được hỗ trợ bởi AI sẽ đạt 4 tỷ thiết bị vào cuối năm nay và con số đó có thể tăng lên 2020 tỷ vào năm 7.

Theo báo cáo từ eMarketer và VoiceLabs, 2017 triệu người Mỹ đã sử dụng điều khiển bằng giọng nói ít nhất một lần mỗi tháng vào năm 35,6. Điều này có nghĩa là tăng gần 130% so với năm trước. Chỉ riêng thị trường trợ lý kỹ thuật số dự kiến ​​sẽ tăng trưởng 2018% trong 23 năm. Điều này có nghĩa là bạn sẽ sử dụng chúng. 60,5 triệu người Mỹ, điều này sẽ dẫn đến tiền cụ thể cho các nhà sản xuất của họ. RBC Capital Markets ước tính rằng giao diện Alexa sẽ tạo ra doanh thu lên tới 2020 tỷ USD cho Amazon vào năm 10.

Rửa, nướng, làm sạch!

Giao diện giọng nói ngày càng mạnh dạn thâm nhập vào thị trường đồ gia dụng và điện tử tiêu dùng. Điều này có thể đã được nhìn thấy trong triển lãm IFA 2017. Công ty Neato Robotics của Mỹ đã giới thiệu, ví dụ, một robot hút bụi kết nối với một trong số các nền tảng nhà thông minh, bao gồm cả hệ thống Amazon Echo. Bằng cách nói chuyện với loa thông minh Echo, bạn có thể hướng dẫn máy dọn dẹp toàn bộ ngôi nhà của bạn vào những thời điểm cụ thể trong ngày hoặc đêm.

Các sản phẩm kích hoạt bằng giọng nói khác cũng được trưng bày tại triển lãm, từ TV thông minh được bán dưới nhãn hiệu Toshiba của công ty Vestel của Thổ Nhĩ Kỳ đến chăn sưởi của công ty Beurer của Đức. Nhiều thiết bị điện tử này cũng có thể được kích hoạt từ xa bằng điện thoại thông minh.

Tuy nhiên, theo đại diện của Bosch, còn quá sớm để nói rằng tùy chọn trợ lý tại nhà nào sẽ trở nên thống trị. Tại IFA 2017, một nhóm kỹ thuật của Đức đã trưng bày máy giặt (7), lò nướng và máy pha cà phê kết nối với Echo. Bosch cũng muốn các thiết bị của mình tương thích với các nền tảng giọng nói của Google và Apple trong tương lai.

7. Máy giặt Bosch kết nối với Amazon Echo

Các công ty như Fujitsu, Sony và Panasonic đang phát triển các giải pháp trợ lý giọng nói dựa trên AI của riêng họ. Sharp đang bổ sung công nghệ này cho lò nướng và robot nhỏ tham gia thị trường. Nippon Telegraph & Telephone đang thuê các nhà sản xuất phần cứng và đồ chơi để điều chỉnh hệ thống trí tuệ nhân tạo điều khiển bằng giọng nói.

Khái niệm cũ. Cuối cùng thì thời gian của cô ấy đã đến chưa?

Trên thực tế, khái niệm về Giao diện người dùng bằng giọng nói (VUI) đã có từ nhiều thập kỷ trước. Bất cứ ai đã xem Star Trek hoặc 2001: A Space Odyssey nhiều năm trước có lẽ đều mong đợi rằng khoảng năm 2000 tất cả chúng ta sẽ điều khiển máy tính bằng giọng nói của mình. Ngoài ra, không chỉ các nhà văn khoa học viễn tưởng nhìn thấy tiềm năng của loại giao diện này. Vào năm 1986, các nhà nghiên cứu của Nielsen đã hỏi các chuyên gia CNTT rằng họ nghĩ gì sẽ là sự thay đổi lớn nhất trong giao diện người dùng vào năm 2000. Họ thường chỉ ra sự phát triển của giao diện giọng nói.

Có những lý do để hy vọng vào một giải pháp như vậy. Nói cho cùng, giao tiếp bằng lời nói là cách tự nhiên nhất để mọi người trao đổi ý thức một cách có ý thức, vì vậy việc sử dụng nó để tương tác giữa người và máy có vẻ là giải pháp tốt nhất cho đến nay.

Một trong những VUI đầu tiên, được gọi là hộp đựng giày, được tạo ra vào đầu những năm 60 bởi IBM. Nó là tiền thân của hệ thống nhận dạng giọng nói ngày nay. Tuy nhiên, sự phát triển của các thiết bị VUI đã bị hạn chế bởi giới hạn của sức mạnh tính toán. Việc phân tích cú pháp và diễn giải giọng nói của con người trong thời gian thực đòi hỏi rất nhiều nỗ lực và phải mất hơn XNUMX năm để đạt được điểm mà nó thực sự có thể thực hiện được.

Các thiết bị có giao diện giọng nói bắt đầu xuất hiện trong sản xuất hàng loạt vào giữa những năm 90, nhưng không phổ biến. Điện thoại đầu tiên có điều khiển bằng giọng nói (quay số) là Philips Sparkphát hành năm 1996. Tuy nhiên, thiết bị sáng tạo và dễ sử dụng này không tránh khỏi những hạn chế về công nghệ.

Các điện thoại khác được trang bị giao diện thoại (do các công ty như RIM, Samsung hay Motorola tạo ra) thường xuyên tung ra thị trường, cho phép người dùng quay số bằng giọng nói hoặc gửi tin nhắn văn bản. Tuy nhiên, tất cả chúng đều yêu cầu ghi nhớ các lệnh cụ thể và phát âm chúng ở dạng bắt buộc, giả tạo, thích ứng với khả năng của các thiết bị thời đó. Điều này tạo ra một số lượng lớn các lỗi, do đó, dẫn đến sự không hài lòng của người dùng.

Tuy nhiên, hiện nay chúng ta đang bước vào kỷ nguyên máy tính mới, trong đó những tiến bộ trong máy học và trí tuệ nhân tạo đang mở ra tiềm năng của cuộc trò chuyện như một cách mới để tương tác với công nghệ (8). Số lượng thiết bị hỗ trợ tương tác bằng giọng nói đã trở thành một yếu tố quan trọng có tác động lớn đến sự phát triển của VUI. Ngày nay, gần 1/3 dân số thế giới đã sở hữu điện thoại thông minh có thể được sử dụng cho loại hành vi này. Có vẻ như hầu hết người dùng cuối cùng đã sẵn sàng để điều chỉnh giao diện giọng nói của họ.

8. Lịch sử hiện đại của sự phát triển của giao diện giọng nói

Tuy nhiên, trước khi chúng ta có thể thoải mái nói chuyện với máy tính, như các anh hùng của A Space Odyssey đã làm, chúng ta phải khắc phục một số vấn đề. Máy vẫn chưa xử lý tốt các sắc thái ngôn ngữ. ngoài ra nhiều người vẫn cảm thấy không thoải mái khi ra lệnh bằng giọng nói cho công cụ tìm kiếm.

Thống kê cho thấy trợ lý giọng nói được sử dụng chủ yếu ở nhà hoặc giữa những người bạn thân. Không ai trong số những người được phỏng vấn thừa nhận đã sử dụng tìm kiếm bằng giọng nói ở những nơi công cộng. Tuy nhiên, sự phong tỏa này có thể sẽ biến mất với sự lan rộng của công nghệ này.

câu hỏi khó về mặt kỹ thuật

Vấn đề mà hệ thống (ASR) phải đối mặt là trích xuất dữ liệu hữu ích từ tín hiệu giọng nói và liên kết nó với một từ nhất định có ý nghĩa nhất định đối với một người. Các âm thanh được tạo ra mỗi lần khác nhau.

Sự thay đổi tín hiệu giọng nói là thuộc tính tự nhiên của nó, nhờ đó chúng ta có thể nhận ra một trọng âm hoặc ngữ điệu. Mỗi phần tử của hệ thống nhận dạng giọng nói có một nhiệm vụ cụ thể. Dựa trên tín hiệu đã xử lý và các thông số của nó, một mô hình âm thanh được tạo ra, mô hình này được liên kết với mô hình ngôn ngữ. Hệ thống nhận dạng có thể hoạt động trên cơ sở một số lượng nhỏ hoặc lớn các mẫu, hệ thống này xác định kích thước của từ vựng mà nó hoạt động. Họ có thể từ điển nhỏ trong trường hợp hệ thống nhận dạng các từ hoặc lệnh riêng lẻ, cũng như cơ sở dữ liệu lớn chứa ngôn ngữ tương đương với bộ ngôn ngữ và có tính đến mô hình ngôn ngữ (ngữ pháp).

Các vấn đề mà giao diện giọng nói gặp phải ngay từ đầu hiểu lời nói một cách chính xác, trong đó, ví dụ, toàn bộ trình tự ngữ pháp thường bị bỏ sót, lỗi ngôn ngữ và ngữ âm, lỗi sai, thiếu sót, khiếm khuyết về phát âm, từ đồng âm, lặp lại không chính đáng, v.v. Tất cả các hệ thống ACP này phải hoạt động nhanh chóng và đáng tin cậy. Ít nhất đó là những mong đợi.

Nguồn gốc của những khó khăn cũng là các tín hiệu âm thanh khác với giọng nói được nhận dạng đi vào đầu vào của hệ thống nhận dạng, tức là tất cả các loại nhiễu và tiếng ồn. Trong trường hợp đơn giản nhất, bạn cần chúng lọc ra. Nhiệm vụ này có vẻ thường xuyên và dễ dàng - sau cùng, các tín hiệu khác nhau được lọc và mọi kỹ sư điện tử đều biết phải làm gì trong tình huống như vậy. Tuy nhiên, điều này phải được thực hiện rất cẩn thận và cẩn thận nếu kết quả của nhận dạng giọng nói là đáp ứng mong đợi của chúng tôi.

Bộ lọc hiện đang được sử dụng giúp bạn có thể loại bỏ cùng với tín hiệu lời nói, tiếng ồn bên ngoài do micrô thu và các đặc tính bên trong của chính tín hiệu lời nói, những đặc tính khó nhận ra nó. Tuy nhiên, một vấn đề kỹ thuật phức tạp hơn nhiều phát sinh khi nhiễu tín hiệu giọng nói được phân tích là ... một tín hiệu giọng nói khác, ví dụ như các cuộc thảo luận ồn ào xung quanh. Câu hỏi này được gọi trong văn học là cái gọi là. Điều này đã yêu cầu sử dụng các phương pháp phức tạp, cái gọi là. deconvolution (làm sáng tỏ) tín hiệu.

Các vấn đề với nhận dạng giọng nói không kết thúc ở đó. Cần nhận ra rằng lời nói mang nhiều loại thông tin khác nhau. Giọng nói của con người gợi ý giới tính, tuổi tác, các tính cách khác nhau của chủ sở hữu hoặc tình trạng sức khỏe của người đó. Có một bộ phận kỹ thuật y sinh mở rộng giải quyết việc chẩn đoán các bệnh khác nhau dựa trên các hiện tượng âm thanh đặc trưng được tìm thấy trong tín hiệu giọng nói.

Ngoài ra còn có các ứng dụng trong đó mục đích chính của phân tích âm thanh của tín hiệu giọng nói là để xác định người nói hoặc xác minh rằng họ là chính mình (giọng nói thay vì khóa, mật khẩu hoặc mã PUK). Điều này có thể quan trọng, đặc biệt là đối với các công nghệ xây dựng thông minh.

Thành phần đầu tiên của hệ thống nhận dạng giọng nói là микрофон. Tuy nhiên, tín hiệu thu được bởi micrô thường ít được sử dụng. Các nghiên cứu chỉ ra rằng hình dạng và hướng đi của sóng âm thanh rất khác nhau tùy thuộc vào con người, tốc độ nói và một phần tâm trạng của người đối thoại - trong khi ở một mức độ nhỏ, chúng phản ánh chính nội dung của các mệnh lệnh được nói.

Do đó, tín hiệu phải được xử lý chính xác. Âm học, ngữ âm học và khoa học máy tính hiện đại cùng cung cấp một bộ công cụ phong phú có thể được sử dụng để xử lý, phân tích, nhận dạng và hiểu tín hiệu giọng nói. Phổ động của tín hiệu, cái gọi là quang phổ động. Chúng khá dễ lấy và lời nói, được trình bày dưới dạng một biểu đồ quang phổ động, tương đối dễ nhận ra bằng các kỹ thuật tương tự như các kỹ thuật được sử dụng trong nhận dạng hình ảnh.

Các yếu tố đơn giản của lời nói (ví dụ, các lệnh) có thể được nhận ra bởi sự giống nhau đơn giản của toàn bộ quang phổ. Ví dụ, một từ điển điện thoại di động được kích hoạt bằng giọng nói chỉ chứa vài chục đến vài trăm từ và cụm từ, thường được xếp chồng sẵn để chúng có thể được xác định một cách dễ dàng và hiệu quả. Điều này là đủ cho các tác vụ điều khiển đơn giản, nhưng nó hạn chế nghiêm trọng ứng dụng tổng thể. Theo quy định, các hệ thống được xây dựng theo sơ đồ, chỉ hỗ trợ những người nói cụ thể có giọng nói được đào tạo đặc biệt. Vì vậy, nếu có ai đó mới muốn sử dụng giọng nói của họ để điều khiển hệ thống, rất có thể họ sẽ không được chấp nhận.

Kết quả của hoạt động này được gọi là Biểu đồ quang phổ 2-W, nghĩa là, một quang phổ hai chiều. Có một hoạt động khác trong khối này đáng chú ý - phân đoạn. Nói chung, chúng ta đang nói về việc chia tín hiệu giọng nói liên tục thành các phần có thể được nhận dạng riêng biệt. Chỉ từ những chẩn đoán riêng lẻ này mới hình thành được sự công nhận của tổng thể. Thủ tục này là cần thiết vì không thể xác định một bài phát biểu dài và phức tạp trong một lần. Toàn bộ tập đã được viết về phân đoạn nào cần phân biệt trong tín hiệu giọng nói, vì vậy bây giờ chúng tôi sẽ không quyết định xem các phân đoạn phân biệt có nên là âm vị (tương đương âm thanh), âm tiết hay có thể là từ đồng âm hay không.

Quá trình nhận dạng tự động luôn đề cập đến một số tính năng của các đối tượng. Hàng trăm bộ thông số khác nhau đã được thử nghiệm cho tín hiệu giọng nói. Tín hiệu giọng nói có được chia thành các khung được công nhận và có các tính năng đã chọntheo đó các khung này được trình bày trong quá trình nhận dạng, chúng ta có thể thực hiện (cho từng khung riêng biệt) phân loại, I E. gán một mã định danh cho khung, cái này sẽ đại diện cho nó trong tương lai.

Giai đoạn tiếp theo lắp ráp các khung thành các từ riêng biệt - thường xuyên nhất dựa trên cái gọi là. mô hình các mô hình Markov ẩn (HMM-). Sau đó đến phần dựng phim của các từ câu hoàn chỉnh.

Bây giờ chúng ta có thể quay lại hệ thống Alexa trong giây lát. Ví dụ của anh ta cho thấy một quá trình nhiều giai đoạn của máy móc "hiểu" một người - chính xác hơn: một mệnh lệnh do anh ta đưa ra hoặc một câu hỏi được đặt ra.

Hiểu từ, hiểu nghĩa và hiểu ý định của người dùng là những thứ hoàn toàn khác nhau.

Do đó, bước tiếp theo là công việc của mô-đun NLP (), nhiệm vụ của nó là nhận dạng ý định của người dùng, I E. ý nghĩa của câu lệnh / câu hỏi trong ngữ cảnh mà nó được thốt ra. Nếu mục đích được xác định, thì phân công cái gọi là kỹ năng và khả năng, tức là tính năng cụ thể được hỗ trợ bởi trợ lý thông minh. Trong trường hợp câu hỏi về thời tiết, các nguồn dữ liệu thời tiết được gọi, nguồn dữ liệu này vẫn được xử lý thành lời nói (TTS - cơ chế). Kết quả là người dùng nghe thấy câu trả lời cho câu hỏi được hỏi.

Tiếng nói? Nghệ thuật đồ họa? Hoặc có thể là cả hai?

Hầu hết các hệ thống tương tác hiện đại đã biết đều dựa trên một trung gian được gọi là Giao diện đồ họa người dùng (Giao diện đồ họa). Thật không may, GUI không phải là cách rõ ràng nhất để tương tác với một sản phẩm kỹ thuật số. Điều này đòi hỏi người dùng trước tiên phải học cách sử dụng giao diện và ghi nhớ thông tin này với mỗi lần tương tác tiếp theo. Trong nhiều tình huống, giọng nói thuận tiện hơn nhiều, vì bạn có thể tương tác với VUI chỉ bằng cách nói với thiết bị. Một giao diện không buộc người dùng phải ghi nhớ và ghi nhớ các lệnh hoặc phương thức tương tác nhất định sẽ gây ra ít vấn đề hơn.

Tất nhiên, việc mở rộng VUI không có nghĩa là từ bỏ các giao diện truyền thống hơn - đúng hơn, sẽ có sẵn các giao diện lai kết hợp nhiều cách tương tác.

Giao diện giọng nói không phù hợp với tất cả các tác vụ trong ngữ cảnh di động. Với nó, chúng tôi sẽ gọi cho một người bạn đang lái ô tô và thậm chí gửi tin nhắn SMS cho anh ấy, nhưng việc kiểm tra các lần chuyển tiền mới nhất có thể quá khó - do lượng thông tin được truyền đến hệ thống () và do hệ thống (hệ thống) tạo ra. Như Rachel Hinman gợi ý trong cuốn sách Mobile Frontier của cô ấy, việc sử dụng VUI trở nên hiệu quả nhất khi thực hiện các tác vụ có lượng thông tin đầu vào và đầu ra nhỏ.

Một chiếc điện thoại thông minh kết nối Internet thật tiện lợi nhưng cũng thật bất tiện (9). Mỗi khi người dùng muốn mua một thứ gì đó hoặc sử dụng một dịch vụ mới, họ phải tải xuống một ứng dụng khác và tạo một tài khoản mới. Một trường để sử dụng và phát triển giao diện giọng nói đã được tạo ở đây. Thay vì buộc người dùng cài đặt nhiều ứng dụng khác nhau hoặc tạo tài khoản riêng cho từng dịch vụ, các chuyên gia cho rằng VUI sẽ chuyển gánh nặng của những tác vụ rườm rà này sang trợ lý giọng nói hỗ trợ bởi AI. Nó sẽ thuận lợi cho anh ta để thực hiện các hoạt động vất vả. Chúng tôi sẽ chỉ ra lệnh cho anh ta.

9. Giao diện giọng nói qua điện thoại thông minh

Ngày nay, không chỉ có điện thoại và máy tính được kết nối Internet. Bộ điều nhiệt thông minh, đèn chiếu sáng, ấm đun nước và nhiều thiết bị tích hợp IoT khác cũng được kết nối với mạng (10). Do đó, có những thiết bị không dây xung quanh chúng ta lấp đầy cuộc sống của chúng ta, nhưng không phải tất cả chúng đều phù hợp một cách tự nhiên với giao diện người dùng đồ họa. Sử dụng VUI sẽ giúp bạn dễ dàng tích hợp chúng vào môi trường của chúng ta.

10. Giao diện giọng nói với Internet of Things

Tạo giao diện người dùng bằng giọng nói sẽ sớm trở thành một kỹ năng chính của nhà thiết kế. Đây là một vấn đề thực tế - nhu cầu triển khai hệ thống thoại sẽ khuyến khích bạn tập trung hơn vào thiết kế chủ động, tức là cố gắng hiểu ý định ban đầu của người dùng, dự đoán nhu cầu và mong đợi của họ ở mọi giai đoạn của cuộc trò chuyện.

Giọng nói là một cách hiệu quả để nhập dữ liệu — nó cho phép người dùng nhanh chóng ra lệnh cho hệ thống theo điều kiện của riêng họ. Mặt khác, màn hình cung cấp một phương thức hiển thị thông tin hiệu quả: nó cho phép các hệ thống hiển thị một lượng lớn thông tin cùng một lúc, giảm gánh nặng cho bộ nhớ của người dùng. Hợp lý là việc kết hợp chúng thành một hệ thống nghe có vẻ đáng khích lệ.

Các loa thông minh như Amazon Echo và Google Home hoàn toàn không cung cấp màn hình hiển thị trực quan. Cải thiện đáng kể độ chính xác của nhận dạng giọng nói ở khoảng cách vừa phải, chúng cho phép thao tác rảnh tay, do đó tăng tính linh hoạt và hiệu quả - chúng là mong muốn ngay cả đối với những người dùng đã có điện thoại thông minh với tính năng điều khiển bằng giọng nói. Tuy nhiên, việc thiếu màn hình là một hạn chế rất lớn.

Chỉ có thể sử dụng những tiếng bíp để thông báo cho người dùng về các lệnh có thể xảy ra và việc đọc to đầu ra trở nên tẻ nhạt ngoại trừ những tác vụ cơ bản nhất. Đặt hẹn giờ bằng lệnh thoại trong khi nấu ăn là điều tuyệt vời, nhưng việc khiến bạn hỏi thời gian còn lại là bao nhiêu thì không cần thiết. Nhận dự báo thời tiết thông thường sẽ trở thành một bài kiểm tra trí nhớ của người dùng, người phải nghe và tiếp thu một loạt dữ kiện trong suốt cả tuần, thay vì nhặt chúng từ màn hình trong nháy mắt.

Các nhà thiết kế đã giải pháp lai, Echo Show (11), đã thêm màn hình hiển thị vào loa thông minh Echo cơ bản. Điều này mở rộng đáng kể chức năng của thiết bị. Tuy nhiên, Echo Show vẫn kém hơn nhiều khả năng thực hiện các chức năng cơ bản vốn có từ lâu trên smartphone và tablet. Ví dụ: nó không thể (chưa) lướt web, hiển thị các bài đánh giá hoặc hiển thị nội dung của giỏ hàng Amazon.

Màn hình trực quan vốn dĩ là một cách hiệu quả hơn để cung cấp cho mọi người lượng thông tin phong phú hơn là chỉ âm thanh. Thiết kế với ưu tiên giọng nói có thể cải thiện đáng kể khả năng tương tác bằng giọng nói, nhưng về lâu dài, việc tùy tiện không sử dụng menu trực quan vì mục đích tương tác sẽ giống như chiến đấu với một tay bị trói sau lưng. Do tính phức tạp của giao diện hiển thị và giọng nói thông minh end-to-end, các nhà phát triển nên nghiêm túc xem xét một cách tiếp cận kết hợp cho các giao diện.

Việc tăng hiệu quả và tốc độ của các hệ thống nhận dạng và tạo giọng nói đã giúp chúng ta có thể sử dụng chúng trong các ứng dụng và lĩnh vực như:

• quân sự (ra lệnh bằng giọng nói trên máy bay hoặc máy bay trực thăng, chẳng hạn như F16 VISTA),

• phiên âm văn bản tự động (lời nói thành văn bản),

• hệ thống thông tin tương tác (Prime Speech, cổng thoại),

• thiết bị di động (điện thoại, điện thoại thông minh, máy tính bảng),

• người máy (Cleverbot - hệ thống ASR kết hợp với trí tuệ nhân tạo),

• ô tô (kiểm soát rảnh tay các bộ phận của ô tô, chẳng hạn như Blue & Me),

• ứng dụng gia đình (hệ thống nhà thông minh).

Xem ra cho an toàn!

Ô tô, thiết bị gia dụng, hệ thống sưởi / làm mát và an ninh gia đình, và một loạt thiết bị gia dụng đang bắt đầu sử dụng giao diện giọng nói, thường dựa trên AI. Ở giai đoạn này, dữ liệu thu được từ hàng triệu cuộc hội thoại với máy được gửi đến đám mây điện toán. Rõ ràng là các nhà tiếp thị quan tâm đến chúng. Và không chỉ họ.

Một báo cáo mới đây của các chuyên gia bảo mật Symantec khuyến cáo rằng người dùng ra lệnh bằng giọng nói không được kiểm soát các tính năng bảo mật như khóa cửa, chưa nói đến hệ thống an ninh gia đình. Tương tự đối với việc lưu trữ mật khẩu hoặc thông tin bí mật. Tính bảo mật của trí tuệ nhân tạo và các sản phẩm thông minh vẫn chưa được nghiên cứu đầy đủ.

Khi các thiết bị trong nhà lắng nghe mọi lời nói, nguy cơ bị hack và sử dụng sai hệ thống trở thành một vấn đề cực kỳ quan trọng. Nếu kẻ tấn công giành được quyền truy cập vào mạng cục bộ hoặc các địa chỉ email liên quan của nó, cài đặt thiết bị thông minh có thể được thay đổi hoặc đặt lại về cài đặt gốc, điều này sẽ dẫn đến việc mất thông tin có giá trị và xóa lịch sử người dùng.

Nói cách khác, các chuyên gia bảo mật lo ngại rằng AI và VUI điều khiển bằng giọng nói chưa đủ thông minh để bảo vệ chúng ta khỏi các mối đe dọa tiềm ẩn và giữ miệng khi người lạ yêu cầu điều gì đó.

Thêm một lời nhận xét