人機交互是人工智能技術(shù)的基本,交互模式有圖像識別、手勢識別和語(yǔ)音識別等。而在人類(lèi)進(jìn)化過(guò)程中,語(yǔ)言不僅起著(zhù)非常重要的作用,也承載著(zhù)非常豐富的信息,這令智能語(yǔ)音在交互方式方面具備得天獨厚的優(yōu)勢。語(yǔ)音識別技術(shù)的迭代演進(jìn)讓智能語(yǔ)音市場(chǎng)前景無(wú)限。很多產(chǎn)品場(chǎng)景下,深度學(xué)習已與芯片緊密結合,如遠場(chǎng)喚醒、打斷,包括離線(xiàn)識別,都已在芯片級技術(shù)層面實(shí)現。
面對智能語(yǔ)音交互,兩大互聯(lián)網(wǎng)巨頭這回同時(shí)出手了
7月5日早10點(diǎn),百度AI開(kāi)發(fā)者大會(huì )在北京國家會(huì )議中心開(kāi)始。百度度秘事業(yè)部總經(jīng)理景鯤宣布百度DuerOS開(kāi)放平臺發(fā)布,并介紹了語(yǔ)音交互在A(yíng)I領(lǐng)域的戰略方向以及相關(guān)技術(shù)和解決方案等問(wèn)題。而僅僅相隔4小時(shí)后,阿里人工智能實(shí)驗室也召開(kāi)了2017夏季新品發(fā)布會(huì ),發(fā)布與智能語(yǔ)音相關(guān)的消費級產(chǎn)品天貓精靈。
在DuerOS開(kāi)放平臺發(fā)布會(huì )上,景鯤從衣兜里接連掏出三款DuerOS開(kāi)發(fā)套件和一款硬件參考設計(據說(shuō)他還想帶更多芯片,但是口袋實(shí)在放不下了)。
1、搭載樹(shù)莓派,利用科勝訊技術(shù)的個(gè)人版。即刻申請就可以搭載一個(gè)個(gè)人可以對話(huà)的語(yǔ)音設備;
2、輕量版。把一元錢(qián)大小的芯片放在任何一個(gè)設備里面,設備就可以對話(huà);
3、標準版。兩麥、四麥、六麥、八麥的標準版都可以即可申請;
4、完整一體化的參考設計。如開(kāi)放電路板設計、開(kāi)放結構設計、開(kāi)放麥克風(fēng)陣列等等。手機、電視、冰箱等任何設備,都可以搭載DuerOS,變成一個(gè)能”聽(tīng)懂”的設備。景鯤說(shuō),開(kāi)發(fā)者使用這些開(kāi)發(fā)套件,只要接一個(gè)電源,接一個(gè)麥克風(fēng),就可以讓身邊的家電說(shuō)話(huà)。通過(guò)打造AI時(shí)代的安卓——DuerOS,讓每個(gè)人,無(wú)論你是大公司還是小公司,甚至普通開(kāi)發(fā)者,都能夠以低門(mén)檻打造屬于自己的智能語(yǔ)音交互設備。
同樣是語(yǔ)音AI領(lǐng)域,不同于DuerOS開(kāi)放設備平臺,阿里巴巴選擇推出公司首款智能音箱產(chǎn)品—天貓精靈,看上去更類(lèi)似于中國版的Echo。天貓精靈的負責人淺雪指出,這不只是具有語(yǔ)音識別和理解能力的智能音箱,其音箱中搭載的人工智能Ali Genie系統是產(chǎn)品的核心所在,代表著(zhù)產(chǎn)品具備N(xiāo)LP支持的理解力、執行力和基于數據的進(jìn)化能力。AliGenie使用了FPGA云端硬件定制化邏輯電路加速,算法上載入了混合神經(jīng)網(wǎng)絡(luò )。
與百度相仿,AliGenie也發(fā)布了開(kāi)發(fā)者平臺,面向不同類(lèi)型的開(kāi)發(fā)需求。在發(fā)布會(huì )中,功能演示與產(chǎn)品介紹交替進(jìn)行,演示內容涉及聽(tīng)音樂(lè )、網(wǎng)購、找手機、定時(shí)器、充話(huà)費、連接智能家電等功能,能看出阿里以語(yǔ)音與金融結合想要達成產(chǎn)品捆綁與消費方式變革的目標。
語(yǔ)音交互核心三要素:聽(tīng)清、聽(tīng)懂、滿(mǎn)足
景鯤表示,DuerOS是人工智能時(shí)代的安卓系統,DuerOS希望成為一個(gè)開(kāi)放賦能的生態(tài)系統。”有什么核心的要素需要滿(mǎn)足,才能推動(dòng)時(shí)代變革?我們總結出核心三要素:聽(tīng)清、聽(tīng)懂、滿(mǎn)足。很多廠(chǎng)商可以做到聽(tīng)清,但是做不好聽(tīng)懂和滿(mǎn)足,只有把這三個(gè)都做好,才能滿(mǎn)足。”“聽(tīng)清”:百度的語(yǔ)音識別率做到了近場(chǎng)識別的準確率97%以上,但這些在A(yíng)I時(shí)代還不夠。在A(yíng)I時(shí)代,技術(shù)要與場(chǎng)景相結合。百度希望把語(yǔ)音放到真正的場(chǎng)景里面去解決問(wèn)題,研發(fā)了麥克風(fēng)陣列、回聲消除、語(yǔ)音喚醒、人像識別等技術(shù)。
“聽(tīng)懂”:數據多、介入深是打造對話(huà)系統的必然條件,具備這兩點(diǎn)才能做好一個(gè)真正可以對話(huà)的”聽(tīng)懂”系統。百度是具備數據量最大的公司,擁有億級的多輪對話(huà)數據、十億級的知識圖譜數據。
“滿(mǎn)足”:滿(mǎn)足”聽(tīng)一首某某的歌”這樣的用戶(hù)需求還不夠,真正用戶(hù)想要的是更自然、更復雜的需求,比如”我要聽(tīng)我手一杯品嘗你的美這首歌”,比如”想聽(tīng)哥哥的歌”,只有把用戶(hù)在真實(shí)場(chǎng)景中表達的復雜請求做好,才能真正做出一個(gè)真正聽(tīng)懂用戶(hù)需求的產(chǎn)品。
他認為在這個(gè)時(shí)代,只有百度在中國市場(chǎng)是唯一具備聽(tīng)清、聽(tīng)懂、滿(mǎn)足的實(shí)力。在現場(chǎng),景鯤還演示了百度語(yǔ)音系統多輪交互的能力,現場(chǎng)演示了一臺HTC手機利用DuerOS的多輪交互過(guò)程,這種交互只有百度的技術(shù)才能驅動(dòng)。通過(guò)連續發(fā)問(wèn):“找一找本地人氣最火爆的家常菜”、“雍和宮附近有嗎”、“第二家有什么推薦菜”、“有wifi嗎”、“好停車(chē)嗎”……多輪連續展開(kāi)的對話(huà)。他說(shuō),“聽(tīng)懂”的目標,就是要FreeStyle,讓用戶(hù)最自然地跟設備進(jìn)行交互。
現場(chǎng),景鯤宣布百度將全資收購人工智能公司Kitt.AI,把KITT.AI的語(yǔ)音能力和自然語(yǔ)言處理能力融入到百度平臺中,全面免費向百度的合作伙伴賦能開(kāi)放。KITT.AI聯(lián)合創(chuàng )始人、CTO陳果果先生現在演示了如何使用KITT.AI語(yǔ)音喚醒技術(shù)快速打造一個(gè)語(yǔ)音喚醒設備。根據陳果果先生演示,進(jìn)入Snowboy的喚起詞庫并新建喚起詞“你好景鯤”后,接著(zhù)只需要說(shuō)三遍“你好景鯤”,即可完成喚起詞的訓練。在測試環(huán)節,設備只會(huì )對喚起詞“你好景鯤”進(jìn)行響應。
來(lái)自度秘的百度工程師羅興演示了“如何將百度DuerOS的能力接入搭載Alexa的Anker音箱”。羅興通過(guò)十七行代碼,用1分鐘的時(shí)間,讓原本只會(huì )英文的音箱馬上變得能聽(tīng)懂中國話(huà)。
揭秘百度DuerOS背后的聲學(xué)設計英雄
科勝訊(Conexant)CX20924四麥克風(fēng)和CX20921雙麥克風(fēng)語(yǔ)音輸入處理解決方案,是百度DuerOS平臺開(kāi)發(fā)套件和參考設計的幕后英雄??苿儆嵐究偛肧aleel Awsare在接受本刊采訪(fǎng)時(shí)表示,遠距離語(yǔ)音識別和控制需要克服大量的聲學(xué)挑戰,這涉及回聲消除、背景噪聲、混響, 麥克風(fēng)和揚聲器的選擇和放置等許多因素,而AudioSmart語(yǔ)音輸入處理器、CODEC以及軟件實(shí)現智能設備的遠距離語(yǔ)言識別和語(yǔ)音控制功能則是克服上述挑戰的利器。百度DuerOS開(kāi)發(fā)套件
科勝訊AudioSmart語(yǔ)音輸入處理器(用于四麥克風(fēng)應用的CX20924,以及用于雙麥克風(fēng)應用的CX20921)是百度所宣布的開(kāi)發(fā)套件之中的核心組件,其關(guān)鍵優(yōu)勢在于:
• 只需兩個(gè)或四個(gè)麥克風(fēng)實(shí)現穩定的遠場(chǎng)聲音交互
• 獨家的智能音源定位Smart Source Locator技術(shù)可以用于音源定位(僅限四麥克風(fēng)配置)
• 加強版噪聲抑制Smart Source Pickup – 對環(huán)境噪音的處理性更好,針對非定頻音源,比如電視,以及非指令使用者的音源,可以智能地予以過(guò)濾,使得引擎識別率更高
• 通過(guò)全雙工回聲消除技術(shù)(AEC)實(shí)現語(yǔ)音打斷功能,即使設備在大聲播放音樂(lè )或者做語(yǔ)音播報的時(shí)候,也能夠準確識別喚醒詞
遠場(chǎng)(far-field)語(yǔ)音技術(shù)可為用戶(hù)帶來(lái)真正解放雙手的體驗。AudioSmart語(yǔ)音打斷功能,用戶(hù)無(wú)需動(dòng)手則可自由控制設備。當設備的音頻系統處于空閑狀態(tài)時(shí),只需要簡(jiǎn)單地說(shuō)出觸發(fā)詞即可控制設備,即便音頻系統處于播放狀態(tài),也能達到同樣的效果。據稱(chēng),該遠場(chǎng)功能可實(shí)現對設備實(shí)現五米遠的無(wú)縫語(yǔ)音控制,即使在嘈雜的真實(shí)世界中,也能將語(yǔ)音命令從背景噪音中過(guò)濾出來(lái)。此外,360度語(yǔ)音收音功能,能在大多數家庭和辦公環(huán)境下提供精準的語(yǔ)音識別。百度DuerOS智能音箱參考設計
作為語(yǔ)音識別技術(shù)的先鋒,科勝訊的AudioSmart技術(shù)在亞馬遜Echo及其Alexa語(yǔ)音服務(wù)(AVS)的推動(dòng)之下,已快速成為各類(lèi)智能家庭與IoT裝置最令人驚艷的用戶(hù)交互接口。在與亞馬遜合作于去年十二月推出支持AVS的2-Mic開(kāi)發(fā)套件之后,科勝訊成為亞馬遜AVS開(kāi)發(fā)工具包的第一供貨商。不同于其他方案, AudioSmart只需要2個(gè)麥克風(fēng)就可以實(shí)現與現在使用5-8個(gè)麥克風(fēng)的其他產(chǎn)品有相同或更好的性能,更不用說(shuō)最新推出的全新4-mic AVS開(kāi)發(fā)套件。
除了百度DuerOS和亞馬遜 Alexa外,其頂級客戶(hù)還包括微軟、騰訊、SK Telecom、韓國電信Korean Telecom、Naver等,從而為家電、機器人、家用影音設備(如機頂盒、喇叭、音響等)、家庭網(wǎng)絡(luò )裝置、安全設備、玩具、以及語(yǔ)音虛擬助理等提供語(yǔ)音交互功能。
科勝訊業(yè)務(wù)成長(cháng)的另一個(gè)重要增長(cháng)點(diǎn)來(lái)自耳機市場(chǎng)。目前,科勝訊正隨著(zhù)耳機制造商向新一代的USB-C標準技術(shù)遷移,其最新的CODEC解決方案是專(zhuān)為協(xié)助耳機制造商在此新興領(lǐng)域取得競爭優(yōu)勢而設計,能讓耳機現在可自帶電源并能接受數字音頻信號,還可通過(guò)電纜直接與源設備進(jìn)行數據交換,從而給繁榮的耳機市場(chǎng)進(jìn)行更偉大的創(chuàng )新提供了無(wú)限可能。