導讀:一場由語音交互的變革看起來勢在必行了。
圖片來自“123RF”
通過語音控制技術,更多型式的智能裝置得以在家中的生活空間取得更大的地位,更多物聯(lián)網(wǎng)裝置得以更容易地進入家庭領域。未來,離線語音以及離線加在線語音等多種語音形式,將更加廣泛地應用于智能家居、智能辦公等多種場景。
現(xiàn)在“會說話”的公共設施會越來越多,未來每一個空間都至少會有一個可以進行語音交互的觸點。語音技術的需求也隨之提高,在線語音后的離線語音技術被視為智能家居新的增長引擎便不足為奇了。
智能語音是智能家居的起點
國外的IT巨頭已先后以智能家庭產(chǎn)品與語音相結合的方式進入智能家庭領域:
·谷歌收購NEST布局智能家庭,不斷強化GoogleNow的語音入口;
·蘋果HomeKit智能家居平臺與Siri也不斷加強融合;
·微軟也發(fā)布了語音助手Cortana,為它在智能家庭領域擴展交互入口。
而國內(nèi)2014年語音巨頭科大訊飛就宣布進軍智能家庭市場,并發(fā)布了智能語音助手靈犀3.0來操控智能家居設備。
由于整個市場的價格競爭比較激烈,基于智能音箱通過藍牙m(xù)esh的方式推廣的智能音箱中心化控制的語音聲控類的產(chǎn)品價格競爭尤其明顯,利潤逐步被稀釋。無論是Google、Apple或是微軟等平臺業(yè)者,透過語音控制技術讓更多型式的智能裝置能在家中的生活空間取得更大的地位,讓更多物聯(lián)網(wǎng)裝置更容易進入家庭的領域。所以語音助理的應用不僅為家庭生活帶來更多的驚奇,也進而帶動智能家居在目前有較明顯的進展。
語音控制中的不良反饋
①智能音箱通過網(wǎng)絡在云端識別反饋的控制速度比較慢,通常網(wǎng)絡一般的情況下反饋時長為300—500ms,網(wǎng)絡情況良好的情況下也有300ms左右。
②智能音箱通過半徑3米—5米內(nèi)才可以語音控制其他設備。假設智能音箱放在客廳,那控制臥室的燈必須要在客廳實現(xiàn),如果身處臥室想控制臥室的燈就比較麻煩。
③絕大多數(shù)的云端識別都會在后臺錄音,相當于用戶在家里不知不覺的情況下聲音的隱私已經(jīng)被侵犯,并上傳到云端做了保存。這點在歐美和日本客戶那里的反饋比較明顯,國人也對聲音的隱私開始重視起來。
市場成熟后的需求變化
目前,智能家居已經(jīng)進入市場推廣階段,并且有很多成熟項目不斷落地,行業(yè)發(fā)展前景可謂是日趨明朗。但是隨著智能門鈴、智能貓眼、智能廚房電器以及睡眠跟蹤記錄傳感器等設備的廣泛應用,現(xiàn)在智能家居甚至已經(jīng)延伸到家庭中最私密的區(qū)域。
智能家居技術給人們?nèi)粘I顜砹藰O大的便利,比如讓你知道加熱器是否打開或門有沒有鎖上等等,但這些連接的設備也帶來了許多安全問題。語音控制作為智能家居入口,在控制過程中牽涉到網(wǎng)絡傳輸?shù)牟糠?,對于智能家居系統(tǒng)是否安全起到至關重要的作用。
智能語音后的離線語音
離線的簡單語音控制應用在這幾個問題上得到了有效的解決,通常家電和小家電的應用場景的控制也只有幾個功能性動作就能解決。應用場景就是切入到用戶的這個需求點,分布式地提供給用戶單個產(chǎn)品的針對性的聲音控制。不需要基于手機、智能音箱和網(wǎng)絡就可以通過聲音進行控制。
·TOC領域包括高性價比智能音箱、全雙工網(wǎng)絡電話、AIOT智能家電、后裝車載智能語音助手等。家電控制(空調(diào)、洗衣機、冰洗、熱水器、風扇等)并支持分布式語音控制和聯(lián)動。
在網(wǎng)絡狀況不好或者沒有網(wǎng)絡的情況下,可以使用基礎控制的本地命令詞進行離線控制。
·TOB領域包括酒店智能語音助手(云端語義針對酒店服務應用可定制化,如:客房服務、訂餐服務)包括可植入酒店空調(diào)、酒店控制面板、酒店客房電話等設備應用。智能校園宿舍管理(云端可針對宿舍房間號定點推送上課通知、語音控制、網(wǎng)絡電話等)。
實際上,全屋智能的控制類產(chǎn)品都是離線語音的主戰(zhàn)場。離線主打控制,在線主打交互,是目前智能家居落地比較親民的一種模式。
各家不同的離線語音方案
·啟英泰倫:
CI110X 系列基于 NPU+MCU 架構設計,內(nèi)置升級了的腦神經(jīng)網(wǎng)絡處理器 BNPU v2,并新增了語音加速傳感器。CPU 主頻也較上一代的 100 MHz 提升到了 160MHz。
同時該芯片還集成多路 UART、I2C、SPI、PWM、GPIO 等外圍控制接口,可以開發(fā)低成本的單芯片智能語音離線識別方案?;?CI110X 系列芯片開發(fā)的產(chǎn)品,語音交互的基本功能可通過離線語音實現(xiàn),而語音內(nèi)容和服務則可以通過聯(lián)網(wǎng)實現(xiàn)。
·杭州國芯:
GX8008芯片是專為智能語音前端信號處理而設計的嵌入式SoC芯片,支持麥克風陣列,集成專用于語音信號處理的DSP處理器,內(nèi)置處理前端信號的語音算法,可以讓傳統(tǒng)的設備保留其原先硬件的基礎上,通過一個簡單的USB口實現(xiàn)語音能力的升級。
GX8009芯片是專為AI語音應用設計的嵌入式SoC芯片,擁有獨特的多核異構架構,集成自主產(chǎn)權的NPU神經(jīng)網(wǎng)絡處理器,用于語音信號處理的DSP處理器等模塊,使得產(chǎn)品能處理深度神經(jīng)網(wǎng)絡計算,離線運行麥克風陣列信號。
·思必馳:
TH1520主要面向智能家居、智能終端、車載、手機、可穿戴設備等各類終端設備。解決方案包含算法+芯片,具有完整語音交互功能,能實現(xiàn)語音處理、語音識別、語音播報等功能,支持離線語音交互。
·君正:
采用君正 X1000E 處理器,最高1GHz主頻,支持硬件浮點,支持SIMD指令加速??蛇\行各類語音識別、圖像識別、降噪、消回音、APE/FLAC解碼等算法。待機功耗2mW,平均運行功耗200mW,最高運行功耗700mW。
·互問:
LS416 是一顆高度集成化的語音處理芯片,內(nèi)置互問離線語音識別引擎,支持多命令詞本地語音控制應用。 內(nèi)置spi flash 和高性能codec,使用低成本輕量化神經(jīng)網(wǎng)絡語音處理單元,以及低功耗MCU,支持多種邏輯應用開發(fā)。
W02x芯片是一款高度集成的本地語音系統(tǒng)級芯片(SoC),自研基于神經(jīng)網(wǎng)絡深度學習的本地喚醒和前端降噪算法,無需額外license。
離線語音技術需克服重重困難
離線語音解決的基本問題包括本地語音識別、本地計算、部分的數(shù)據(jù)訓練。相應的,對于硬件的要求就是低功耗、低成本、快速響應。
由于語音交互類的設備本身在產(chǎn)品形態(tài)上差異化很大,使用場景也呈現(xiàn)出碎片化的特點,要為用戶提供自然的本地語音交互體驗,就要對不同的產(chǎn)品做出不同的語音控制命令,這些都需要通過修改代碼實現(xiàn),工作量可想而知。
再進一步的讓設備達到用戶所需要的體驗,還要做效果調(diào)優(yōu)的工作,這就需要熟練的工程師??偠灾?,是有不少開發(fā)門檻和開發(fā)成本的。
結尾:
到2023年,21%將擁有遠程監(jiān)控和控制,設備支出將占智能家居設備總支出的52%。未來,離線語音以及離線加在線語音等多種語音形式,將更加廣泛地應用于智能家居、智能辦公等多種場景。
智能家居以家庭為單元,運用多種信息技術,達到監(jiān)控與信息交互的目的,在未來,居住更加智能、消費者的居住體驗更加舒適,一場由語音交互的變革看起來勢在必行了。