應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

我國(guó)語(yǔ)音技術(shù)如何實(shí)現(xiàn)彎道超車?

2020-08-20 13:57 中國(guó)家電網(wǎng)

導(dǎo)讀:語(yǔ)音科技,就是一個(gè)美國(guó)不愿意讓我們發(fā)展的太快的科技。

語(yǔ)音科技,就是一個(gè)美國(guó)不愿意讓我們發(fā)展的太快的科技。國(guó)內(nèi)的語(yǔ)音科技“一哥”科大訊飛,就在去年10月被美國(guó)“拉黑”了,當(dāng)時(shí)科大訊飛的很多開(kāi)發(fā)平臺(tái)使用的都是美國(guó)芯片,被“拉黑”后,在美國(guó)的很多實(shí)驗(yàn)室也被迫關(guān)閉。

如果你覺(jué)得,美國(guó)最近在中美科技戰(zhàn)中過(guò)于針對(duì)華為和Tiktok,那你就錯(cuò)了。隨著中美在科技層面的交鋒與沖突不斷升級(jí),美國(guó)商務(wù)部開(kāi)出的實(shí)體清單也是一瀉千里。5月23日,實(shí)體清單上又多出了33家中國(guó)公司,大都為科技公司、科研機(jī)構(gòu)。截至5月底,美國(guó)實(shí)體清單上的中國(guó)公司、個(gè)人、甚至還有幾所大學(xué),總數(shù)多達(dá)1373家,整整309頁(yè)P(yáng)DF文件。

遙想去年5月,這個(gè)清單上62個(gè)國(guó)家和地區(qū)的實(shí)體,總共只有1182個(gè)。其中俄羅斯以316個(gè)實(shí)體位居第一,中國(guó)只有233個(gè)實(shí)體上榜,其中80個(gè)在香港。

所謂“實(shí)體清單”,是美國(guó)的出口管制手段。在沒(méi)有許可證的情況下,美國(guó)任何企業(yè)不得向清單上的實(shí)體出口任何東西,也不能幫助這些實(shí)體進(jìn)口任何東西。1997年6月,“實(shí)體清單”面世4個(gè)月后,中國(guó)工程物理研究院,成為了清單上的第一個(gè)中國(guó)實(shí)體。

20多年過(guò)去,實(shí)體清單已經(jīng)從美國(guó)的出口保護(hù)手段,變成了阻礙別國(guó)科技發(fā)展的打擊手段。

語(yǔ)音科技,就是一個(gè)美國(guó)不愿意讓我們發(fā)展的太快的科技。

國(guó)內(nèi)的語(yǔ)音科技“一哥”科大訊飛,就在去年10月被美國(guó)“拉黑”了,當(dāng)時(shí)科大訊飛的很多開(kāi)發(fā)平臺(tái)使用的都是美國(guó)芯片,被“拉黑”后,在美國(guó)的很多實(shí)驗(yàn)室也被迫關(guān)閉。

不過(guò),在同期被“拉黑”的公司中,科大訊飛算是最淡定的。當(dāng)時(shí)科大訊飛發(fā)布公告稱,其人工智能核心技術(shù)都是自主研發(fā),而且語(yǔ)音科技在硬件方面對(duì)芯片的要求并不是特別高,找到替代品或者自己研發(fā),問(wèn)題都不大。

本周三,科大訊飛董事長(zhǎng)再次提及公司被加入實(shí)體名單一事,他表示,目前科大訊飛已經(jīng)有了28nm制程的自研芯片,完全無(wú)懼被美國(guó)芯片卡脖子。

另一方面,由于谷歌在重壓之下已經(jīng)不再給華為提供語(yǔ)音助手服務(wù),這個(gè)服務(wù)將由科大訊飛接手??拼笥嶏w不僅能穩(wěn)穩(wěn)地接住華為,提供的服務(wù)還更好,在歐洲各主要語(yǔ)種方面都能超越谷歌。

可能是受到科大訊飛的自信影響,周五語(yǔ)音技術(shù)板塊5支股票全線拉升。科大訊飛收漲5.05%,是近兩個(gè)月內(nèi)的最大單日漲幅。

雖然目前語(yǔ)音技術(shù)的研究方向主要放在專業(yè)領(lǐng)域的語(yǔ)音錄入,比如醫(yī)院、法院等,需要記錄的專業(yè)詞匯多、而且要絕對(duì)精準(zhǔn)的領(lǐng)域。但是語(yǔ)音技術(shù)離我們?nèi)粘I钭罱膽?yīng)用,正是已經(jīng)非常成熟的手機(jī)助手和日漸普及的智能家居。

語(yǔ)音技術(shù)的起步,是語(yǔ)音識(shí)別。語(yǔ)音識(shí)別技術(shù)主要是把人類的語(yǔ)音內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)可讀的輸入,不一定是文本,也可能是編碼或者符號(hào)。

由于語(yǔ)音交互提供了更自然、更便利、更高效的溝通形式,成為人機(jī)互動(dòng)的主要輸入方法,只是時(shí)間問(wèn)題。

目前,主流語(yǔ)音識(shí)別框架還是由 3 個(gè)部分組成:聲學(xué)模型、語(yǔ)言模型和解碼器。其中,聲學(xué)模型是熱門的研究方向,也就是業(yè)界跑馬圈地的方向。

語(yǔ)音識(shí)別沒(méi)有什么技術(shù)壁壘,就比誰(shuí)的算法更準(zhǔn),因此國(guó)內(nèi)外各大企業(yè)前赴后繼的發(fā)布著新的聲學(xué)模型,刷新各個(gè)數(shù)據(jù)庫(kù)的識(shí)別記錄。

由于中文方言的博大精深,語(yǔ)音識(shí)別的復(fù)雜性基本拉滿。因此,在聲學(xué)模型方面的研究進(jìn)展較其他國(guó)家都要快一些。在其他國(guó)家把英文識(shí)別做到了最好的時(shí)候,科大訊飛已經(jīng)可以識(shí)別中、英、粵三語(yǔ)混說(shuō)的輸入了。

事實(shí)上,語(yǔ)音識(shí)別技術(shù)在2010年前后,碰到了天花板,識(shí)別率達(dá)到了90%,并且難以突破。直到深度學(xué)習(xí)技術(shù)被應(yīng)用到了語(yǔ)音識(shí)別中,識(shí)別精度才突破了90%,在安靜環(huán)境下的識(shí)別精度直逼98%。

從此,語(yǔ)音識(shí)別領(lǐng)域的產(chǎn)業(yè)競(jìng)爭(zhēng)從研發(fā)轉(zhuǎn)為了應(yīng)用。而在語(yǔ)音識(shí)別的精度普遍都能達(dá)標(biāo)之后,語(yǔ)音識(shí)別也失去了獨(dú)立存在的價(jià)值,開(kāi)始更多的為提升其他產(chǎn)品的體驗(yàn)而服務(wù)。

也就是這個(gè)時(shí)候,語(yǔ)音識(shí)別相關(guān)產(chǎn)品,比如Siri,開(kāi)始走進(jìn)人們的視線。不過(guò),Siri們的出現(xiàn)所引起的關(guān)注程度,遠(yuǎn)比實(shí)戰(zhàn)成績(jī)要高的多。Siri面世的時(shí)候,谷歌CEO憂心忡忡,認(rèn)為它會(huì)對(duì)谷歌的搜索業(yè)務(wù)產(chǎn)生根本性的威脅。