精品中文字幕一区在线,中日韩国语视频在线观看

對話騰訊李學(xué)朝：解讀從“數(shù)字人”到“數(shù)智人”的進(jìn)化論

2021-11-05 14:06 智東西

關(guān)鍵詞：人機(jī)交互數(shù)字生態(tài)數(shù)智人

導(dǎo)讀：騰訊智能產(chǎn)品副總裁、騰訊教育副總裁李學(xué)朝接受媒體采訪，分享了騰訊云小微數(shù)智人擁有的差異化競爭力，以及多模態(tài)人機(jī)交互模式的四個主要技術(shù)趨勢。

近日，2021騰訊數(shù)字生態(tài)大會云智能專場上，騰訊云小微發(fā)布基于新一代多模態(tài)人機(jī)交互技術(shù)的全新數(shù)智人產(chǎn)品矩陣。

3D超寫實、3D寫實、3D半寫實、2D真人、2D卡通，五種風(fēng)格的數(shù)智人產(chǎn)品集中亮相，可滿足各類場景服務(wù)需求，提供定制化角色服務(wù)，擁有文旅導(dǎo)覽、金融客服、多語種主播、手語主播等不同職業(yè)身份和技能。這些數(shù)智人也參與到了本屆騰訊數(shù)字生態(tài)大會多個專場的主持工作中。

會后，騰訊智能產(chǎn)品副總裁、騰訊教育副總裁李學(xué)朝接受媒體采訪，分享了騰訊云小微數(shù)智人擁有的差異化競爭力，以及多模態(tài)人機(jī)交互模式的四個主要技術(shù)趨勢。

一、從人機(jī)交互向交互智能升級，騰訊云小微要打造不一樣的“數(shù)智人”

從過去的文本客服，升級為語音客服，再到多模態(tài)人機(jī)交互系統(tǒng)的發(fā)展周期，人機(jī)交互模式正持續(xù)進(jìn)化。

具備多模態(tài)交互能力的數(shù)字人，已經(jīng)開始在眾多行業(yè)中商業(yè)化落地，輔助人工服務(wù)，提升企業(yè)運(yùn)行效率。例如，數(shù)字人在金融、文旅、傳媒、公共服務(wù)、醫(yī)療、零售等行業(yè)場景中，可擔(dān)任坐席客服、理財顧問、播報主持、導(dǎo)游導(dǎo)覽角色；在文化娛樂場景，可以作為虛擬偶像、虛擬歌手等形成IP資產(chǎn)；在智能車載、智能交通、智能家居等場景，可以通過與智能設(shè)備結(jié)合，為用戶提供智能化服務(wù)。隨著數(shù)字人應(yīng)用邊界的不斷拓展，產(chǎn)業(yè)價值也在不斷擴(kuò)大。

騰訊智能產(chǎn)品副總裁、騰訊教育副總裁李學(xué)朝在接受采訪時談道，近期中國信通院云計算與大數(shù)據(jù)研究所公布的2021年首批可信AI評測結(jié)果中，由騰訊申報的“交互式數(shù)字人”在2D真人形象類數(shù)字人項目中獲得了優(yōu)良級評價，這體現(xiàn)了對騰訊云小微數(shù)智人從技術(shù)到產(chǎn)品維度的認(rèn)可。

此次騰訊云小微與AI Lab聯(lián)合開發(fā)的新一代數(shù)智人，擁有更鮮活的形象、更擬人的交互能力，讓將人機(jī)交互從單純的對話工具轉(zhuǎn)變?yōu)檎嬲臏贤ń涣?，為服?wù)體驗的提升帶來質(zhì)的轉(zhuǎn)變。在服務(wù)質(zhì)量穩(wěn)定的同時，數(shù)智人可快速復(fù)制，滿足激增的用戶服務(wù)需求，實現(xiàn)成本可控，高效成為助力企業(yè)發(fā)展和數(shù)字化轉(zhuǎn)型。

src=http___image.kejixun.com_2021_1104_20211104033106451.png&refer=http___image.kejixun.jpg

技術(shù)、落地、懂行，這是李學(xué)朝眼中，騰訊云小微數(shù)智人的三大差異化特征。

技術(shù)方面，此前的數(shù)字人偏靜態(tài)，而騰訊主打的數(shù)智人更加智能化，加入會話AI等能力，實現(xiàn)用戶與數(shù)智人真正的會話并獲得相應(yīng)服務(wù)。

NLP、知識圖譜、視覺等全棧AI底層能力，讓數(shù)智人擁有強(qiáng)大的形象表現(xiàn)力、識別力和感知理解能力，可識別超34種語種、方言、翻譯超過11個語種，擁有超過46萬垂直行業(yè)場景熱詞庫，在多業(yè)務(wù)場景中都能做到“聽得清、聽得懂、會表達(dá)”。

這些數(shù)智人擁有超細(xì)微面部情感表情以及數(shù)百種肢體動作，在形象選擇方面，不但可支持定制化需求，還獲得了騰訊海量IP形象授權(quán)?！拔覀兿Ｍㄟ^情緒和情感化升級，肢體語言結(jié)合更情感化的語言合成，（使你）感覺到這個人在服務(wù)過程中確實是跟你的感受共情?！崩顚W(xué)朝說。

騰訊數(shù)智人的真正產(chǎn)品化和落地上場景嵌入的實現(xiàn)是比較靠前的，再加上打造數(shù)智人需要了解行業(yè)和具體場景，與技術(shù)積累結(jié)合，這些融合組成了騰訊云小微數(shù)智人的差異性。

此前搜狗在2D數(shù)字人方面已有很多積累。搜狗并入騰訊后，李學(xué)朝談道，搜狗在2D數(shù)字人方面的技術(shù)、產(chǎn)品與場景積累，與云小微數(shù)智人的能力產(chǎn)生了疊加和協(xié)同，從而能提供更好的產(chǎn)品。

騰訊云小微通過整合AI能力，連接騰訊豐富的內(nèi)容和服務(wù)生態(tài)，面向使用場景打磨平臺能力，助力行業(yè)客戶打造有智能、有形象、生動交互的AI。

除了提供標(biāo)準(zhǔn)化的行業(yè)包外，騰訊云小微也可以在一些新場景下，為合作伙伴或客戶提供定制化服務(wù)，包括形象定制、行業(yè)場景理解，讓數(shù)智人更懂這個場景，對話更加聽得清、聽得懂。而與客戶的合作，又會為這些場景積累新的應(yīng)用，從而進(jìn)一步積累騰訊云小微數(shù)智人的技術(shù)、工具和場景落地經(jīng)驗。

二、基于兩大交互模式，落地金融、文旅等多類場景

不同于近期很火的元宇宙虛擬人，李學(xué)朝特意提到數(shù)智人是為數(shù)字世界打造的數(shù)字員工，旨在更好地服務(wù)行業(yè)場景、服務(wù)到現(xiàn)實世界的用戶。

按照交互模式，數(shù)智人主要有播報式和交互式兩種類型。播報式通過文本驅(qū)動，進(jìn)行內(nèi)容播報，提升內(nèi)容生產(chǎn)效率，適用于新聞播報、應(yīng)急服務(wù)等場景；交互式數(shù)智人通過對話提供服務(wù)，能更好地協(xié)助企業(yè)客服，提升業(yè)務(wù)辦理效率。

在金融領(lǐng)域，數(shù)智人已助力平安普惠落地了行業(yè)首個金融AI數(shù)字員工，通過自然可視化的人機(jī)智能交互，累計服務(wù)用戶500萬，審核成本降低60%，保障了2年間7x24h的在線服務(wù)。

在文旅領(lǐng)域，數(shù)智人化身導(dǎo)游，在故宮、龍門石窟等景區(qū)提供AI導(dǎo)覽服務(wù)，為游客提供個性化游覽路線推薦，景點(diǎn)文物講解等多種服務(wù)。

在傳媒行業(yè)，助力新華社推出全球首個“AI合成主播”，目前已累計播報新聞超過1萬條，保證播報零誤差，可對日常和突發(fā)事件實時響應(yīng)。

在教育領(lǐng)域，數(shù)智人作為助教，可根據(jù)文本和課件進(jìn)行自學(xué)習(xí)，以更生動、親切的形象和學(xué)生互動。

同時，騰訊云小微致力于讓數(shù)智人與智能設(shè)備結(jié)合，打造以用戶為中心的生活服務(wù)。

比如在公共服務(wù)中，數(shù)智人可及時、高效地處理用戶在公共交通中的票務(wù)等問題，也可輔助人力進(jìn)行政策問答，提升政策辦事問答效率。

在智能家居中，用戶通過語音指令即可隨時隨地與數(shù)智人交流，憑借全新的視覺表達(dá)，提供自然、豐富的智能交互服務(wù)。

李學(xué)朝也談到數(shù)智人面臨的一些挑戰(zhàn)與風(fēng)險。

首先，如果數(shù)智人不夠智能，出現(xiàn)答非所問等情況，會導(dǎo)致客戶感受大打折扣。其次，在使用方面，目前數(shù)智人主要針對封閉的企業(yè)場景，去解決客戶服務(wù)流程中的各種業(yè)務(wù)問題，還沒有將其技術(shù)完全開放和應(yīng)用到C端場景中，因為C端可能存在此前“換臉”等倫理問題的風(fēng)險。

李學(xué)朝坦言，當(dāng)前技術(shù)還存在一些局限性，比如很難從文字、語音中準(zhǔn)確理解情感，在合成語音時，也要基于前面語義、語音情感的輸入，讓合成的聲音有情感表達(dá)。另外，如何基于文本來驅(qū)動表情，也需要持續(xù)的探索。這些技術(shù)的持續(xù)進(jìn)化，將使得數(shù)智人表現(xiàn)得更為立體。

三、多模態(tài)人機(jī)交互模式的四個技術(shù)趨勢

最后，李學(xué)朝談到未來多模態(tài)人機(jī)交互模式所呈現(xiàn)的四個技術(shù)趨勢。

首先，在多模態(tài)交互過程中，一個趨勢是圍繞“聽得清”，怎么去更多地跨界融合。今天騰訊云小微與騰訊AI Lab聯(lián)合發(fā)布了全新技術(shù)品牌——騰訊語音智能，即是更好地迎合這個趨勢。

騰訊語音智能為設(shè)備提供在復(fù)雜語音環(huán)境下，從輸入到輸出交互體驗全面升級的全鏈路的AI+聲學(xué)技術(shù)解決方案。比如通過從前端與ASR（自動語音識別）模式結(jié)合，實現(xiàn)在復(fù)雜、嘈雜場景中更好地識別和分離出目標(biāo)人物的語音。

第二個是在家居和車載等真實場景下，除了需要克服環(huán)境噪聲、人聲干擾等問題外，還需要應(yīng)對識別任務(wù)復(fù)雜度高、用戶口音多變、低資源設(shè)備上識別性能的提升等種種挑戰(zhàn)。

在后端處理環(huán)節(jié)，騰訊語音智能研發(fā)了“語音-語義結(jié)合的多領(lǐng)域在線識別系統(tǒng)”、“全雙工交互及閑聊拒識”、“端到端高性能離線識別系統(tǒng)”等技術(shù)方案，運(yùn)用深度學(xué)習(xí)建模、前后端聯(lián)合優(yōu)化、語音-語義聯(lián)合優(yōu)化等技術(shù)手段，很好地滿足了不同應(yīng)用場景下，對于語音交互在識別率、魯棒性、資源消耗和用戶體驗等多方面的要求。

第三個在TTS（從文本到語音）方面，以前是單純一個聲音，現(xiàn)在加上肢體或臉部表情，以及語言的情緒表達(dá)，對信息理解更加多元和準(zhǔn)確。

第四個是文本驅(qū)動，輸入一些文本、情緒相關(guān)的內(nèi)容，能讓數(shù)智人的面部表情根據(jù)上下文和各種情況做不同的表現(xiàn)。

綜合這幾個大的融合趨勢后，語音將能被更清晰地輸入、更形象地理解和更準(zhǔn)確地表達(dá)出來。

結(jié)語：騰訊云智能戰(zhàn)略的重要組成部分

此次大會期間，騰訊首次公布了云智能戰(zhàn)略架構(gòu)，而騰訊云小微數(shù)智人是騰訊云智能戰(zhàn)略的重要組成部分，堅持“服務(wù)于人”的價值理念，來為用戶提供更有溫度的服務(wù)、更自然的交互體驗。

騰訊云智能戰(zhàn)略架構(gòu)面向管理者、生產(chǎn)者、開發(fā)者、用戶四類人群，提供決策、協(xié)作、創(chuàng)新、服務(wù)四大核心能力，同時依托人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的云智能架構(gòu)，貼合客戶產(chǎn)業(yè)場景需求，輸出面向各行業(yè)的智能綜合解決方案。

李學(xué)朝提到：“數(shù)智人正在走進(jìn)我們的生活，在企業(yè)中承擔(dān)崗位職責(zé)，為用戶創(chuàng)造前所未有交互智能體驗同時，提升企業(yè)服務(wù)效率和品牌形象?！?/p>

當(dāng)前，騰訊云小微新一代數(shù)智人已經(jīng)在金融、傳媒、文旅、出行等多各業(yè)務(wù)場景領(lǐng)域發(fā)揮價值。我們期待看到未來數(shù)智人技術(shù)與文字、聽覺、視覺、觸覺、肢體動作等多維度感知實現(xiàn)更好的融合，為用戶帶來更高質(zhì)量的信息交互以及建立更深的情感鏈接。

對話騰訊李學(xué)朝：解讀從“數(shù)字人”到“數(shù)智人”的進(jìn)化論

相關(guān)閱讀