應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

對話騰訊李學朝:解讀從“數(shù)字人”到“數(shù)智人”的進化論

2021-11-05 14:06 智東西

導讀:騰訊智能產(chǎn)品副總裁、騰訊教育副總裁李學朝接受媒體采訪,分享了騰訊云小微數(shù)智人擁有的差異化競爭力,以及多模態(tài)人機交互模式的四個主要技術(shù)趨勢。

近日,2021騰訊數(shù)字生態(tài)大會云智能專場上,騰訊云小微發(fā)布基于新一代多模態(tài)人機交互技術(shù)的全新數(shù)智人產(chǎn)品矩陣。

3D超寫實、3D寫實、3D半寫實、2D真人、2D卡通,五種風格的數(shù)智人產(chǎn)品集中亮相,可滿足各類場景服務(wù)需求,提供定制化角色服務(wù),擁有文旅導覽、金融客服、多語種主播、手語主播等不同職業(yè)身份和技能。這些數(shù)智人也參與到了本屆騰訊數(shù)字生態(tài)大會多個專場的主持工作中。

會后,騰訊智能產(chǎn)品副總裁、騰訊教育副總裁李學朝接受媒體采訪,分享了騰訊云小微數(shù)智人擁有的差異化競爭力,以及多模態(tài)人機交互模式的四個主要技術(shù)趨勢。

一、從人機交互向交互智能升級,騰訊云小微要打造不一樣的“數(shù)智人”

從過去的文本客服,升級為語音客服,再到多模態(tài)人機交互系統(tǒng)的發(fā)展周期,人機交互模式正持續(xù)進化。

具備多模態(tài)交互能力的數(shù)字人,已經(jīng)開始在眾多行業(yè)中商業(yè)化落地,輔助人工服務(wù),提升企業(yè)運行效率。例如,數(shù)字人在金融、文旅、傳媒、公共服務(wù)、醫(yī)療、零售等行業(yè)場景中,可擔任坐席客服、理財顧問、播報主持、導游導覽角色;在文化娛樂場景,可以作為虛擬偶像、虛擬歌手等形成IP資產(chǎn);在智能車載、智能交通、智能家居等場景,可以通過與智能設(shè)備結(jié)合,為用戶提供智能化服務(wù)。隨著數(shù)字人應(yīng)用邊界的不斷拓展,產(chǎn)業(yè)價值也在不斷擴大。

騰訊智能產(chǎn)品副總裁、騰訊教育副總裁李學朝在接受采訪時談道,近期中國信通院云計算與大數(shù)據(jù)研究所公布的2021年首批可信AI評測結(jié)果中,由騰訊申報的“交互式數(shù)字人”在2D真人形象類數(shù)字人項目中獲得了優(yōu)良級評價,這體現(xiàn)了對騰訊云小微數(shù)智人從技術(shù)到產(chǎn)品維度的認可。

此次騰訊云小微與AI Lab聯(lián)合開發(fā)的新一代數(shù)智人,擁有更鮮活的形象、更擬人的交互能力,讓將人機交互從單純的對話工具轉(zhuǎn)變?yōu)檎嬲臏贤ń涣?,為服?wù)體驗的提升帶來質(zhì)的轉(zhuǎn)變。在服務(wù)質(zhì)量穩(wěn)定的同時,數(shù)智人可快速復(fù)制,滿足激增的用戶服務(wù)需求,實現(xiàn)成本可控,高效成為助力企業(yè)發(fā)展和數(shù)字化轉(zhuǎn)型。

src=http___image.kejixun.com_2021_1104_20211104033106451.png&refer=http___image.kejixun.jpg

技術(shù)、落地、懂行,這是李學朝眼中,騰訊云小微數(shù)智人的三大差異化特征。

技術(shù)方面,此前的數(shù)字人偏靜態(tài),而騰訊主打的數(shù)智人更加智能化,加入會話AI等能力,實現(xiàn)用戶與數(shù)智人真正的會話并獲得相應(yīng)服務(wù)。

NLP、知識圖譜、視覺等全棧AI底層能力,讓數(shù)智人擁有強大的形象表現(xiàn)力、識別力和感知理解能力,可識別超34種語種、方言、翻譯超過11個語種,擁有超過46萬垂直行業(yè)場景熱詞庫,在多業(yè)務(wù)場景中都能做到“聽得清、聽得懂、會表達”。

這些數(shù)智人擁有超細微面部情感表情以及數(shù)百種肢體動作,在形象選擇方面,不但可支持定制化需求,還獲得了騰訊海量IP形象授權(quán)?!拔覀兿Mㄟ^情緒和情感化升級,肢體語言結(jié)合更情感化的語言合成,(使你)感覺到這個人在服務(wù)過程中確實是跟你的感受共情?!崩顚W朝說。

騰訊數(shù)智人的真正產(chǎn)品化和落地上場景嵌入的實現(xiàn)是比較靠前的,再加上打造數(shù)智人需要了解行業(yè)和具體場景,與技術(shù)積累結(jié)合,這些融合組成了騰訊云小微數(shù)智人的差異性。

此前搜狗在2D數(shù)字人方面已有很多積累。搜狗并入騰訊后,李學朝談道,搜狗在2D數(shù)字人方面的技術(shù)、產(chǎn)品與場景積累,與云小微數(shù)智人的能力產(chǎn)生了疊加和協(xié)同,從而能提供更好的產(chǎn)品。

騰訊云小微通過整合AI能力,連接騰訊豐富的內(nèi)容和服務(wù)生態(tài),面向使用場景打磨平臺能力,助力行業(yè)客戶打造有智能、有形象、生動交互的AI。

除了提供標準化的行業(yè)包外,騰訊云小微也可以在一些新場景下,為合作伙伴或客戶提供定制化服務(wù),包括形象定制、行業(yè)場景理解,讓數(shù)智人更懂這個場景,對話更加聽得清、聽得懂。而與客戶的合作,又會為這些場景積累新的應(yīng)用,從而進一步積累騰訊云小微數(shù)智人的技術(shù)、工具和場景落地經(jīng)驗。

二、基于兩大交互模式,落地金融、文旅等多類場景

不同于近期很火的元宇宙虛擬人,李學朝特意提到數(shù)智人是為數(shù)字世界打造的數(shù)字員工,旨在更好地服務(wù)行業(yè)場景、服務(wù)到現(xiàn)實世界的用戶。

按照交互模式,數(shù)智人主要有播報式和交互式兩種類型。播報式通過文本驅(qū)動,進行內(nèi)容播報,提升內(nèi)容生產(chǎn)效率,適用于新聞播報、應(yīng)急服務(wù)等場景;交互式數(shù)智人通過對話提供服務(wù),能更好地協(xié)助企業(yè)客服,提升業(yè)務(wù)辦理效率。

在金融領(lǐng)域,數(shù)智人已助力平安普惠落地了行業(yè)首個金融AI數(shù)字員工,通過自然可視化的人機智能交互,累計服務(wù)用戶500萬,審核成本降低60%,保障了2年間7x24h的在線服務(wù)。

在文旅領(lǐng)域,數(shù)智人化身導游,在故宮、龍門石窟等景區(qū)提供AI導覽服務(wù),為游客提供個性化游覽路線推薦,景點文物講解等多種服務(wù)。

在傳媒行業(yè),助力新華社推出全球首個“AI合成主播”,目前已累計播報新聞超過1萬條,保證播報零誤差,可對日常和突發(fā)事件實時響應(yīng)。

在教育領(lǐng)域,數(shù)智人作為助教,可根據(jù)文本和課件進行自學習,以更生動、親切的形象和學生互動。

同時,騰訊云小微致力于讓數(shù)智人與智能設(shè)備結(jié)合,打造以用戶為中心的生活服務(wù)。

比如在公共服務(wù)中,數(shù)智人可及時、高效地處理用戶在公共交通中的票務(wù)等問題,也可輔助人力進行政策問答,提升政策辦事問答效率。

在智能家居中,用戶通過語音指令即可隨時隨地與數(shù)智人交流,憑借全新的視覺表達,提供自然、豐富的智能交互服務(wù)。

李學朝也談到數(shù)智人面臨的一些挑戰(zhàn)與風險。

首先,如果數(shù)智人不夠智能,出現(xiàn)答非所問等情況,會導致客戶感受大打折扣。其次,在使用方面,目前數(shù)智人主要針對封閉的企業(yè)場景,去解決客戶服務(wù)流程中的各種業(yè)務(wù)問題,還沒有將其技術(shù)完全開放和應(yīng)用到C端場景中,因為C端可能存在此前“換臉”等倫理問題的風險。

李學朝坦言,當前技術(shù)還存在一些局限性,比如很難從文字、語音中準確理解情感,在合成語音時,也要基于前面語義、語音情感的輸入,讓合成的聲音有情感表達。另外,如何基于文本來驅(qū)動表情,也需要持續(xù)的探索。這些技術(shù)的持續(xù)進化,將使得數(shù)智人表現(xiàn)得更為立體。

三、多模態(tài)人機交互模式的四個技術(shù)趨勢

最后,李學朝談到未來多模態(tài)人機交互模式所呈現(xiàn)的四個技術(shù)趨勢。

首先,在多模態(tài)交互過程中,一個趨勢是圍繞“聽得清”,怎么去更多地跨界融合。今天騰訊云小微與騰訊AI Lab聯(lián)合發(fā)布了全新技術(shù)品牌——騰訊語音智能,即是更好地迎合這個趨勢。

騰訊語音智能為設(shè)備提供在復(fù)雜語音環(huán)境下,從輸入到輸出交互體驗全面升級的全鏈路的AI+聲學技術(shù)解決方案。比如通過從前端與ASR(自動語音識別)模式結(jié)合,實現(xiàn)在復(fù)雜、嘈雜場景中更好地識別和分離出目標人物的語音。

第二個是在家居和車載等真實場景下,除了需要克服環(huán)境噪聲、人聲干擾等問題外,還需要應(yīng)對識別任務(wù)復(fù)雜度高、用戶口音多變、低資源設(shè)備上識別性能的提升等種種挑戰(zhàn)。

在后端處理環(huán)節(jié),騰訊語音智能研發(fā)了“語音-語義結(jié)合的多領(lǐng)域在線識別系統(tǒng)”、“全雙工交互及閑聊拒識”、“端到端高性能離線識別系統(tǒng)”等技術(shù)方案,運用深度學習建模、前后端聯(lián)合優(yōu)化、語音-語義聯(lián)合優(yōu)化等技術(shù)手段,很好地滿足了不同應(yīng)用場景下,對于語音交互在識別率、魯棒性、資源消耗和用戶體驗等多方面的要求。

第三個在TTS(從文本到語音)方面,以前是單純一個聲音,現(xiàn)在加上肢體或臉部表情,以及語言的情緒表達,對信息理解更加多元和準確。

第四個是文本驅(qū)動,輸入一些文本、情緒相關(guān)的內(nèi)容,能讓數(shù)智人的面部表情根據(jù)上下文和各種情況做不同的表現(xiàn)。

綜合這幾個大的融合趨勢后,語音將能被更清晰地輸入、更形象地理解和更準確地表達出來。

結(jié)語:騰訊云智能戰(zhàn)略的重要組成部分

此次大會期間,騰訊首次公布了云智能戰(zhàn)略架構(gòu),而騰訊云小微數(shù)智人是騰訊云智能戰(zhàn)略的重要組成部分,堅持“服務(wù)于人”的價值理念,來為用戶提供更有溫度的服務(wù)、更自然的交互體驗。

騰訊云智能戰(zhàn)略架構(gòu)面向管理者、生產(chǎn)者、開發(fā)者、用戶四類人群,提供決策、協(xié)作、創(chuàng)新、服務(wù)四大核心能力,同時依托人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的云智能架構(gòu),貼合客戶產(chǎn)業(yè)場景需求,輸出面向各行業(yè)的智能綜合解決方案。

李學朝提到:“數(shù)智人正在走進我們的生活,在企業(yè)中承擔崗位職責,為用戶創(chuàng)造前所未有交互智能體驗同時,提升企業(yè)服務(wù)效率和品牌形象。”

當前,騰訊云小微新一代數(shù)智人已經(jīng)在金融、傳媒、文旅、出行等多各業(yè)務(wù)場景領(lǐng)域發(fā)揮價值。我們期待看到未來數(shù)智人技術(shù)與文字、聽覺、視覺、觸覺、肢體動作等多維度感知實現(xiàn)更好的融合,為用戶帶來更高質(zhì)量的信息交互以及建立更深的情感鏈接。