導讀:當前,我們正處于視聯(lián)網(wǎng)的嬰兒期。
在上一期報告《“視聯(lián)網(wǎng)”:以視頻為核心的下一代互聯(lián)網(wǎng)展望》中,我們論述了視聯(lián)網(wǎng)的意義、趨勢和影響。報告提出,視頻具有高帶寬、便利性強等優(yōu)勢,將是下一代可穿戴式智能設(shè)備的首要互聯(lián)網(wǎng)入口。
視聯(lián)網(wǎng)就是以視頻作為主要信息傳遞介質(zhì)和功能載體的下一代互聯(lián)網(wǎng)形態(tài),將顛覆當前圖文生態(tài)的互聯(lián)網(wǎng)形態(tài),引發(fā)新一輪互聯(lián)網(wǎng)生態(tài)的激烈競爭。要實現(xiàn)視聯(lián)網(wǎng),需要突破通訊帶寬、視頻識別和視頻互動等三個方面的難點。而5G的普及以及AI技術(shù)的突破將是解決這三個難點的重要抓手。
因此,報告將視聯(lián)網(wǎng)的發(fā)展趨勢劃分為四階段:初步應(yīng)用AI技術(shù)的嬰兒期、AI技術(shù)成熟的成長期、視聯(lián)網(wǎng)生態(tài)形成的青年期以及與智能硬件完美結(jié)合的成熟期。
當前,我們正處于視聯(lián)網(wǎng)的嬰兒期。那么,在技術(shù)快速進步的當下,我們離實現(xiàn)視聯(lián)網(wǎng)的成熟期還有多遠?視聯(lián)網(wǎng)究竟是一個遙不可及的概念還是一個即將到來的重大趨勢?在5G+AI的時代中,我們又將如何一步步實現(xiàn)視聯(lián)網(wǎng)的四個階段?
本期報告將回答這些問題。圍繞視聯(lián)網(wǎng)的實現(xiàn)路徑,報告將深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素,挖掘視聯(lián)網(wǎng)發(fā)展的“一主一次一輔”三條路徑,為視聯(lián)網(wǎng)的發(fā)展與生態(tài)建立提供具備操作性的發(fā)展規(guī)劃。
第一章:探尋視聯(lián)網(wǎng)的實現(xiàn)路徑
為了探尋視聯(lián)網(wǎng)的實現(xiàn)路徑,有必要更深入的分析視聯(lián)網(wǎng)的起點與終點,從中提煉出推動視聯(lián)網(wǎng)成長的核心要素。
視聯(lián)網(wǎng)的嬰兒期:“預期-推送”應(yīng)用模式
在視聯(lián)網(wǎng)的起點,人們剛剛學會如何利用AI技術(shù)打破視頻的信息壁,并能夠利用視頻信息進行初步的商業(yè)應(yīng)用。在這一階段中,對于視頻信息的解讀和利用是比較有限的,表現(xiàn)為數(shù)據(jù)維度較少、可辨識的類別有限。這主要是受限于視頻數(shù)據(jù)的數(shù)據(jù)量和標識量。
當前以深度學習神經(jīng)網(wǎng)絡(luò)算法為主流的AI技術(shù)需要大量經(jīng)過標識的數(shù)據(jù)樣本作為訓練AI算法的養(yǎng)料。通常,計算機要達到可商用的識別能力,需要上百個差異化的數(shù)據(jù)樣本的反復調(diào)試。但數(shù)據(jù)的標識和算法的訓練需要大量的人力投入,同時視頻內(nèi)容的版權(quán)和信息安全問題也制約了視頻數(shù)據(jù)的傳播。人力與數(shù)據(jù)共同限制著視頻識別能力的提升。
為了最大化的利用識別出的有限信息,“嬰兒期”的視聯(lián)網(wǎng)應(yīng)用表現(xiàn)出了典型的“預期-推送”模式。在這一模式中,本質(zhì)上是利用外部已有的用戶大數(shù)據(jù)和行為心理學對視頻觀眾的心態(tài)和行為進行預測,挑選出被認為是最能引起觀眾共鳴的場景。進而,集中人力和數(shù)據(jù)讓計算機學會識別這些場景,并在全網(wǎng)視頻中找出此類場景中,推送與之相關(guān)的應(yīng)用服務(wù)。例如,針對視頻中的團隊聚餐事件,可以分為提出聚餐、進入餐廳、點菜、吃的熱火朝天和結(jié)賬等五個場景。通過數(shù)據(jù)分析和常識判斷,吃的熱火朝天的場景最能引起人們對吃的情感共鳴,這時候就可以集中資源讓計算機學會識別“吃的熱火朝天”場景,進而在此類場景中大規(guī)模自動化地推送與吃相關(guān)的應(yīng)用服務(wù),比如外賣廣告。
基于“預期-推送”模式,視聯(lián)網(wǎng)的早期參與者開發(fā)出了廣告和電商兩類應(yīng)用模式。這兩者相對于其他互聯(lián)網(wǎng)服務(wù)而言,具有商業(yè)模式較輕、變現(xiàn)速度較快的特點,并且對于視頻場景的需求也較為明確。
廣告業(yè)務(wù)的基本形式在于視頻場景與廣告內(nèi)涵的匹配。通過解析視頻內(nèi)容中蘊含的人物、物體、動作、地標等信息,可以尋找到與廣告品牌內(nèi)涵相一致的視頻場景,進而實現(xiàn)廣告品牌價值與視頻內(nèi)容場景相互匹配。這種模式下,可以創(chuàng)造出視頻場景廣告這一全新的廣告形式,大幅提高廣告曝光的接受度和回報率。
電商業(yè)務(wù)的核心是滿足視頻觀眾的場景消費沖動。視頻可以帶來強烈的情感渲染和共鳴,刺激觀眾在特定場景下對特定商品形成消費沖動。當前的視頻服務(wù)可以通過解析視頻場景的注意力指數(shù),在合適的視頻位置推送與場景關(guān)聯(lián)度最高的商品,促進商品的銷售轉(zhuǎn)化。
“預期-推送”模式的主要問題以及發(fā)展方向都在于如何提高“預期”的準確性。對于觀眾行為的預期越是準確,推送服務(wù)的商業(yè)價值也就越大。就目前的模式而言,“預期”在理論上有兩重錯配的可能。一是預期的用戶行為與實際行為不符,表現(xiàn)為大數(shù)據(jù)分析與個體實際行為間的差異,在當前階段難以解決;二是實際視頻內(nèi)容與所需視頻場景不符合,來自于視頻識別過程中的錯判,需要提高識別的準確率來解決。
視聯(lián)網(wǎng)的成熟期:“實時-調(diào)用”應(yīng)用模式
技術(shù)的發(fā)展將為人帶來更大的便利。從技術(shù)便利性的角度出發(fā),我們可以對視聯(lián)網(wǎng)的成熟形態(tài)作出大膽而又合乎情理的想象。
在視聯(lián)網(wǎng)的成熟期,借助可穿戴智能設(shè)備、尤其是智能眼鏡的普及,人所見的一切信息都將被攝像頭捕捉并在極短的時間內(nèi)處理成計算機可以識別的視頻信息。此時,人們從視覺信息中激發(fā)的所有需求都能得到直接的響應(yīng)。通過語言、手勢、眼動捕捉等多種形式,計算機能夠接收到人們提出的需求,并結(jié)合捕捉到的視頻信息獲悉需求的具體內(nèi)容和對象,進而調(diào)用互聯(lián)網(wǎng)的相關(guān)應(yīng)用和服務(wù)來滿足人的需求。
最終,以一種極為便利的交互形式(可能是AR、VR或MR)將應(yīng)用和服務(wù)反饋在人機交互的虛擬層上,形成了我們理想中的成熟的視聯(lián)網(wǎng)模式。在這一階段中,“實時”與“調(diào)用”將是描述應(yīng)用模式最為核心的關(guān)鍵詞,與“嬰兒期”的“預期-推送”模式形成鮮明的對比。
當然,這并不意味著“預期-推送”模式將被被完全取代,更可能是作為“實時-調(diào)用”模式的一種補充。
“實時”強調(diào)的是視頻解析能力的全面性和即時性。這一時期的視頻內(nèi)容將在各個維度被全面解析,人眼觀察所能認知的一切信息都將被計算機捕獲,甚至超越人眼的可辨識范疇的信息都將被計算機掌握。并且,這種識別能力將是極為迅速的,視覺所及的一切內(nèi)容在形成需求前都將被計算機解析,從而響應(yīng)人們隨時可能激發(fā)的任意需求。
“調(diào)用”強調(diào)的是互聯(lián)網(wǎng)服務(wù)與視頻內(nèi)容的完美結(jié)合,包含了互聯(lián)網(wǎng)服務(wù)的全面鏈接和服務(wù)形式的因地制宜兩重含義,是視聯(lián)網(wǎng)生態(tài)成熟的重要標志。在這一時期,互聯(lián)網(wǎng)中的各類服務(wù)和應(yīng)用將以小程序的形式與視頻內(nèi)容全方位打通,人們在觀看視頻過程中激發(fā)出的需求將可以十分便利的調(diào)用對應(yīng)的互聯(lián)網(wǎng)服務(wù)來滿足。例如,對于景點不了解就調(diào)用百科小程序,對于商品感興趣就調(diào)用電商小程序。同時,不同形式的互聯(lián)網(wǎng)服務(wù)將以最恰當?shù)幕有问匠尸F(xiàn)給人們,實現(xiàn)體驗的最優(yōu)化。
推動“視聯(lián)網(wǎng)”成長的核心要素
對比當前“嬰兒期”的視聯(lián)網(wǎng)模式和理想中的“成熟期”視聯(lián)網(wǎng)模式,可以發(fā)現(xiàn)“視聯(lián)網(wǎng)”的成長需要在以下三個方面形成突破:
視頻識別能力是推動視聯(lián)網(wǎng)發(fā)展的核心能力,也是視聯(lián)網(wǎng)的實現(xiàn)基礎(chǔ)??梢哉f,視頻識別的精度和速度決定了視聯(lián)網(wǎng)鏈接的廣度和深度。速度上的提升能提高視聯(lián)網(wǎng)的適用范圍,越快的識別速度意味著觀眾可以更迅速的與視頻內(nèi)容產(chǎn)生互動。識別的精度和維度的提升有助于提高視聯(lián)網(wǎng)的鏈接深度。更多維度和更高精度的識別才能精準定位用戶需求,進而深耕具體的需求內(nèi)容,調(diào)用最為合適的互聯(lián)網(wǎng)服務(wù)。
視頻小程序生態(tài)是視聯(lián)網(wǎng)的價值體現(xiàn)。通過多樣的視頻內(nèi)小程序鏈接豐富的互聯(lián)網(wǎng)服務(wù),將視頻識別的技術(shù)能力轉(zhuǎn)化為給視頻觀眾帶來服務(wù)的功能模塊,在生態(tài)集聚中實現(xiàn)產(chǎn)業(yè)價值的最大化。視頻小程序生態(tài)是建立視頻識別能力之上的。如何最大化利用既有的視頻識別能力,鏈接盡可能多且好的互聯(lián)網(wǎng)服務(wù)、為視頻觀眾提供最為便利性的服務(wù),是視頻小程序生態(tài)建設(shè)的核心問題。
軟硬件協(xié)同進程:視聯(lián)網(wǎng)真正走向成熟,還需要軟硬件層面的協(xié)同發(fā)展,促進視聯(lián)網(wǎng)的快速推廣與應(yīng)用落地。這其中的協(xié)同包括處理芯片、通訊帶寬、攝影設(shè)備、互動設(shè)備等。這就要求在硬件設(shè)計層面就盡可能囊括視聯(lián)網(wǎng)的軟件應(yīng)用,包括識別算法、互動程序等。
第二章:視聯(lián)網(wǎng)的發(fā)展路徑:“一主一次一輔”
圍繞視聯(lián)網(wǎng)成長的三個核心要素,可以明確視聯(lián)網(wǎng)發(fā)展的主要路徑,具體分為“一主一次一輔”的三條發(fā)展路徑。
仔細辨析三條路徑的發(fā)展前景,可以發(fā)現(xiàn),視聯(lián)網(wǎng)的成熟期離我們并不遙遠。
主線:視頻識別能力從量變到質(zhì)變
視頻識別能力的進步是視聯(lián)網(wǎng)發(fā)展的核心主線。視聯(lián)網(wǎng)從嬰兒期向成熟期的發(fā)展,需要視頻識別能力變得更快、更準、維度更多。尤其是在維度層面,視頻識別不僅是對單個元素,例如人臉、物體、商標等的識別,更需要對多元素組合而成的場景、連貫發(fā)展的事件等進行識別,以保證人的相關(guān)需求都能得到響應(yīng)。
從當前的技術(shù)條件來看,視頻識別能力的進步主要取決于數(shù)據(jù)積累和算法迭代兩個方面。其中,算法迭代往往是可遇而不可求的,當前人工智能算法的突破也是建立在數(shù)十年理論研究和天才的靈光一閃之上。
與之相比,利用當前深度學習算法實現(xiàn)視頻識別能力的提升是可預期和可實現(xiàn)的。其中的關(guān)鍵在于數(shù)據(jù)積累引起的識別能力從量變到質(zhì)變。
深度學習算法的特點在于可以通過不斷的數(shù)據(jù)積累,讓計算機對于已標注的單元識別能力越來越精準。與此同時,更多的數(shù)據(jù)又有助于寫出更優(yōu)化的算法,提高計算機對于視頻的識別速度。
隨著被標注的元素和事件維度越來越豐富,計算機可識別的元素廣度和事件深度也在不斷增加。
在這個量的積累過程中,計算機的識別能力正在不斷接近人眼的識別能力,而當計算機能完全識別所有人眼能夠捕捉到的信息,就完成了從量變到質(zhì)變的過程。在此之后,起碼在精確度和識別維度方面,計算機已經(jīng)能夠勝任實時處理的要求。
在處理速度方面,隨著摩爾定律繼續(xù)發(fā)揮作用,能夠滿足實時處理能力的視頻處理專用芯片也將很快誕生,推動視頻識別能力走向成熟。
在阻礙方面,視頻標注所需的大量人力成本或許會成為制約視頻識別能力快速發(fā)展的主要阻礙。為了應(yīng)對這一問題,一方面需要投入更多資源研發(fā)數(shù)據(jù)需求量更少的算法,另一方面也可以建立研發(fā)聯(lián)盟,由頭部企業(yè)聯(lián)合起來共同承擔成本,可以避免在視頻識別技術(shù)上的重復投入。
次線:視頻小程序生態(tài)的建設(shè)與優(yōu)化
視頻小程序生態(tài)的逐步壯大和優(yōu)化是視聯(lián)網(wǎng)發(fā)展的次線。之所以是次線,是由于視頻小程序生態(tài)需要建立在較強的視頻識別能力之上。一個完善的視頻小程序生態(tài)可以將視頻識別技術(shù)創(chuàng)造出的價值最大化,為更多的人提供服務(wù)和便利。
而要形成一個完善的視頻小程序生態(tài),最為重要的就是建立一個針對視頻互動技術(shù)的開發(fā)者生態(tài),讓開發(fā)者有動力和激勵圍繞視頻識別技術(shù)的進步不斷研發(fā)新服務(wù)和更新已有視頻小程序。
對比手機應(yīng)用市場和小程序等生態(tài)的建立,視頻互動技術(shù)的開發(fā)者生態(tài),乃至視頻小程序生態(tài)的建立,需要在以下三個方面加以努力。
一是市場和流量規(guī)模。市場規(guī)模越大,越能吸引開發(fā)者加入研發(fā)新的應(yīng)用程序,而越多的應(yīng)用程序,越能吸引顧客進一步擴大市場規(guī)模。但對于全新的視頻小程序生態(tài)而言,市場規(guī)模從零開始,應(yīng)該如何做到冷啟動,形成良性循環(huán)?首要的目標應(yīng)是做大流量規(guī)模,以一兩款核心小程序為賣點,讓視頻小程序生態(tài)接入盡可能多的視頻播放平臺,獲得足夠的曝光機會。也正因此,視頻小程序生態(tài)的先發(fā)者往往能占據(jù)很大的優(yōu)勢。
二是小程序生態(tài)的管理水平。視頻小程序生態(tài)的建立能帶來巨大的市場價值,也必然面臨激烈的競爭。不同視頻生態(tài)間的競爭考察的不僅是視頻識別的技術(shù)能力,同樣考察企業(yè)對于小程序生態(tài)的管理能力,包括如何在開發(fā)者、流量方和平臺方之間分配收益、如何管理審核小程序的規(guī)范性和合法性、如何激勵開發(fā)者為新技術(shù)研發(fā)新應(yīng)用等。完善的生態(tài)管理機制將大幅增加視頻小程序生態(tài)的親和度,進而加快開發(fā)者生態(tài)的形成。
三是開發(fā)環(huán)境的便利度。一個良好的開發(fā)生態(tài)的建立還需要便利的開發(fā)環(huán)境,包括開發(fā)語言的難易程度、功能模塊的完善程度、應(yīng)用更新的便利程度等。
視聯(lián)網(wǎng)中的小程序生態(tài)必然將引發(fā)激烈的競爭,以上三個角度將是企業(yè)建立護城河,打造行業(yè)標準的重要方面。
輔線:軟硬件協(xié)同進程的不斷推進
軟硬件協(xié)同指的是將特定的軟件功能內(nèi)嵌在硬件之中,通過有針對性的資源優(yōu)化,從而加快處理速度、減少功耗等。軟硬件協(xié)同之所以是輔線,一方面是由于缺失硬件配套并不妨礙視聯(lián)網(wǎng)產(chǎn)業(yè)生態(tài)的建立,另一方面則是硬件投入成本高,軟硬件協(xié)同需要大規(guī)模市場的刺激,對于新生的視聯(lián)網(wǎng)生態(tài)而言,過早的介入硬件開發(fā)不利于在軟件開發(fā)上的精益求精。
但是,通過軟硬件協(xié)同,可以大幅減少視聯(lián)網(wǎng)落地應(yīng)用和走向成熟的時間。例如,在攝像頭中直接加載視頻識別能力,可以大幅減少視頻識別所需的時間和成本;在視頻播放設(shè)備(如投影、眼鏡、電視等)中內(nèi)嵌視頻互動生態(tài),可以極大的拓展視聯(lián)網(wǎng)生態(tài)的應(yīng)用范圍。
第三章:視聯(lián)網(wǎng)發(fā)展的前景預期
在分析了視聯(lián)網(wǎng)的核心發(fā)展要素和實現(xiàn)路徑之后,回顧視聯(lián)網(wǎng)發(fā)展的四個階段,可以更為詳盡的解析各個階段的狀態(tài)和市場規(guī)模,描繪一個更為清晰的視聯(lián)網(wǎng)發(fā)展前景。
“百億規(guī)模的嬰兒期”(3年內(nèi))
最為核心的特點是視頻識別能力的不斷積累。視聯(lián)網(wǎng)的參與主體們都在努力修煉自身算法,以期盡早占據(jù)技術(shù)高地,形成獨一無二的產(chǎn)品優(yōu)勢。與此同時,圍繞視聯(lián)網(wǎng)的視頻小程序應(yīng)用開發(fā)也將如火如荼的展開。早期的加入者希望抓住這一新的機遇,牢牢把握先發(fā)優(yōu)勢,以期在視頻小程序生態(tài)中成長為新的巨頭企業(yè)。
嬰兒期的視聯(lián)網(wǎng)企業(yè)需要在技術(shù)能力和商務(wù)能力上實現(xiàn)“雙輪驅(qū)動”。提高視頻識別的技術(shù)能力和加強視頻互動產(chǎn)品落地的商務(wù)能力,兩者是相互促進、一榮共榮的關(guān)系,這是由當前的技術(shù)特色所決定的。
應(yīng)用場景和數(shù)據(jù)的增多會有助于進一步優(yōu)化視頻識別算法,從而為應(yīng)用場景帶來更好的服務(wù)效果,促進商務(wù)的更快拓展。因此,對于以技術(shù)為核心的眾多初創(chuàng)企業(yè)而言,迅速拓展商務(wù)能力不僅能帶來高速增長的業(yè)績,更是企業(yè)生存和競爭必要選擇。
從市場規(guī)??矗斍耙延械膹V告和電商的互動形式將支持視聯(lián)網(wǎng)迅速踏上百億級的臺階,三年的估算是一個相對保守的測算。例如視頻場景廣告就將迅速替代已有的前貼片、中插等視頻廣告形式,而單單視頻貼片廣告的市場規(guī)模在中國就達到了四五百億之多。
千億規(guī)模的成長期(未來3-6年)
視聯(lián)網(wǎng)進入成長期的重要標志是視頻識別能力達到或超越人眼的識別能力,并能支持較為復雜的事件識別。
在這個階段,視頻識別能力提升所能帶來的收益已經(jīng)越來越少,市場競爭的重點轉(zhuǎn)向了視頻小程序生態(tài)的競爭。
早期參與視頻小程序生態(tài)的企業(yè)將面臨新玩家的激烈競爭。視聯(lián)網(wǎng)的價值將得到廣泛認可,眾多巨頭為了搶占視聯(lián)網(wǎng)的全新風口,將紛紛斥巨資加入視聯(lián)網(wǎng)生態(tài)的競爭。與此同時,一些有遠見和資源的企業(yè)將會把目光放在視聯(lián)網(wǎng)硬件的開發(fā)之上,把視頻識別技術(shù)嵌入硬件之中,形成諸如智能攝像、智能編輯、視頻專用芯片等產(chǎn)品。
未來3-6年中,視聯(lián)網(wǎng)在各類視頻小程序生態(tài)的支持下,將輕松突破千億規(guī)模。例如,廣告將不再局限在視頻場景之中,各類視頻內(nèi)的小程序服務(wù)(如百科、訂票、購物推薦等)都將成為廣告載體,擴大整個視聯(lián)網(wǎng)的市場規(guī)模。
萬億規(guī)模的青年期(未來6-10年)
視聯(lián)網(wǎng)的青年期代表了視聯(lián)網(wǎng)小程序生態(tài)的基本形成。依托完整的應(yīng)用生態(tài)和成熟的視頻識別技術(shù),視聯(lián)網(wǎng)已經(jīng)基本能夠?qū)崿F(xiàn)“實時-調(diào)用”模式。
在這一階段,視聯(lián)網(wǎng)的硬件研發(fā)將進入高潮,可穿戴智能設(shè)備的逐漸成熟帶動視聯(lián)網(wǎng)與硬件的結(jié)合越來越緊密。
視頻互動生態(tài)的形成和硬件研發(fā)的深入將推動視聯(lián)網(wǎng)從千億級規(guī)模邁入萬億級規(guī)模。
視聯(lián)網(wǎng)的成熟期(未來10-15年)
視聯(lián)網(wǎng)的成熟期可能將在未來10-15年到來,這主要取決于新一代智能設(shè)備的成熟時間。
智能硬件與視聯(lián)網(wǎng)將完美結(jié)合,人的視覺感官將成為互聯(lián)網(wǎng)的入口,可以鏈接到一切聯(lián)入互聯(lián)網(wǎng)的設(shè)備、享受其提供的服務(wù)。
這一時期視聯(lián)網(wǎng)的市場規(guī)模將沒有統(tǒng)計的意義,就像現(xiàn)在的互聯(lián)網(wǎng)一樣,視聯(lián)網(wǎng)將成為基礎(chǔ)設(shè)施,融入生活的方方面面。