應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素

2019-08-21 09:04 維科網(wǎng)

導讀:當前,我們正處于視聯(lián)網(wǎng)的嬰兒期。

在上一期報告《“視聯(lián)網(wǎng)”:以視頻為核心的下一代互聯(lián)網(wǎng)展望》中,我們論述了視聯(lián)網(wǎng)的意義、趨勢和影響。報告提出,視頻具有高帶寬、便利性強等優(yōu)勢,將是下一代可穿戴式智能設備的首要互聯(lián)網(wǎng)入口。

視聯(lián)網(wǎng)就是以視頻作為主要信息傳遞介質(zhì)和功能載體的下一代互聯(lián)網(wǎng)形態(tài),將顛覆當前圖文生態(tài)的互聯(lián)網(wǎng)形態(tài),引發(fā)新一輪互聯(lián)網(wǎng)生態(tài)的激烈競爭。要實現(xiàn)視聯(lián)網(wǎng),需要突破通訊帶寬、視頻識別和視頻互動等三個方面的難點。而5G的普及以及AI技術的突破將是解決這三個難點的重要抓手。

因此,報告將視聯(lián)網(wǎng)的發(fā)展趨勢劃分為四階段:初步應用AI技術的嬰兒期、AI技術成熟的成長期、視聯(lián)網(wǎng)生態(tài)形成的青年期以及與智能硬件完美結(jié)合的成熟期。

當前,我們正處于視聯(lián)網(wǎng)的嬰兒期。那么,在技術快速進步的當下,我們離實現(xiàn)視聯(lián)網(wǎng)的成熟期還有多遠?視聯(lián)網(wǎng)究竟是一個遙不可及的概念還是一個即將到來的重大趨勢?在5G+AI的時代中,我們又將如何一步步實現(xiàn)視聯(lián)網(wǎng)的四個階段?

本期報告將回答這些問題。圍繞視聯(lián)網(wǎng)的實現(xiàn)路徑,報告將深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素,挖掘視聯(lián)網(wǎng)發(fā)展的“一主一次一輔”三條路徑,為視聯(lián)網(wǎng)的發(fā)展與生態(tài)建立提供具備操作性的發(fā)展規(guī)劃。

第一章:探尋視聯(lián)網(wǎng)的實現(xiàn)路徑

為了探尋視聯(lián)網(wǎng)的實現(xiàn)路徑,有必要更深入的分析視聯(lián)網(wǎng)的起點與終點,從中提煉出推動視聯(lián)網(wǎng)成長的核心要素。

視聯(lián)網(wǎng)的嬰兒期:“預期-推送”應用模式

在視聯(lián)網(wǎng)的起點,人們剛剛學會如何利用AI技術打破視頻的信息壁,并能夠利用視頻信息進行初步的商業(yè)應用。在這一階段中,對于視頻信息的解讀和利用是比較有限的,表現(xiàn)為數(shù)據(jù)維度較少、可辨識的類別有限。這主要是受限于視頻數(shù)據(jù)的數(shù)據(jù)量和標識量。

當前以深度學習神經(jīng)網(wǎng)絡算法為主流的AI技術需要大量經(jīng)過標識的數(shù)據(jù)樣本作為訓練AI算法的養(yǎng)料。通常,計算機要達到可商用的識別能力,需要上百個差異化的數(shù)據(jù)樣本的反復調(diào)試。但數(shù)據(jù)的標識和算法的訓練需要大量的人力投入,同時視頻內(nèi)容的版權(quán)和信息安全問題也制約了視頻數(shù)據(jù)的傳播。人力與數(shù)據(jù)共同限制著視頻識別能力的提升。

為了最大化的利用識別出的有限信息,“嬰兒期”的視聯(lián)網(wǎng)應用表現(xiàn)出了典型的“預期-推送”模式。在這一模式中,本質(zhì)上是利用外部已有的用戶大數(shù)據(jù)和行為心理學對視頻觀眾的心態(tài)和行為進行預測,挑選出被認為是最能引起觀眾共鳴的場景。進而,集中人力和數(shù)據(jù)讓計算機學會識別這些場景,并在全網(wǎng)視頻中找出此類場景中,推送與之相關的應用服務。例如,針對視頻中的團隊聚餐事件,可以分為提出聚餐、進入餐廳、點菜、吃的熱火朝天和結(jié)賬等五個場景。通過數(shù)據(jù)分析和常識判斷,吃的熱火朝天的場景最能引起人們對吃的情感共鳴,這時候就可以集中資源讓計算機學會識別“吃的熱火朝天”場景,進而在此類場景中大規(guī)模自動化地推送與吃相關的應用服務,比如外賣廣告。

深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素

基于“預期-推送”模式,視聯(lián)網(wǎng)的早期參與者開發(fā)出了廣告和電商兩類應用模式。這兩者相對于其他互聯(lián)網(wǎng)服務而言,具有商業(yè)模式較輕、變現(xiàn)速度較快的特點,并且對于視頻場景的需求也較為明確。

廣告業(yè)務的基本形式在于視頻場景與廣告內(nèi)涵的匹配。通過解析視頻內(nèi)容中蘊含的人物、物體、動作、地標等信息,可以尋找到與廣告品牌內(nèi)涵相一致的視頻場景,進而實現(xiàn)廣告品牌價值與視頻內(nèi)容場景相互匹配。這種模式下,可以創(chuàng)造出視頻場景廣告這一全新的廣告形式,大幅提高廣告曝光的接受度和回報率。

深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素

電商業(yè)務的核心是滿足視頻觀眾的場景消費沖動。視頻可以帶來強烈的情感渲染和共鳴,刺激觀眾在特定場景下對特定商品形成消費沖動。當前的視頻服務可以通過解析視頻場景的注意力指數(shù),在合適的視頻位置推送與場景關聯(lián)度最高的商品,促進商品的銷售轉(zhuǎn)化。

“預期-推送”模式的主要問題以及發(fā)展方向都在于如何提高“預期”的準確性。對于觀眾行為的預期越是準確,推送服務的商業(yè)價值也就越大。就目前的模式而言,“預期”在理論上有兩重錯配的可能。一是預期的用戶行為與實際行為不符,表現(xiàn)為大數(shù)據(jù)分析與個體實際行為間的差異,在當前階段難以解決;二是實際視頻內(nèi)容與所需視頻場景不符合,來自于視頻識別過程中的錯判,需要提高識別的準確率來解決。

視聯(lián)網(wǎng)的成熟期:“實時-調(diào)用”應用模式

技術的發(fā)展將為人帶來更大的便利。從技術便利性的角度出發(fā),我們可以對視聯(lián)網(wǎng)的成熟形態(tài)作出大膽而又合乎情理的想象。

在視聯(lián)網(wǎng)的成熟期,借助可穿戴智能設備、尤其是智能眼鏡的普及,人所見的一切信息都將被攝像頭捕捉并在極短的時間內(nèi)處理成計算機可以識別的視頻信息。此時,人們從視覺信息中激發(fā)的所有需求都能得到直接的響應。通過語言、手勢、眼動捕捉等多種形式,計算機能夠接收到人們提出的需求,并結(jié)合捕捉到的視頻信息獲悉需求的具體內(nèi)容和對象,進而調(diào)用互聯(lián)網(wǎng)的相關應用和服務來滿足人的需求。

最終,以一種極為便利的交互形式(可能是AR、VR或MR)將應用和服務反饋在人機交互的虛擬層上,形成了我們理想中的成熟的視聯(lián)網(wǎng)模式。在這一階段中,“實時”與“調(diào)用”將是描述應用模式最為核心的關鍵詞,與“嬰兒期”的“預期-推送”模式形成鮮明的對比。

當然,這并不意味著“預期-推送”模式將被被完全取代,更可能是作為“實時-調(diào)用”模式的一種補充。

深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素

“實時”強調(diào)的是視頻解析能力的全面性和即時性。這一時期的視頻內(nèi)容將在各個維度被全面解析,人眼觀察所能認知的一切信息都將被計算機捕獲,甚至超越人眼的可辨識范疇的信息都將被計算機掌握。并且,這種識別能力將是極為迅速的,視覺所及的一切內(nèi)容在形成需求前都將被計算機解析,從而響應人們隨時可能激發(fā)的任意需求。

深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素

“調(diào)用”強調(diào)的是互聯(lián)網(wǎng)服務與視頻內(nèi)容的完美結(jié)合,包含了互聯(lián)網(wǎng)服務的全面鏈接和服務形式的因地制宜兩重含義,是視聯(lián)網(wǎng)生態(tài)成熟的重要標志。在這一時期,互聯(lián)網(wǎng)中的各類服務和應用將以小程序的形式與視頻內(nèi)容全方位打通,人們在觀看視頻過程中激發(fā)出的需求將可以十分便利的調(diào)用對應的互聯(lián)網(wǎng)服務來滿足。例如,對于景點不了解就調(diào)用百科小程序,對于商品感興趣就調(diào)用電商小程序。同時,不同形式的互聯(lián)網(wǎng)服務將以最恰當?shù)幕有问匠尸F(xiàn)給人們,實現(xiàn)體驗的最優(yōu)化。

推動“視聯(lián)網(wǎng)”成長的核心要素

對比當前“嬰兒期”的視聯(lián)網(wǎng)模式和理想中的“成熟期”視聯(lián)網(wǎng)模式,可以發(fā)現(xiàn)“視聯(lián)網(wǎng)”的成長需要在以下三個方面形成突破:

視頻識別能力是推動視聯(lián)網(wǎng)發(fā)展的核心能力,也是視聯(lián)網(wǎng)的實現(xiàn)基礎??梢哉f,視頻識別的精度和速度決定了視聯(lián)網(wǎng)鏈接的廣度和深度。速度上的提升能提高視聯(lián)網(wǎng)的適用范圍,越快的識別速度意味著觀眾可以更迅速的與視頻內(nèi)容產(chǎn)生互動。識別的精度和維度的提升有助于提高視聯(lián)網(wǎng)的鏈接深度。更多維度和更高精度的識別才能精準定位用戶需求,進而深耕具體的需求內(nèi)容,調(diào)用最為合適的互聯(lián)網(wǎng)服務。

視頻小程序生態(tài)是視聯(lián)網(wǎng)的價值體現(xiàn)。通過多樣的視頻內(nèi)小程序鏈接豐富的互聯(lián)網(wǎng)服務,將視頻識別的技術能力轉(zhuǎn)化為給視頻觀眾帶來服務的功能模塊,在生態(tài)集聚中實現(xiàn)產(chǎn)業(yè)價值的最大化。視頻小程序生態(tài)是建立視頻識別能力之上的。如何最大化利用既有的視頻識別能力,鏈接盡可能多且好的互聯(lián)網(wǎng)服務、為視頻觀眾提供最為便利性的服務,是視頻小程序生態(tài)建設的核心問題。

軟硬件協(xié)同進程:視聯(lián)網(wǎng)真正走向成熟,還需要軟硬件層面的協(xié)同發(fā)展,促進視聯(lián)網(wǎng)的快速推廣與應用落地。這其中的協(xié)同包括處理芯片、通訊帶寬、攝影設備、互動設備等。這就要求在硬件設計層面就盡可能囊括視聯(lián)網(wǎng)的軟件應用,包括識別算法、互動程序等。

第二章:視聯(lián)網(wǎng)的發(fā)展路徑:“一主一次一輔”

圍繞視聯(lián)網(wǎng)成長的三個核心要素,可以明確視聯(lián)網(wǎng)發(fā)展的主要路徑,具體分為“一主一次一輔”的三條發(fā)展路徑。

仔細辨析三條路徑的發(fā)展前景,可以發(fā)現(xiàn),視聯(lián)網(wǎng)的成熟期離我們并不遙遠。

主線:視頻識別能力從量變到質(zhì)變

視頻識別能力的進步是視聯(lián)網(wǎng)發(fā)展的核心主線。視聯(lián)網(wǎng)從嬰兒期向成熟期的發(fā)展,需要視頻識別能力變得更快、更準、維度更多。尤其是在維度層面,視頻識別不僅是對單個元素,例如人臉、物體、商標等的識別,更需要對多元素組合而成的場景、連貫發(fā)展的事件等進行識別,以保證人的相關需求都能得到響應。

從當前的技術條件來看,視頻識別能力的進步主要取決于數(shù)據(jù)積累和算法迭代兩個方面。其中,算法迭代往往是可遇而不可求的,當前人工智能算法的突破也是建立在數(shù)十年理論研究和天才的靈光一閃之上。

與之相比,利用當前深度學習算法實現(xiàn)視頻識別能力的提升是可預期和可實現(xiàn)的。其中的關鍵在于數(shù)據(jù)積累引起的識別能力從量變到質(zhì)變。

深度學習算法的特點在于可以通過不斷的數(shù)據(jù)積累,讓計算機對于已標注的單元識別能力越來越精準。與此同時,更多的數(shù)據(jù)又有助于寫出更優(yōu)化的算法,提高計算機對于視頻的識別速度。

隨著被標注的元素和事件維度越來越豐富,計算機可識別的元素廣度和事件深度也在不斷增加。

深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素

在這個量的積累過程中,計算機的識別能力正在不斷接近人眼的識別能力,而當計算機能完全識別所有人眼能夠捕捉到的信息,就完成了從量變到質(zhì)變的過程。在此之后,起碼在精確度和識別維度方面,計算機已經(jīng)能夠勝任實時處理的要求。

在處理速度方面,隨著摩爾定律繼續(xù)發(fā)揮作用,能夠滿足實時處理能力的視頻處理專用芯片也將很快誕生,推動視頻識別能力走向成熟。

在阻礙方面,視頻標注所需的大量人力成本或許會成為制約視頻識別能力快速發(fā)展的主要阻礙。為了應對這一問題,一方面需要投入更多資源研發(fā)數(shù)據(jù)需求量更少的算法,另一方面也可以建立研發(fā)聯(lián)盟,由頭部企業(yè)聯(lián)合起來共同承擔成本,可以避免在視頻識別技術上的重復投入。

次線:視頻小程序生態(tài)的建設與優(yōu)化

視頻小程序生態(tài)的逐步壯大和優(yōu)化是視聯(lián)網(wǎng)發(fā)展的次線。之所以是次線,是由于視頻小程序生態(tài)需要建立在較強的視頻識別能力之上。一個完善的視頻小程序生態(tài)可以將視頻識別技術創(chuàng)造出的價值最大化,為更多的人提供服務和便利。

深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素

而要形成一個完善的視頻小程序生態(tài),最為重要的就是建立一個針對視頻互動技術的開發(fā)者生態(tài),讓開發(fā)者有動力和激勵圍繞視頻識別技術的進步不斷研發(fā)新服務和更新已有視頻小程序。

對比手機應用市場和小程序等生態(tài)的建立,視頻互動技術的開發(fā)者生態(tài),乃至視頻小程序生態(tài)的建立,需要在以下三個方面加以努力。

一是市場和流量規(guī)模。市場規(guī)模越大,越能吸引開發(fā)者加入研發(fā)新的應用程序,而越多的應用程序,越能吸引顧客進一步擴大市場規(guī)模。但對于全新的視頻小程序生態(tài)而言,市場規(guī)模從零開始,應該如何做到冷啟動,形成良性循環(huán)?首要的目標應是做大流量規(guī)模,以一兩款核心小程序為賣點,讓視頻小程序生態(tài)接入盡可能多的視頻播放平臺,獲得足夠的曝光機會。也正因此,視頻小程序生態(tài)的先發(fā)者往往能占據(jù)很大的優(yōu)勢。

二是小程序生態(tài)的管理水平。視頻小程序生態(tài)的建立能帶來巨大的市場價值,也必然面臨激烈的競爭。不同視頻生態(tài)間的競爭考察的不僅是視頻識別的技術能力,同樣考察企業(yè)對于小程序生態(tài)的管理能力,包括如何在開發(fā)者、流量方和平臺方之間分配收益、如何管理審核小程序的規(guī)范性和合法性、如何激勵開發(fā)者為新技術研發(fā)新應用等。完善的生態(tài)管理機制將大幅增加視頻小程序生態(tài)的親和度,進而加快開發(fā)者生態(tài)的形成。

三是開發(fā)環(huán)境的便利度。一個良好的開發(fā)生態(tài)的建立還需要便利的開發(fā)環(huán)境,包括開發(fā)語言的難易程度、功能模塊的完善程度、應用更新的便利程度等。

視聯(lián)網(wǎng)中的小程序生態(tài)必然將引發(fā)激烈的競爭,以上三個角度將是企業(yè)建立護城河,打造行業(yè)標準的重要方面。

輔線:軟硬件協(xié)同進程的不斷推進

軟硬件協(xié)同指的是將特定的軟件功能內(nèi)嵌在硬件之中,通過有針對性的資源優(yōu)化,從而加快處理速度、減少功耗等。軟硬件協(xié)同之所以是輔線,一方面是由于缺失硬件配套并不妨礙視聯(lián)網(wǎng)產(chǎn)業(yè)生態(tài)的建立,另一方面則是硬件投入成本高,軟硬件協(xié)同需要大規(guī)模市場的刺激,對于新生的視聯(lián)網(wǎng)生態(tài)而言,過早的介入硬件開發(fā)不利于在軟件開發(fā)上的精益求精。

但是,通過軟硬件協(xié)同,可以大幅減少視聯(lián)網(wǎng)落地應用和走向成熟的時間。例如,在攝像頭中直接加載視頻識別能力,可以大幅減少視頻識別所需的時間和成本;在視頻播放設備(如投影、眼鏡、電視等)中內(nèi)嵌視頻互動生態(tài),可以極大的拓展視聯(lián)網(wǎng)生態(tài)的應用范圍。

第三章:視聯(lián)網(wǎng)發(fā)展的前景預期

在分析了視聯(lián)網(wǎng)的核心發(fā)展要素和實現(xiàn)路徑之后,回顧視聯(lián)網(wǎng)發(fā)展的四個階段,可以更為詳盡的解析各個階段的狀態(tài)和市場規(guī)模,描繪一個更為清晰的視聯(lián)網(wǎng)發(fā)展前景。

深度解讀推動視聯(lián)網(wǎng)成長的三個核心要素

“百億規(guī)模的嬰兒期”(3年內(nèi))

最為核心的特點是視頻識別能力的不斷積累。視聯(lián)網(wǎng)的參與主體們都在努力修煉自身算法,以期盡早占據(jù)技術高地,形成獨一無二的產(chǎn)品優(yōu)勢。與此同時,圍繞視聯(lián)網(wǎng)的視頻小程序應用開發(fā)也將如火如荼的展開。早期的加入者希望抓住這一新的機遇,牢牢把握先發(fā)優(yōu)勢,以期在視頻小程序生態(tài)中成長為新的巨頭企業(yè)。

嬰兒期的視聯(lián)網(wǎng)企業(yè)需要在技術能力和商務能力上實現(xiàn)“雙輪驅(qū)動”。提高視頻識別的技術能力和加強視頻互動產(chǎn)品落地的商務能力,兩者是相互促進、一榮共榮的關系,這是由當前的技術特色所決定的。

應用場景和數(shù)據(jù)的增多會有助于進一步優(yōu)化視頻識別算法,從而為應用場景帶來更好的服務效果,促進商務的更快拓展。因此,對于以技術為核心的眾多初創(chuàng)企業(yè)而言,迅速拓展商務能力不僅能帶來高速增長的業(yè)績,更是企業(yè)生存和競爭必要選擇。

從市場規(guī)??矗斍耙延械膹V告和電商的互動形式將支持視聯(lián)網(wǎng)迅速踏上百億級的臺階,三年的估算是一個相對保守的測算。例如視頻場景廣告就將迅速替代已有的前貼片、中插等視頻廣告形式,而單單視頻貼片廣告的市場規(guī)模在中國就達到了四五百億之多。

千億規(guī)模的成長期(未來3-6年)

視聯(lián)網(wǎng)進入成長期的重要標志是視頻識別能力達到或超越人眼的識別能力,并能支持較為復雜的事件識別。

在這個階段,視頻識別能力提升所能帶來的收益已經(jīng)越來越少,市場競爭的重點轉(zhuǎn)向了視頻小程序生態(tài)的競爭。

早期參與視頻小程序生態(tài)的企業(yè)將面臨新玩家的激烈競爭。視聯(lián)網(wǎng)的價值將得到廣泛認可,眾多巨頭為了搶占視聯(lián)網(wǎng)的全新風口,將紛紛斥巨資加入視聯(lián)網(wǎng)生態(tài)的競爭。與此同時,一些有遠見和資源的企業(yè)將會把目光放在視聯(lián)網(wǎng)硬件的開發(fā)之上,把視頻識別技術嵌入硬件之中,形成諸如智能攝像、智能編輯、視頻專用芯片等產(chǎn)品。

未來3-6年中,視聯(lián)網(wǎng)在各類視頻小程序生態(tài)的支持下,將輕松突破千億規(guī)模。例如,廣告將不再局限在視頻場景之中,各類視頻內(nèi)的小程序服務(如百科、訂票、購物推薦等)都將成為廣告載體,擴大整個視聯(lián)網(wǎng)的市場規(guī)模。

萬億規(guī)模的青年期(未來6-10年)

視聯(lián)網(wǎng)的青年期代表了視聯(lián)網(wǎng)小程序生態(tài)的基本形成。依托完整的應用生態(tài)和成熟的視頻識別技術,視聯(lián)網(wǎng)已經(jīng)基本能夠?qū)崿F(xiàn)“實時-調(diào)用”模式。

在這一階段,視聯(lián)網(wǎng)的硬件研發(fā)將進入高潮,可穿戴智能設備的逐漸成熟帶動視聯(lián)網(wǎng)與硬件的結(jié)合越來越緊密。

視頻互動生態(tài)的形成和硬件研發(fā)的深入將推動視聯(lián)網(wǎng)從千億級規(guī)模邁入萬億級規(guī)模。

視聯(lián)網(wǎng)的成熟期(未來10-15年)

視聯(lián)網(wǎng)的成熟期可能將在未來10-15年到來,這主要取決于新一代智能設備的成熟時間。

智能硬件與視聯(lián)網(wǎng)將完美結(jié)合,人的視覺感官將成為互聯(lián)網(wǎng)的入口,可以鏈接到一切聯(lián)入互聯(lián)網(wǎng)的設備、享受其提供的服務。

這一時期視聯(lián)網(wǎng)的市場規(guī)模將沒有統(tǒng)計的意義,就像現(xiàn)在的互聯(lián)網(wǎng)一樣,視聯(lián)網(wǎng)將成為基礎設施,融入生活的方方面面。