導讀:前天凌晨,蘋果帶來了近些年最幻滅的一次系統(tǒng)更新。
蘋果實況文本功能對比測試
前天凌晨,蘋果帶來了近些年最幻滅的一次系統(tǒng)更新。沒有息屏顯示、沒有新的UI設計,沒有什么驚艷的黑科技,只有大量安卓用戶耳熟能詳?shù)摹靶鹿δ堋薄ky怪網(wǎng)友評價:比起全新的系統(tǒng)版本,iOS 15更像是iOS 14的優(yōu)化版本,叫做iOS 14.8可能更適合。
不過,雖然iOS 15帶來的功能更新令人失望,但仍有部分網(wǎng)友毫不猶豫地選擇了嘗鮮Beta版。根據(jù)實際體驗,iOS 15 Beta版本BUG不少,唯一能拿得出手的更新內(nèi)容Facetime SharePlay還面臨著無法使用的窘?jīng)r。現(xiàn)在看來,實況文本(Live Text)功能,無疑是這次平平無奇的iOS 15 Beta版本更新中最實用的新功能了。
圖像識別,人人都有
首先介紹一下,所謂的「實況文本」,其實就是可以在iOS相機應用中啟動的文字識別功能。無論是相機正在拍攝的畫面、已經(jīng)拍好的照片,還是手機屏幕截圖、網(wǎng)頁圖片,都可以通過該功能自動識別并轉錄照片中的文字,支持復制、粘貼、查找及翻譯,實現(xiàn)照片中的文本提取和快速應用。
當然,類似的圖像識別功能早已在眾多安卓品牌的手機上實現(xiàn)。無論是谷歌在四年前推出的Google Lens應用,還是各家國產(chǎn)手機廠商自帶的“掃一掃”應用,基本都能輕松實現(xiàn)文字提取。借此機會,小雷今天就來為讀者們解惑釋疑:蘋果的「實況文本」,究竟和其他同類功能有何不同?
首先,蘋果的「實況文本」是整合在相機里面的,用戶可以打開相機、打開相冊或是使用備忘錄里的「來自相機的文本」選擇使用該功能。實測iPhone可以自動識別出畫面中的文字,點擊按鈕即可提取自己想要的文字,還可以對提取出來的文字進行查詢、翻譯、拷貝、共享等操作。從結果來看,蘋果「實況文本」對印刷體的文本識別率還是很不錯的,對中文手寫體的文本識別率就不太理想了,需要改進。
(印刷體)
(手寫體)
此外,蘋果提取的「實況文本」還會自動識別號碼、網(wǎng)址和地址并生成超鏈接。點擊網(wǎng)址,即可跳轉對應網(wǎng)站;點擊地址,就會打開對應地址的地圖信息;點擊號碼,則可以選擇發(fā)送短信、添加到聯(lián)系人,用起來還是挺方便的。
(網(wǎng)址、地址)
(號碼)
接著,我們來嘗試一下谷歌原生的Google Lens應用。文字識別方面,用戶直接在取景框點擊對應內(nèi)容,即可提取自己想要的文字。實際體驗下來,Goolgle Lens對印刷體和手寫體的文本識別率出人意料地優(yōu)秀,谷歌研究多年的文字識別技術確實不是虛的。
(印刷體)
(手寫體)
此外,Google Lens同樣會自動識別網(wǎng)址、號碼等信息。被識別出來的網(wǎng)址,可以通過點擊下方的網(wǎng)頁選項完成跳轉;被識別出來的號碼,更是可以直接撥打給對方。此外,在面對比較復雜的大段圖文內(nèi)容時,Google Lens基本也能實現(xiàn)即拍即取,文本識別率相當不錯。
最后,我們來試試國產(chǎn)廠商自帶的文本提取功能。以小雷常用的小米10為例,小米相機、「傳送門」和「掃一掃」里的文檔功能,均可以對圖片進行文本識別。實際體驗下來,小米相機對印刷體和手寫體的文本識別率都還不錯,作為文本識別功能而言絕對是合格的。
值得注意的是,小米「掃一掃」本身并沒有識別網(wǎng)址、號碼等特殊信息的能力,所有圖片掃出來都是可以編輯的無格式文本。用戶當然可以自己復制網(wǎng)址、地址,然后打開對應App進行搜索,就是使用起來比較繁瑣。
經(jīng)過測試,我們可以大致看出這三款產(chǎn)品之間的功能差異。文本識別方面,谷歌的Google Lens識別率毋庸置疑地排在榜首,小米的三種文本識別功能雖然各有差異,但是識別率排在第二還是沒什么問題的,蘋果的「實況文本」在這方面還可以多加改進。操作方面,三款產(chǎn)品均可通過實時拍照進行文字提取,操作起來都很直觀。功能方面,沒有識別能力的小米要稍遜一籌,而谷歌的搜索識別能力要比蘋果顯得更加方便好用。
谷歌能在這方面大獲全勝,自然是有其原因的。早在2010年,谷歌文檔就已經(jīng)加入了OCR文字識別功能,支持用戶將PDF檔案或圖片檔案中的文字轉換為可編輯的文本,而Google Lens在2017年就已經(jīng)與大家見面了,兩者之間的經(jīng)驗差距是巨大的,需要時間去彌補。
什么讓蘋果夠“蘋果”?
作為一個全新推出的功能,蘋果的「實況文本」確實存在諸多不足之處。首先,目前Google Lens支持上百種語言識別,而蘋果「實況文本」只支持七種語言,兩者泛用性完全不對等。其次,「實況文本」的手寫文字識別率確實比較微妙,還有很大的提升空間。
當然,該功能也有其優(yōu)勢所在。首先,谷歌的GoogleLens是需要用戶聯(lián)網(wǎng)交換數(shù)據(jù)的,在國內(nèi)想要使用谷歌服務可不是一件容易的事。國內(nèi)廠商的圖像識別功能倒是可以正常聯(lián)網(wǎng),但是在沒有網(wǎng)絡的情況下也就運作不了了。作為對比,「實況文本」功能是基于采用機載處理的“深層神經(jīng)網(wǎng)絡”,而不是基于云計算的方法。換句話說,該功能在沒有聯(lián)網(wǎng)的情況下也可以正常使用。
其次,目前手機上的文本識別功能大多都以獨立應用的形式存在著,例如谷歌自研的應用GoogleLens、三星的圖像識別軟件Bixby Vision、小米的「掃一掃」、OPPO的「Breeno識屏」等。和它們不同,蘋果的「實況文本」功能是內(nèi)建在相機里面的,而所有的文本都是在用戶拍照時自動捕捉的,用戶不必啟動單獨的應用程序就能使用對應功能。
再次,雖然是后來者,但是蘋果的生態(tài)結合得更加緊密。在WWDC 2021上,蘋果公布了全新升級的「聚焦搜索」功能?,F(xiàn)在「聚焦搜索」通過智能技術,可以根據(jù)定位信息、人物、場景或物品來搜索圖片,用戶只要下拉菜單欄,輸入關鍵詞,就可以輕松搜索到所有包含該文字的圖片。
一直以來,安卓廠商最為人詬病的就是生態(tài)割裂。舉個例子,小雷在小米10上能找到三個圖像識別功能,三者之間互不關聯(lián),和小米自身的全局搜索也沒有產(chǎn)生任何聯(lián)系,都是獨立存在的功能。2019年,谷歌曾經(jīng)試過將Google Lens和Google Photos相結合,讓使用者可以用文字搜索到想要的照片。問題是,市面上很少會有大廠會使用谷歌自家的相簿,生態(tài)也就無從談起。
(Google Photo的圖文搜索)
有的人覺得,蘋果是不是已經(jīng)黔驢技窮了?事實上,手機廠商相互「借鑒」不是從現(xiàn)在才開始的,在一個行業(yè)中學習對手并且取長補短并不是什么壞事,都是為了更好地服務用戶。小雷認為,好的系統(tǒng)就應該積極傾聽用戶的呼聲,及時推出高效易用的功能。
總的來說,「實況文本」功能還是很實用的。該功能的推出,讓果粉明白自己手機上的相機并不是只能用來拍照的。利用「實況文本」功能,蘋果相機現(xiàn)在可以隨時隨地呈現(xiàn)信息。用戶只需對準相機,就可以獲知身邊環(huán)境的上千萬個單詞、短語、位置和事物,更好地瀏覽周圍的世界。
此外,在「實況文本」的基礎上,蘋果還加入了全新的「視覺查找」功能。該功能和「實況文本」相輔相成,可以自動識別照片中的地標、自然、書籍以及寵物信息,并進行突出顯示,幫助用戶獲得更多相關的信息。
融洽的生態(tài),為用戶帶來了更加優(yōu)秀的體驗。設想一下,當我們走在國外陌生的街道上,只要掏出手機對著素不相識的文字,相機就可以為我們自動進行翻譯;當我們站在某棟地標建筑面前,打開相機,就可以了解關于這個建筑物的相關信息。這樣的體驗,可以給我們帶來很多便利。
小雷認為,在蘋果的啟發(fā)之下,現(xiàn)在已經(jīng)擁有類似功能的安卓廠商也會開始嘗試將其整合到生態(tài)里面,讓用戶的體驗不再割裂。這般增強現(xiàn)實的體驗,或許離我們已經(jīng)不遠了。