聽說,老羅搞AR去了。
VR/AR作為下一個(gè)可能與智能手機(jī)媲美的電子消費(fèi)浪潮以及前沿科技,早已納入公號(hào)的關(guān)注清單,這次借著羅老師的熱度,試著從技術(shù)及產(chǎn)業(yè)的角度,梳理未來的可能發(fā)展。
結(jié)論先行,以目前公開的產(chǎn)業(yè)進(jìn)展,羅老師這次創(chuàng)業(yè)非常危險(xiǎn)。
為什么?故事要從互聯(lián)網(wǎng)時(shí)代的萌芽開始說起。
1991年8月6日,世界上第一個(gè)服務(wù)器和第一個(gè)網(wǎng)站在歐洲核子研究中心上線。
在此之前的千百年,全世界都是以實(shí)體文字or圖像記錄經(jīng)驗(yàn)和想法,但網(wǎng)頁(yè)的誕生,意味人類從此有了新的工具去記錄或者重寫過去所有的文化積累,千百年來所有的文字、圖像、思想都可以搬到虛擬端,世界迎來了第一次實(shí)體數(shù)字化。
在萬(wàn)維網(wǎng)初期,網(wǎng)頁(yè)還不像如今這么豐富多彩,只有少數(shù)的企業(yè)端或者個(gè)人在上面編寫內(nèi)容,網(wǎng)頁(yè)的編寫也并沒有標(biāo)準(zhǔn)。于是同樣的代碼,在不同瀏覽器上識(shí)別效果可能是不同的,渲染結(jié)果也千差萬(wàn)別。
Tim Berners-Le在1994年建立了萬(wàn)維網(wǎng)聯(lián)盟(W3C),制定了網(wǎng)頁(yè)開發(fā)的標(biāo)準(zhǔn),以使同一個(gè)網(wǎng)頁(yè)在不同的瀏覽器中有相同的效果,標(biāo)準(zhǔn)的統(tǒng)一進(jìn)一步促進(jìn)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的繁榮。
隨著互聯(lián)網(wǎng)上沉淀的文字越來越多,也出現(xiàn)了以Google為代表的專業(yè)瀏覽器處理數(shù)據(jù),同時(shí)迎來了個(gè)人電腦(Personal Computer, PC)的黃金發(fā)展期。
國(guó)內(nèi)的百度也是借由這一波浪潮,2011年3月,成為中國(guó)市值最高的互聯(lián)網(wǎng)公司,其創(chuàng)始人李彥宏也一舉登上“中國(guó)首富寶座”。
此后,互聯(lián)網(wǎng)行業(yè)進(jìn)一步深化,從PC端轉(zhuǎn)移至移動(dòng)端,從靜態(tài)的網(wǎng)頁(yè),發(fā)展至交互更為密切的社交網(wǎng)絡(luò),數(shù)據(jù)形式也從簡(jiǎn)單的一維文字變化為文字、圖片、短視頻更豐富的二維形態(tài)。
這個(gè)過程大致是2010→2020年,從中誕生了一系列的互聯(lián)網(wǎng)巨頭,如騰訊、Facebook、Apple等。
有意思的是,互聯(lián)網(wǎng)創(chuàng)立之初是希望這張網(wǎng)將人人都聯(lián)系在一起,發(fā)展到了如今,更像是一個(gè)又一個(gè)的以平臺(tái)巨頭為名的數(shù)據(jù)孤島。
以往,我們?cè)跒g覽器檢索一遍就可以得到很多詳盡的數(shù)據(jù),現(xiàn)在平臺(tái)巨頭的數(shù)據(jù)并沒有打通,找一份資料的時(shí)候,網(wǎng)頁(yè)內(nèi)容找Google或者百度,公號(hào)文章搜微信,視頻內(nèi)容看抖音,蘋果更是打造了一個(gè)封閉的生態(tài)圈。
回到互聯(lián)網(wǎng)時(shí)代2.0的發(fā)展主脈,盡管現(xiàn)在的數(shù)據(jù)形式豐富多樣,也真切的改變了我們每一個(gè)人的生活狀態(tài)。但終究是在二維平面上,但我們真實(shí)的生活是一個(gè)三維立體,而未來三維立體數(shù)據(jù)可能的呈現(xiàn)方式,就是VR/AR。
當(dāng)立體的數(shù)據(jù)如今日的短視頻一般可以串行于你我日常生活之間,我們也就迎來了所謂的元宇宙時(shí)代,那是一個(gè)帶上眼鏡,就可以被"傳送"到2.5億英里外火星表面的時(shí)代,是一個(gè)老羅準(zhǔn)備把所有的一切都搭進(jìn)去的時(shí)代。
參考互聯(lián)網(wǎng)時(shí)代的發(fā)展歷程,幾乎可以確信,在元宇宙時(shí)代,一定還會(huì)誕生很多新的平臺(tái)巨頭,也是羅老師相信的,下一代的計(jì)算平臺(tái)。
但就現(xiàn)狀來看,3D數(shù)據(jù)才開始積累,數(shù)據(jù)格式尚未統(tǒng)一,大部分AI還僅限于處理一維數(shù)據(jù),二維的視頻智能處理都還沒成熟,更別說三維數(shù)據(jù)處理的應(yīng)用落地,而VR/AR的硬件形態(tài)也還沒定型,從電池、芯片、屏幕顯示等硬件限制到軟件的交互方式都還有大量的挑戰(zhàn)。
如果說現(xiàn)在是元宇宙的網(wǎng)頁(yè)時(shí)代,參照互聯(lián)網(wǎng)發(fā)展歷史,也得30年(1991→2020)才能看到如今這樣的繁榮。
具體產(chǎn)業(yè)進(jìn)展分析:
1、數(shù)據(jù)生成
3D數(shù)據(jù)采集:3D激光掃描可以將周圍的器件實(shí)現(xiàn)3D建模,目前多用于工業(yè)領(lǐng)域,值得一提的是,蘋果從iPad Pro或iPhone12 Pro開始,也提前預(yù)埋了激光掃描技術(shù),可以通過開啟攝像頭及相關(guān)應(yīng)用,就能對(duì)身邊的物件實(shí)現(xiàn)三維建模。
此外,還有多次提及的車載用激光雷達(dá),其實(shí)質(zhì)也是對(duì)周圍環(huán)境的快速建模。一旦車載用激光雷達(dá)可以大規(guī)模量產(chǎn),也使得大場(chǎng)景、低成本的3D建??梢詫?shí)現(xiàn)。
相關(guān)鏈接:
量產(chǎn)邊緣的LUMINAR
未來汽車的眼睛 —— 激光雷達(dá)
3D設(shè)計(jì)軟件的發(fā)展:
目前三維設(shè)計(jì)軟件已經(jīng)進(jìn)入穩(wěn)定發(fā)展期,全球三維設(shè)計(jì)軟件市場(chǎng)中,前三的市占率高達(dá)70%,但格式并不統(tǒng)一,一定程度上阻礙了數(shù)據(jù)的分享、交流和傳播。
2、數(shù)據(jù)打通
目前,為推進(jìn)3D數(shù)據(jù)的格式標(biāo)準(zhǔn)發(fā)展,蘋果(Apple)、英偉達(dá)(Nvidia)、皮克斯(Pixar)共同推出了USD標(biāo)準(zhǔn)。
以2020年12月英偉達(dá)推出的Ominiverse為例。Ominiverse是一種基于“元宇宙”概念的平臺(tái)型程序。完全基于3D通用場(chǎng)景格式USD而構(gòu)建,可以用于建筑工程、自動(dòng)駕駛、媒體娛樂、制造業(yè)等多個(gè)領(lǐng)域,創(chuàng)作者可以通過它在所有環(huán)境下無縫地實(shí)時(shí)協(xié)同工作,并做出數(shù)字孿生或完全虛擬的擴(kuò)展現(xiàn)實(shí)作品。
但這也僅限于數(shù)據(jù)標(biāo)準(zhǔn)的一個(gè)示范。
3、數(shù)據(jù)處理
元宇宙時(shí)代的數(shù)據(jù)處理方式幾乎可以確定是AI智能系統(tǒng)。
計(jì)算機(jī)科學(xué)家吳恩達(dá)22年的表述,“我們已經(jīng)在自然語(yǔ)言處理(NLP)領(lǐng)域看到了基礎(chǔ)模型(Foundation Models)的威力。但說實(shí)話,我對(duì)計(jì)算機(jī)視覺中構(gòu)建基礎(chǔ)模型感到興奮。視頻數(shù)據(jù)中有很多信息可以利用,但由于算力以及成本的限制,還無法建立相關(guān)的基礎(chǔ)模型。”
簡(jiǎn)單說,就目前的算力而言,對(duì)自然語(yǔ)言和圖像處理還行,但到了視頻數(shù)據(jù)就很吃力了,更別提比視頻數(shù)據(jù)更為復(fù)雜的三維立體數(shù)據(jù)。
這里可以插一個(gè)今年Google開發(fā)者大會(huì)上的好消息,因?yàn)閅outube已經(jīng)啟用了由AI執(zhí)行的分段并加標(biāo)簽功能,未來我們可以像檢索網(wǎng)頁(yè)內(nèi)容一樣檢索視頻內(nèi)容,不必再手動(dòng)拉進(jìn)度條找那幾秒鐘的精彩瞬間。
回到主題,AR的一個(gè)重要參與者,Meta,前身Facebook,為了AR應(yīng)用,從2020年開始在打造一個(gè)史上最大的專用于訓(xùn)練AI的超級(jí)計(jì)算機(jī),光是AI模型參數(shù)就超過1萬(wàn)億個(gè)。
4、內(nèi)容呈現(xiàn)
目前來看元宇宙時(shí)代的數(shù)據(jù)內(nèi)容呈現(xiàn)方式是VR/AR硬件設(shè)備,但基本的硬件樣式尚未定型。
VR(Virtual Reality),即虛擬現(xiàn)實(shí),其利用計(jì)算技術(shù)、顯示技術(shù)等將現(xiàn)實(shí)和虛擬分隔開,重構(gòu)數(shù)字化虛擬世界,佩戴設(shè)備的人將背靠交互技術(shù)沉浸在虛擬世界中。
AR(Augmented Reality) / MR(Mixed Reality),即增強(qiáng)現(xiàn)實(shí)/混合現(xiàn)實(shí),強(qiáng)調(diào)虛擬數(shù)字世界與現(xiàn)實(shí)世界的重疊;其中MR是AR的升級(jí),AR強(qiáng)調(diào)虛擬畫面+裸眼現(xiàn)實(shí)(僅呈現(xiàn)人眼可見的現(xiàn)實(shí)),MR強(qiáng)調(diào)虛擬畫面+數(shù)字現(xiàn)實(shí)(包括人眼看不見的現(xiàn)實(shí))且強(qiáng)調(diào)與虛擬信息的交互。
VR/AR特征對(duì)比:
相較AR,VR行業(yè)率先走出低谷,經(jīng)過了9年的發(fā)展,它剛剛走過了黎明前的黑暗,將要進(jìn)入一個(gè)長(zhǎng)期穩(wěn)定的上升期。
按照Gartner技術(shù)成熟度曲線來看,一項(xiàng)最終成功普及的新技術(shù),必然要在大紅大紫的創(chuàng)業(yè)熱潮后,經(jīng)歷一個(gè)短則五年、長(zhǎng)則十幾年的低谷期。而隨著用戶數(shù)量的積累以及使用成本的降低,有可能進(jìn)入復(fù)蘇期,迎來新一輪的生成成熟期。
21年是VR出貨量拐點(diǎn),1)硬件端:2021年全球VR頭顯出貨量達(dá)1095萬(wàn)臺(tái),突破年出貨1000萬(wàn)臺(tái)的行業(yè)重要拐點(diǎn);2)內(nèi)容端:C端硬件起量帶動(dòng)內(nèi)容正向循環(huán),內(nèi)容平臺(tái)應(yīng)用數(shù)迅速增長(zhǎng)。
IDC對(duì)VR的預(yù)測(cè)是,2024年全年出貨量3560萬(wàn)臺(tái),未來5-10年會(huì)迎來長(zhǎng)期且穩(wěn)定增長(zhǎng)的階段。目前最有代表的是Meta的Oculus Quest2。
但VR的應(yīng)用生態(tài)尚未積累起大量的開發(fā)者和用戶聚集的生態(tài)環(huán)境,主要的應(yīng)用領(lǐng)域也還局限于游戲。
AR受限于更復(fù)雜的光學(xué)顯示技術(shù),其發(fā)展速度遠(yuǎn)滯后于VR,不同于VR直接在頭顯的位置形成封閉的顯示系統(tǒng),為了實(shí)現(xiàn)AR中虛擬和顯示的交互,首先要對(duì)顯示場(chǎng)景里的所有元素都建模,然后和虛擬生物合成在一起,用內(nèi)置的物理引擎計(jì)算相互作用的結(jié)構(gòu),最后,只輸出虛擬部分的結(jié)果。
Magic Leap曾經(jīng)給出過相關(guān)的宣傳圖片:
可惜要實(shí)現(xiàn)像影視作品那樣的效果,目前的AR硬件還面臨軟硬件上非常多的限制。
首先是在硬件上的限制,包含了電池、芯片、屏幕顯示。
今天最大能量密度的鋰電池大約是250Wh/kg。對(duì)于讓AR眼鏡既能實(shí)時(shí)識(shí)別物體,還能運(yùn)算加工生成優(yōu)化后的視覺特效的終極要求來說,上百瓦的功耗是必須的。
這樣算下來,要么電池太重完全沒法佩戴在腦袋上,要么完全不夠能量支撐相關(guān)功耗。現(xiàn)實(shí)和終極夢(mèng)想在能量密度上相差了千倍。
即使固態(tài)電池實(shí)現(xiàn)規(guī)模量產(chǎn),也頂多能把能量密度提升2-3倍,而且這還是幾十年后才能實(shí)現(xiàn)的目標(biāo)。
相關(guān)鏈接:電池技術(shù)分析
芯片的限制類似,AR眼鏡要進(jìn)行大量的向量乘法運(yùn)算,要完成這些計(jì)算,現(xiàn)在的芯片結(jié)構(gòu)的耗能就是這么大,除非未來芯片的基礎(chǔ)結(jié)構(gòu)就要變成其它方式,也許能大幅度彌補(bǔ)與終極夢(mèng)想的差距。但這個(gè)突破,距離實(shí)現(xiàn)也很遠(yuǎn)。
此外,硬件的限制還包括屏幕。
傳統(tǒng)眼鏡模樣的AR眼鏡,屏幕大都使用的是Micro LED技術(shù)。在小拇指指甲蓋大小的范圍內(nèi),做一個(gè)硅基材料的發(fā)光顯示器。然后利用光波導(dǎo)材料把光射出到鏡片上。
還要在幾十克電池的基礎(chǔ)實(shí)現(xiàn)2個(gè)8K(對(duì)比目前幾百分辨率的水平)才能較好實(shí)現(xiàn)一些游戲大作中身臨其境的效果,今天還沒有任何顯示技術(shù)能達(dá)到。
其次,AR眼鏡還面臨著軟件上的限制,最明顯的就是交互方式。
微軟HoloLens可以用手勢(shì)操控,但操作不精準(zhǔn),速度也特別慢。對(duì)著空氣戳了半天,AR眼鏡才說出了一句“你好”。MagicLeap的One干脆不用手勢(shì),而換成游戲手柄操作。而國(guó)內(nèi)這些廠商,交互也不單獨(dú)設(shè)計(jì)了,而是直接用手機(jī)做溝通媒介。
而終極效果的AR眼鏡可能需要追蹤視覺焦點(diǎn),自動(dòng)做出判斷和選擇。比我?guī)е坨R走到大街上,只要想要知道,目光所及物件的右上角就會(huì)出現(xiàn)相關(guān)的名稱和簡(jiǎn)介。
但想要實(shí)現(xiàn)這些功能,要求眼鏡能夠?qū)崿F(xiàn)自動(dòng)掃描、識(shí)別判斷,這背后需要依賴高水準(zhǔn)的人工智能。但這樣水準(zhǔn)的AI,到今天也還沒有出現(xiàn)。
2021年英偉達(dá)炫過一把技,視頻演講中的英偉達(dá)CEO黃仁勛并非他本人,其中的14s是通過一系列數(shù)字技術(shù)合成的“替身”,直到事后官方透露才被媒體報(bào)道出來。
但為了實(shí)現(xiàn)14s的以假亂真,光制作視頻,英偉達(dá)租用了一輛裝載數(shù)百個(gè)數(shù)碼相機(jī)的卡車,對(duì)黃仁勛的住宅多角度拍攝數(shù)千張照片;后期制作中,動(dòng)員了34位3D設(shè)計(jì)師和15位軟件工程師,再加上數(shù)不盡的GPU,才完成了3D建模。
假如再加上AR眼鏡里面的展示、實(shí)時(shí)運(yùn)算、無線傳輸,對(duì)現(xiàn)有的硬件水平,會(huì)是一個(gè)巨大的挑戰(zhàn)。
但目前的AR也不是完全沒有成功的商業(yè)化案例的,其主要用于To B端。在軍事、醫(yī)療領(lǐng)域,微軟的HoloLens都有不錯(cuò)的應(yīng)用場(chǎng)景,但距離革命性產(chǎn)品,還有一段距離。
目前VR/AR硬件最大的變量,就是Apple,但哪怕強(qiáng)如Apple,在手機(jī)及電腦上還提前預(yù)埋了激光雷達(dá)、芯片算力等相關(guān)技術(shù),也屢次推遲相關(guān)產(chǎn)品的發(fā)布,2019計(jì)劃發(fā)布相關(guān)頭顯但至今未見蹤影。
當(dāng)然,作為即將傾盡全力的老羅而言,所知曉的肯定比任何一個(gè)產(chǎn)業(yè)外人士豐富得多,他在采訪中也表達(dá)了相關(guān)的看法:
最后,帶著對(duì)VR/AR的產(chǎn)業(yè)認(rèn)識(shí),試著去理解這個(gè)選擇背后的艱巨與理想。
然后,祝福他。