3D+AIGC與智能手機(jī)的融合,無疑是移動人像賽道又一顛覆性重要突破。vivo再次領(lǐng)先背后,有著哪些極限挑戰(zhàn)?
作者|Cindy
編輯|劉珊珊
火熱7月下旬,“AI寫真數(shù)字人”一夜間刷屏社交網(wǎng)絡(luò),漸有成為“中國AIGC首個刷屏案例”之勢。
這是AIGC(生成式人工智能)風(fēng)口“夢想照進(jìn)現(xiàn)實(shí)”冰山一角。在2023年,歷經(jīng)70多年技術(shù)沉淀的AIGC,和ChatGPT、大模型、3D等技術(shù)一起,成為人工智能產(chǎn)業(yè)落地重要形式,為商業(yè)世界帶來全新代際變革。
一個引人注目的問題隨之浮現(xiàn):作為高端制造行業(yè)重要分支,智能手機(jī)將在未來很長一段時(shí)間,仍是智能汽車、智能家居等科技最好載體。智能手機(jī)應(yīng)如何與AIGC、3D、大模型這樣的全新技術(shù)融合貫通,以反哺智能手機(jī)的迭代創(chuàng)新?
“AI技術(shù)突破讓移動影像面臨新課題,也讓我們重新思考人與影像技術(shù)的關(guān)系。”7月30日,青海西寧。在這場交換彼此影像故事的盛典發(fā)布會上,vivo給出了自己的探索答案:AIGC、3D將成為創(chuàng)新賦能未來人像技術(shù)的生產(chǎn)工具。
影像研發(fā),道阻且艱。影像長賽道上,vivo再次搶先布局,發(fā)布全新制程6nm自研影像芯片V3、推出AIGC四季人像模式、與蔡司聯(lián)合探索新結(jié)構(gòu)的長焦鏡頭、并對T*鍍膜技術(shù)進(jìn)行升級。
其中,外界最為關(guān)注焦點(diǎn),正是vivo明確進(jìn)行3D人像技術(shù)研發(fā),將在人像3D重建感知和AIGC兩個方向進(jìn)行探索。而為了更好的進(jìn)行人像3D重建感知研究,vivo還在重慶建立了動捕實(shí)驗(yàn)室。
這是vivo深耕“人性化的專業(yè)影像”之路又一重要升級。“得影像者得天下”已成行業(yè)共識的當(dāng)下,移動影像——特別是人像競爭更是焦點(diǎn)中的焦點(diǎn),“VO榮米”、華為甚至蘋果都在不約而同探索移動人像邊界。
3D+AIGC與智能手機(jī)的融合,無疑是移動人像賽道又一顛覆性重要突破。那么,vivo布局3D人像技術(shù)前沿,探索AIGC全新技術(shù)背后,有著哪些極限挑戰(zhàn)?又會給“極致內(nèi)卷”的影像賽道,帶來怎樣的體驗(yàn)創(chuàng)新?
01AI創(chuàng)新,vivo移動人像再躍遷
自2000年夏普推出世界上第一款能拍照的手機(jī)開始,23年間,手機(jī)影像能力在一輪輪迭代演進(jìn)中極致內(nèi)卷——盡管手機(jī)攝影足以媲美專業(yè)相機(jī)成像效果,但廠商對手機(jī)影像追求從未停止。
原因很簡單,人人皆可隨時(shí)隨地拍攝、分享、創(chuàng)作時(shí)代,誰掌握影像未來,誰就左右著用戶購買決策,更容易獲得市場和消費(fèi)者的青睞。
其中,人像是最高頻最重要應(yīng)用之一。“人像和夜景、運(yùn)動、變焦,是我們定的四個拍照賽道。”vivo影像副總裁于猛如此表示,另外還有視頻、未來賽道,是和拍照并行的一級賽道。
拍人像,用戶最直觀感受是成像效果是否足夠自然和足夠美,但美沒有定義。對每家手機(jī)廠商而言,最難的是如何更懂用戶,更懂影像,去讓大多數(shù)用戶都拍出滿意的照片。
如何更懂用戶和影像上,每家廠商理解各不同。
vivo對人像攝影理解是,需要像專業(yè)攝影那樣,去精確人像和人體中語義重點(diǎn),大到年齡、性別人物速寫,細(xì)到毛發(fā)、五官輪廓自然和立體感,并且要通過技術(shù)在影調(diào)、色彩、亮度、虛化等層面上,讓人與場景和諧、自然融合。
在此理解基礎(chǔ)上,vivo探索出行之有效的“影像”方法論,即通過“三個比肩”打造vivo影像技術(shù)矩陣——比肩專業(yè)影像設(shè)備、比肩專業(yè)攝影團(tuán)隊(duì)、比肩專業(yè)后期能力,滿足每位創(chuàng)作者、每個普通人的不同訴求。
這對vivo的考驗(yàn)是,需要從硬件、軟件兩大方面進(jìn)行技術(shù)上的不斷革新。為此,vivo打造出光學(xué)感知系統(tǒng)、臻彩還原引擎、超清畫質(zhì)引擎、算力加速引擎四大影像技術(shù)模塊,又與蔡司深度、全面合作打造行業(yè)頂級的專業(yè)人像鏡頭,從多個維度去優(yōu)化人像拍攝效果。
這些探索,讓vivo在人像賽道上相比行業(yè)其他玩家走得更遠(yuǎn)。從2015年vivo X5 Pro推出知性美顏算法開始,到2022年vivo X80 Pro首次搭載蔡司人像微云臺鏡頭,vivo X90 Pro+搭載行業(yè)首發(fā)蔡司雙焦段人像鏡頭,以及vivo X90s的“質(zhì)感模式”。8年間,vivo一直無愧人像、夜景賽道開辟者與領(lǐng)跑者,給了一個用戶幾乎無法拒絕vivo的理由。
從2023年第二季度中國(大陸)智能手機(jī)廠商市場份額中看到,vivo以17.7%的市場份額占據(jù)中國智能手機(jī)市場第一。而從2021年奪冠至今,這已經(jīng)是vivo第三年取得這樣令人矚目的市場成功。
但是,用戶對移動人像的需求提升,永不會停止。這讓所有廠商影像創(chuàng)新都面臨“技術(shù)矛盾點(diǎn)”——輕量化趨勢下,手機(jī)內(nèi)部空間方寸,很難以類似專業(yè)相機(jī)堆硬件方式持續(xù)進(jìn)化。應(yīng)如何去打造更具差異化、引領(lǐng)性的人像體驗(yàn)?
人工智能,是誰都不會錯過的“第四次產(chǎn)業(yè)革命”機(jī)遇,手機(jī)廠商也如此。“我對于(影像)這個賽道越來越有信心,也相信這個賽道會越來越長。”在接受媒體專訪時(shí),于猛就表示,AI正改變千行百業(yè),也會給智能手機(jī)創(chuàng)新帶來無限可能。
事實(shí)上,AI能力早已和手機(jī)相融合。最典型的,就是成為行業(yè)標(biāo)配的“AI多攝”,通過AI算法以及處理器算力,助力光感知系統(tǒng)軟硬件一體化協(xié)同升級,帶來手機(jī)人像拍攝上的指數(shù)級效果提升。
AI方面,vivo更是深耕已久。幾乎每一代vivo手機(jī),影像、視頻、圖像、語音等日常處理背后,都有數(shù)十個復(fù)雜AI算法一起工作。
比如美顏技術(shù),是vivo拋棄傳統(tǒng)遮瑕式美顏,通過篩選、達(dá)成的百萬量級素材訓(xùn)練集,利用AI確保可以在任何人像場景下,都能達(dá)成最佳美顏效果;“夜景拍攝”場景,vivo也是通過AI算法、實(shí)時(shí)黑光夜視等去贏得行業(yè)領(lǐng)先。
而在西寧舉辦的vivo影像盛典特別活動,更是AIGC、3D、大模型等全新技術(shù)浪潮之下,vivo基于歷史技術(shù)積累和未來研發(fā)方向,對AI如何與智能手機(jī)影像更好融合,以及影像光學(xué)、算力和算法未來發(fā)展方向的再次躍遷。
例如,不同于V2自研芯片,全新自研芯片V3將設(shè)計(jì)重心放到手機(jī)影像思考上,算法提升讓手機(jī)影像在畫質(zhì)、寬容度等方面有了進(jìn)一步的提升。不但場景覆蓋會更全面,并且在V3加持下,安卓平臺也將首次實(shí)現(xiàn)4K拍后編輯功能,支持4K電影人像視頻功能。
同時(shí),vivo圍繞人像和夜景這兩個核心場景,集中構(gòu)建了超感人像系統(tǒng)和蒼穹夜景系統(tǒng)。迭代算法矩陣目的,依然是通過AI,去確保人像、夜景等核心場景實(shí)現(xiàn)最極致的拍攝體驗(yàn)和效果。
如果說上述探索,是vivo為滿足當(dāng)前消費(fèi)者多元影像需求,保持移動影像人像賽道持續(xù)領(lǐng)先優(yōu)勢的重要之旅。那么布局人像3D重建感知技術(shù)平臺,積極擁抱AIGC算法,則是AI浪潮下,vivo作為人像賽道的開辟者和領(lǐng)跑者,面向未來,引領(lǐng)行業(yè)進(jìn)化的創(chuàng)新探索。
023D+AIGC,動捕實(shí)驗(yàn)室的隱藏秘密
這是第一次有主流大廠,將3D、AIGC明確視為智能手機(jī)移動人像布局方向。
3D技術(shù)上,vivo其實(shí)不是第一次有所涉及。2018年,vivo發(fā)布 TOF 3D超感應(yīng)技術(shù),實(shí)現(xiàn)手機(jī)對高精度3D信息的采集和運(yùn)算。
但毋庸置疑,最新布局的人像3D重建感知技術(shù),意義會更加重大,將是事關(guān)行業(yè)未來的全新突破。
“基于穩(wěn)定的移動端人像3D感知技術(shù),為用戶提供多種人像AR特效,幫助用戶創(chuàng)作出驚艷的虛實(shí)融合影像內(nèi)容。”7月18日,在vivo重慶動捕實(shí)驗(yàn)室,相關(guān)負(fù)責(zé)人告訴實(shí)地探訪和體驗(yàn)的“極點(diǎn)商業(yè)”。
這是vivo重慶動捕實(shí)驗(yàn)室首次對外界開放。vivo在盛典上發(fā)布的人像3D重建感知技術(shù),正是重慶動捕實(shí)驗(yàn)室的創(chuàng)新成果。
vivo重慶動捕實(shí)驗(yàn)室坐落于vivo重慶智能制造中心內(nèi)——作為vivo全球智能制造關(guān)鍵一環(huán),vivo重慶智能制造中心于2014年布局、2017年完工并正式投產(chǎn)。
除了生產(chǎn)線,芯片、5G、AI、影像、3D等核心技術(shù)的研發(fā)應(yīng)用,在此都有落子,和vivo北京研發(fā)中心、東莞智能制造基地、深圳研發(fā)中心等一起,成為完善vivo全球研發(fā)和生產(chǎn)布局重要一環(huán)。
從業(yè)內(nèi)看,3D人像重建概念并不新鮮,被公認(rèn)為是AIGC、AR/VR場景必然入口,也是數(shù)字人、機(jī)器人、自動駕駛等領(lǐng)域關(guān)鍵共性技術(shù)。
問題是,行業(yè)目前沒有可以通用的3D人像重建方案——大多數(shù)3D人像成本高昂,逼真效果一般,面臨算法復(fù)雜度高,難以實(shí)時(shí)處理挑戰(zhàn)。舉個例子,短視頻制作公司使用到的3D化寫實(shí)數(shù)字人,比如“柳夜熙”,制作成本可達(dá)到數(shù)十萬到百萬元不等。
vivo布局,看上去正是瞄準(zhǔn)上述痛點(diǎn)——如果一款智能手機(jī)能低門檻解決3D人像重建算法復(fù)雜、算力要求高等核心挑戰(zhàn),那么無疑會加快相關(guān)概念產(chǎn)業(yè)落地速度。
依托于vivo重慶影像實(shí)驗(yàn)室平臺,vivo在重慶動捕實(shí)驗(yàn)室中自主搭建了影視級光場系統(tǒng)。根據(jù)實(shí)驗(yàn)室工作人員現(xiàn)場透露,光場系統(tǒng)由175個攝像頭、96盞燈環(huán)繞搭建而成,“只需3秒鐘,就可以實(shí)現(xiàn)人像重打光DEMO,然后通過AI等技術(shù)能力,完成‘毛孔級’的3D人像重建感知。
簡單來說,在vivo的3D數(shù)據(jù)采集平臺中,3D人像重建感知技術(shù)是一條這樣的路徑:捕捉人體3D姿勢數(shù)據(jù)—人臉3D重打光—通過AI算法完成3D人像重建—最終在端側(cè)應(yīng)用于實(shí)際場景。
光場系統(tǒng)在其中起到關(guān)鍵作用。“96盞燈重打光只是往中心點(diǎn)一個方向。”vivo動捕實(shí)驗(yàn)室相關(guān)人士對“極點(diǎn)商業(yè)”稱,175個不同角度機(jī)位攝像頭的投影下,可以類似“全息攝影”方式,全面、精準(zhǔn)捕捉到人的面部表情、姿態(tài)動作以及手勢交互數(shù)據(jù)和視頻背景分割。
數(shù)據(jù)精確性對3D捕捉結(jié)果至關(guān)重要。在良好底層數(shù)據(jù)支撐下,該實(shí)驗(yàn)室重點(diǎn)儲備了以人臉、人體和手勢為核心的三大人像3D感知算法,依靠AI算法模型,實(shí)現(xiàn)對人臉面部表情、人體姿態(tài)動作以及手勢交互感知的精準(zhǔn)捕捉和驅(qū)動,減少動作捕捉、CG合成制作流程,最終生成一個逼真的3D目標(biāo)人物。
這與傳統(tǒng)動捕,比如抖音AR渲染有著明顯區(qū)別——抖音AR渲染是2D,但vivo人像重建感知是3D,重建是一個“動起來”的過程,“3D場景精確性更高,也能提升深度信息。任何相機(jī)場景下的深度圖、人臉表情,都可以與Mask結(jié)合后,實(shí)現(xiàn)類似于單反相機(jī)、大光圈的漸近感、真實(shí)感,讓人像與背景更好融合。”
從“極點(diǎn)商業(yè)”實(shí)測來看,vivo人像3D重建感知技術(shù)下,坐在小凳子上后,只需燈光一閃,就完成了數(shù)據(jù)收集。生成的3D人像,AR特效相當(dāng)驚艷,紋理、亮度、陰影表現(xiàn)遠(yuǎn)超傳統(tǒng)專業(yè)相機(jī),臉部甚至毛孔在細(xì)節(jié)、動作、行為的逼真度,都得到了“完美重現(xiàn)”。
相比技術(shù)創(chuàng)新,vivo追求的還有產(chǎn)業(yè)落地。如今,立足于人像3D重建感知技術(shù),vivo開始加快AIGC算法的落地應(yīng)用探索——幫助用戶創(chuàng)作出虛實(shí)融合影像內(nèi)容。
通過3D重建感知,配合輔助AIGC,vivo得以大幅降低了成本和門檻,可以為用戶提供多種人像AR特效,比如在3D換裝、3D畫場景、表情驅(qū)動、數(shù)字人等方面的落地應(yīng)用。
而盛典會上推出的AIGC算法,通過vivo手機(jī)可以拍出虛擬與實(shí)景結(jié)合更為自然和諧的照片,這正是vivo融合3D+AIGC虛擬內(nèi)容創(chuàng)作技術(shù)后,在人像賽道上的應(yīng)用探索:
通過vivo手機(jī)內(nèi)置的AIGC四季人像模式,不僅拍出虛擬與實(shí)景結(jié)合更為自然和諧的照片,還能以假亂真,從草長鶯飛的春天,到炎炎酷暑的夏天、秋日層林盡染的秋天,以及白雪皚皚的寒冬,足不出戶拍出四季人像大片。
03技術(shù)長跑,敢突破邊界者才能持續(xù)領(lǐng)先
“AIGC四季人像模式,將會在未來人像攝影的使用場景中,打下堅(jiān)實(shí)技術(shù)基礎(chǔ)。”一位手機(jī)行業(yè)觀察人士認(rèn)為。
而在vivo影像效果產(chǎn)品經(jīng)理張焱看來,AIGC在智能手機(jī)中的想象不止如此,比如借助AIGC算法,用戶還可以實(shí)現(xiàn)豐富多樣的人像屬性編輯,如對光照、年齡、發(fā)型、表情等進(jìn)行編輯。“這些未來影像的新技術(shù)、新應(yīng)用,將持續(xù)激活用戶創(chuàng)作熱情。”
人像攝影一直是vivo在影像領(lǐng)域的主力賽道,不論是和蔡司在傳統(tǒng)光學(xué)領(lǐng)域的持續(xù)沉淀,還是8年來在歷代產(chǎn)品中不斷打磨軟硬件,包括在3D/AIGC未來人像上基于用戶需求的不斷探索,其實(shí)都是率先在行業(yè)進(jìn)行移動影像“極限挑戰(zhàn)”。
“賦予每個人表達(dá)和創(chuàng)作的自由空間,是手機(jī)作為影像創(chuàng)作工具價(jià)值所在。”在于猛看來,打造“人性化的專業(yè)影像”是vivo一直追求影像理念。vivo希望把各種復(fù)雜的影像技術(shù)和經(jīng)驗(yàn)都放進(jìn)手機(jī),讓用戶不受功能、場景、時(shí)間上的限制,專業(yè)創(chuàng)作者可以滿足極限環(huán)境下創(chuàng)作需求,普通用戶也可以通過簡單操作收獲個性化的影像。
這種“極限挑戰(zhàn)”理念追求,源自“埋頭種因”和“本分”價(jià)值觀下,vivo將“做正確的事”永遠(yuǎn)排在第一位。
vivo在人像領(lǐng)域的深耕,就是最好案例。2014年開始布局影像賽道后,vivo花費(fèi)三年多時(shí)間,走訪了全國55個城鎮(zhèn),包括北上廣一線城市,也包括五、六線鄉(xiāng)鎮(zhèn),在數(shù)百場深度訪談,以及上萬名不同職業(yè)、年齡的消費(fèi)者測試后,逐步建立了一整套消費(fèi)者正確認(rèn)知,讓自己更懂用戶,更懂影像。
用于猛的話來說,這就是:想盡一切辦法、抓住一切機(jī)會,獲得認(rèn)知。
在認(rèn)知正確基礎(chǔ)上,vivo大踏步建立針對影像技術(shù)全鏈條的研發(fā)體系——畢竟,手機(jī)影像是一個系統(tǒng)工程,涉及軟件、硬件、算法、攝像頭、芯片等一系列技術(shù)的有效協(xié)同,所有環(huán)節(jié)都要做到領(lǐng)先,才能讓影像整體領(lǐng)先。
2017年,vivo組建AI全球研究院,在算法、數(shù)據(jù)、算力方面建立全面AI能力,全方位賦能vivo核心長賽道。
無論是歷時(shí)24個月、投入超300人研發(fā),用硬件級算法開啟手機(jī)影像行業(yè)下一個時(shí)代的自研芯片V1,還是助推vivo成為安卓首家實(shí)現(xiàn)4K電影人像拍后編輯功能手機(jī)廠商的自研芯片V3,都是在埋頭種因后收獲的碩果。
芯片自研之外,vivo與蔡司這家百年光學(xué)品牌的全面牽手,目的也是在秉承共同影像理念下,不斷去突破影像想象邊界。
過去幾年,vivo在微云臺防抖、鏡頭鍍膜、光學(xué)鏡頭等方面的不斷進(jìn)化——包括最新與蔡司聯(lián)合探索最新結(jié)構(gòu)長焦鏡頭、對T*鍍膜技術(shù)進(jìn)行升級,其實(shí)還是圍繞“讓普通用戶用手機(jī)拍出專業(yè)大片,讓專業(yè)人士可自由進(jìn)行創(chuàng)作”,縮小專業(yè)與大眾攝影上的“創(chuàng)造力鴻溝”,共同探索移動影像新高度。
這些在移動影像領(lǐng)域的深刻理解、專業(yè)技術(shù)和自我超越,vivo得以奠定影像領(lǐng)域的全球優(yōu)勢,引領(lǐng)中國世界移動影像進(jìn)入中國時(shí)刻——哪怕與iPhone相比,vivo表現(xiàn)也不落下風(fēng)。人們心中對vivo堅(jiān)守的“長期主義”,也有了更多新認(rèn)知。
可以暢想的是,“第四次產(chǎn)業(yè)革命”浪潮席卷,大模型、AIGC必將進(jìn)入移動影像領(lǐng)域趨勢下,其使用場景將有著巨大的想象空間,“手機(jī)影像大師”有機(jī)會書寫更多AI傳奇。
一個例子可以說明,此前vivo相關(guān)的AI工程師已經(jīng)超過1000名,仍在源源不斷投入,將更多AI研發(fā)人才納入囊中。vivo官網(wǎng)最新招聘顯示,其正在招聘大量AI算法專家、AR/VR領(lǐng)域AI大模型專家、圖像AIGC算法專家、AI產(chǎn)品經(jīng)理,3D光學(xué)動捕算法工程師、工作地點(diǎn)位于深圳、杭州、重慶等地。
“基于AI影像領(lǐng)域的探索,vivo瞄準(zhǔn)的是更大世界。”一位資深手機(jī)從業(yè)人員評價(jià)說。
目前,AIGC在vivo手機(jī)中的應(yīng)用主要是人像,但AI與影像生產(chǎn)力工具結(jié)合緊密趨勢下,AIGC未來在vivo中也會有更多用武之地,比如與手機(jī)終端語音助手結(jié)合,可以更快速、準(zhǔn)確理解語義。
AI大時(shí)代下,AI在文字、語音、圖像、視頻,教育場景、音樂創(chuàng)作等領(lǐng)域,與手機(jī)融合具備廣泛應(yīng)用空間,讓手機(jī)工具價(jià)迎來更大爆發(fā)。比如,教育場景通過AI個性化因材施教,讓中小企業(yè)、普通用戶都能低門檻、低成本擁有屬于自己的逼真“數(shù)字人”——而非當(dāng)前AI寫真照片。
或者,讓所有人可以通過AI進(jìn)行創(chuàng)作,或者代碼編寫、識別翻譯,實(shí)現(xiàn)內(nèi)容生態(tài)的新一輪范式轉(zhuǎn)移。以及,在AR、元宇宙等虛擬世界中,加速實(shí)現(xiàn)環(huán)境、虛擬人物的構(gòu)建需求,去無限逼近真實(shí)。在遠(yuǎn)程醫(yī)療、智能汽車等方面,AI與手機(jī)的結(jié)合同樣充滿想象空間。
這些未來暢想的實(shí)現(xiàn)或融合創(chuàng)新基礎(chǔ),毫無疑問仍然基于影像。
“vivo將把影像視為和AI、5G、6G通信一樣的底層技術(shù)能力。”在于猛看來,在不遠(yuǎn)的未來,vivo將把影像當(dāng)成一種AI底層能力,去和其他產(chǎn)業(yè)融合創(chuàng)新,“如同互聯(lián)網(wǎng)改造制造業(yè)一樣,影像的價(jià)值也遠(yuǎn)不止拍照、游戲,而是與AI、互聯(lián)網(wǎng)一樣有無限可能。”
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!