“未來技術(shù)”人工智能算力網(wǎng)絡面世：多模態(tài)的最佳“伴行者”？

2021-09-30 08:56 來源：A5專欄我來投稿撤稿糾錯

文 | 曾響鈴

來源 | 科技向令說（xiangling0815）

用文字描述“一個女人打著紅色的雨傘在路上走”，系統(tǒng)呈現(xiàn)出一張唯美的街拍；

有一張飛機起飛的照片，想配上一段適合的聲音，上傳圖片后，一段發(fā)動機呼嘯聲的音頻播放出來；

把淅淅瀝瀝的下雨聲導入進去，江南水鄉(xiāng)老宅的氤氳雨景圖展現(xiàn)在了眼前……

這些，是已經(jīng)實現(xiàn)了的多模態(tài)AI應用，橫貫文字、圖像、語音，在初級應用功能上就已經(jīng)展現(xiàn)出相比單模態(tài)更智能、更自然、更多樣化的魅力，其前景被普遍關注，只不過很長一段時間以來，多模態(tài)的發(fā)展速度一直不算快。

現(xiàn)在，事情正在發(fā)生變化。

在華為全聯(lián)接2021期間，中國科學技術(shù)信息研究所、AITISA（新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟）和鵬城實驗室聯(lián)合了發(fā)布《人工智能計算中心發(fā)展白皮書2.0——從人工智能計算中心走向人工智能算力網(wǎng)絡》，其中明確提到了以“大算力+大數(shù)據(jù)”使能大模型（多模態(tài)多樣化的能力一般都由大模型才能更好的實現(xiàn)，或者說多模態(tài)的形式表現(xiàn)為大模型）。會上，中國科學院自動化研究所發(fā)布了全球首個三模態(tài)大模型紫東.太初，這無疑讓多模態(tài)的發(fā)展進入了一個全新的落地階段。

多模態(tài)大模型，正在與人工智能算力網(wǎng)絡互相促進，成為彼此的最佳伴行者。

多重因素下，多模態(tài)大模型已成大勢所趨

隨著AI的技術(shù)和產(chǎn)業(yè)發(fā)展逐步走向深入，多模態(tài)大模型的趨勢十分明朗，這主要表現(xiàn)在三個方面：

首先，是AI自身的能力進化要求。

在單模態(tài)領域，例如歸屬NLP的跨語種翻譯這類應用，機器可以說早已超越人類，實現(xiàn)了重要的技術(shù)和產(chǎn)業(yè)價值，如果要進一步往前走，多模態(tài)自然而然就成為AI技術(shù)和產(chǎn)業(yè)突圍的新方向。與此同時，單模態(tài)本身也面臨“知識冰山”的瓶頸問題，進一步智能化也需要大模型來支撐，例如對“老王去吃食堂”的理解，單純的文字數(shù)據(jù)很難讓AI辨別“吃食堂”不是把食堂吃掉而是“到食堂吃飯”，但一張場景圖片或視頻就可以很容易解釋清楚并關聯(lián)起來。

然后，是“數(shù)據(jù)”供給的要求。

數(shù)據(jù)是AI發(fā)展的根本、是AI的“食物”，在全球范圍內(nèi)，包括中國市場上，互聯(lián)網(wǎng)的出現(xiàn)幫助AI模型訓練的數(shù)據(jù)量越來越龐大，它們讓AI得到了快速的能量補充。

然而，目前互聯(lián)網(wǎng)音視頻數(shù)據(jù)高速增長，占比超過80%，單一數(shù)據(jù)類型例如文本只占不多的比例，這使得更豐富的語音、圖像、視頻等數(shù)據(jù)并未被充分利用與學習，以多模態(tài)的方式將更深度、更廣泛地挖掘這些數(shù)據(jù)的價值，反過來，大量的各種屬性的數(shù)據(jù)投喂也將推動AI擺脫單模態(tài)，朝著多模態(tài)大模型不斷前進。

最后，是產(chǎn)業(yè)需求的倒逼。

隨著AI逐步落地，產(chǎn)業(yè)需求也在往深處走，更多場景應用需要多模態(tài)大模型來支撐，例如，跨模態(tài)檢索、智能問答、文學藝術(shù)創(chuàng)作、視頻配音、視頻摘要等等。

可以說，越是在技術(shù)層面將圖像、文字、語音相互融合，一個應用在場景中表現(xiàn)的價值就越為明顯，也更能讓AI的場景應用真正告別常常被詬病的“雞肋”感。

算力、框架、技術(shù)積累三位一體，多模態(tài)大模型加速落地

為什么紫東.太初這樣的多模態(tài)大模型得以實現(xiàn)，原因主要有三大方面，缺一不可：

1、人工智能算力網(wǎng)絡成為多模態(tài)、大模型的重要推進因素

多模態(tài)大模型的一個重要特征，是訓練的參數(shù)規(guī)模呈現(xiàn)指數(shù)級的上升。

以往的單模態(tài)，單一類型的數(shù)據(jù)“喂養(yǎng)”幫助AI模型獲取知識、迭代能力，相對而言模型本身并不需要太多的參數(shù)，就如同小學生不斷學習加減乘除一樣只要理解基本的數(shù)學規(guī)則一樣。

而當不同模態(tài)加入后，一個可以識別圖像、文字、語音的通用算法，不僅需要理解單模態(tài)的各種數(shù)據(jù)，還需要理解不同數(shù)據(jù)之間極端復雜的聯(lián)系，模型的參數(shù)發(fā)生膨脹，這就如同專業(yè)的大學理工科學習需要綜合各種學科知識進行復雜地算一樣。

這時候，很顯然，算力就成為最基本的支撐，只有超大規(guī)模的算力才能支撐大模型的訓練，才能讓多模態(tài)應用有更好的效果。

所以，在提供強大集群化算力的各地人工智能計算中心基礎上，人工智能算力網(wǎng)絡的出現(xiàn)，進一步解決了多模態(tài)大模型的算力需求問題，成為重要的推進因素。

事實上，由于大模型的運算很多時候還有波峰波谷的問題（即計算時算力耗費巨大，而不計算時則算力閑置），而人工智能算力網(wǎng)絡又能在全國范圍內(nèi)感知、分配、調(diào)度人工智能算力，根據(jù)各中心算力資源的情況和各地區(qū)的需求情況進行算力動態(tài)調(diào)配，雙方的供需關系除了“量”之外在“節(jié)奏”上也十分契合。

反過來看，多模態(tài)大模型的技術(shù)發(fā)展以及在產(chǎn)業(yè)中的應用，也將推動本身作為各地產(chǎn)業(yè)集群推進力量的人工智能算力網(wǎng)絡更好地發(fā)展，“物盡其用”同時技術(shù)不斷進步，可見二者是相互促進的關系。

2、昇思MindSpore特性推動開發(fā)加速

由于模型參數(shù)十分龐大，光有算力支撐還不行，多模態(tài)大模型開發(fā)所依托的AI框架也需要有承載和利用算力、支持龐大參數(shù)的能力，而這方面，過去國內(nèi)外已有的一些主流開發(fā)框架都只支持簡單的數(shù)據(jù)并行，滿足不了大模型的需要。

本次在華為全聯(lián)接2021上發(fā)布的多模態(tài)大模型紫東.太初，就基于昇思框架訓練的，這是業(yè)界首個支持全自動并行的框架，全球首個中文預訓練大模型鵬程.盤古就出自其手。

昇思框架與多模態(tài)大模型相契合的主要技術(shù)優(yōu)勢在于，可以在訓練過程中自動將模型切分到不同的設備，并高效地利用龐大的計算設備集群來完成并行訓練，相當于建立了一套行之有效的中樞指揮系統(tǒng)，將計算任務以同時進行的方式分配下去，再大的訓練任務也能有條不紊實現(xiàn)加速，而不是堵塞起來。

其實現(xiàn)過程，是通過多維度自動并行這一獨特能力來實現(xiàn)的——通過數(shù)據(jù)并行、模型并行、Pipeline并行、異構(gòu)并行、重復計算、高效內(nèi)存復用及拓撲感知調(diào)度，降低通信時間的占用，實現(xiàn)整體迭代時間最小，簡單來說就是通過一系列技術(shù)創(chuàng)新來讓并行更有規(guī)模和效率，無需像其他AI框架一樣半自動甚至是手動來完成大模型的并行執(zhí)行開發(fā)。

在最新的1.5版本更新中，昇思框架還增加了多種并行調(diào)優(yōu)，支持在大集群下高效訓練千億至萬億參數(shù)模型。

3、已有多模態(tài)大模型相關經(jīng)驗基礎

多模態(tài)能力一定建立在單模態(tài)能力的基礎之上，這是毫無疑問的。此次紫東.太初的開發(fā)者即中國科學院自動化研究所，是昇騰AI的重要生態(tài)伙伴，在發(fā)布紫東.太初之前，中科院自動化研究所就已經(jīng)在圖像、語音、文本三個方面自研了業(yè)界領先的模型：

在此基礎上，中科院自動化研究所與昇騰AI攜手，還實現(xiàn)了一些“前期準備”能力的構(gòu)建，包括圖文跨模態(tài)理解與生成性能、視頻理解與描述性能的全球領先，這些都成為紫東.太初的重要支撐：

最終可以看到，全球首個三模態(tài)大模型紫東.太初應運而生，讓多模態(tài)從常見的兩個模態(tài)一躍邁入了三模態(tài)時代，不僅可以實現(xiàn)跨模態(tài)理解（比如圖像識別、語音識別等任務），也能完成跨模態(tài)生成（比如從文本生成圖像、從圖像生成文本、語音生成圖像和視頻等任務）。

看起來，兩個模態(tài)與三個模態(tài)似乎只有數(shù)量的差別，但從技術(shù)上，其實現(xiàn)難度或與二維世界到三維世界的跨越類似，需要大量的技術(shù)積累與創(chuàng)新。而一旦三模態(tài)得以實現(xiàn)，相比較兩模態(tài)，AI的交互會變得更加自然，能夠離強人工智能更近一步。

結(jié)語

多模態(tài)大模型正在加速賦能產(chǎn)業(yè)，在開源開放的大前提下，昇騰AI加持的紫東.太初正在走入智能駕駛、工業(yè)質(zhì)檢、影視創(chuàng)作、智慧醫(yī)療等應用場景，合作客戶包括上汽集團、魏橋創(chuàng)業(yè)等知名企業(yè)，一幅多模態(tài)大模型賦能千行百業(yè)的圖景正在展開。

從多模態(tài)大模型的發(fā)展可以看出，未來，隨著人工智能算力網(wǎng)絡、昇思框架這樣的基礎軟硬件突破性項目的發(fā)展，中國的AI將實現(xiàn)從基礎技術(shù)到產(chǎn)業(yè)應用的全面領先，憑借技術(shù)和模式創(chuàng)新?lián)碛姓嬲母偁幈趬尽?/p>

*本文圖片均來源于網(wǎng)絡

*此內(nèi)容為【科技向令說】原創(chuàng)，未經(jīng)授權(quán)，任何人不得以任何方式使用，包括轉(zhuǎn)載、摘編、復制或建立鏡像。

【完】

曾響鈴

1鈦媒體、品途、人人都是產(chǎn)品經(jīng)理等多家創(chuàng)投、科技網(wǎng)站年度十大作者；

2虎嘯獎評委；

3作家：【移動互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機會】等暢銷書作者；

4《中國經(jīng)營報》《商界》《商界評論》《銷售與市場》等近十家報刊、雜志特約評論員；

5鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者；

6“腦藝人”（腦力手藝人）概念提出者，現(xiàn)演變?yōu)?ldquo;自媒體”，成為一個行業(yè)；

7騰訊全媒派榮譽導師、多家科技智能公司傳播顧問。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: ai技術(shù)

匯聚中國AI頂尖力量云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運營商、科研院所等優(yōu)秀團隊

標簽：

ai技術(shù)
用友大易：邁入AI招聘2.0時代，讓人力資源回歸本質(zhì)

這幾個月來，以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后，AI仿佛已經(jīng)沉寂了很久，ChatGPT的橫空出世就如同一束耀眼的光芒，讓AI這個名詞重回C位。過去在AI1.0時代，主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特

標簽：

ai技術(shù)
新發(fā)布的PaaS2.0，能否助力涂鴉智能再起飛？

文：互聯(lián)網(wǎng)江湖作者：志剛2023年的IoT需要一個新故事。6月29日，涂鴉智能在開發(fā)者大會上，發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0，希望通過一個平臺+四大開發(fā)服務，建立起IoT生態(tài)。對于這場發(fā)布會，市場的態(tài)度是積極的。美東時間6月29日收盤，涂鴉智能美股股價上漲5.6%，來到1.87美元/股。近日股價穩(wěn)定

標簽：

ai技術(shù)
大模型難掩AI制藥的悲傷：越過山丘，無人等候

美團曾經(jīng)的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外，以20億賣給美團，再度引發(fā)市場對大模型的熱議。

標簽：

ai技術(shù)
拾起王慧文的AI夢，美團沖向“光年之外”？

2020年底，王慧文在朋友圈寫下這句話時，外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是，一個曾經(jīng)多次創(chuàng)業(yè)，正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

標簽：

ai技術(shù)

庫克已納投名狀：蘋果AI沒得選，只能選百度

蘋果16弄了兩個版本，一個是專門給中國人用的，準備用百度的AI，還要交錢。第二個是全世界都可以用的，用了ChatGPT，包括臺灣、香港、澳門都可以用。以后都這樣了。好，問題就出在這，蘋果和百度的合作出現(xiàn)問題了，新聞連起來看，才能明白其中含義。新聞一：蘋果正在和騰訊、字節(jié)初步接洽，考慮將二者的AI模型

標簽：

蘋果AI

百度AI

庫克
AI加速時代的“進度條”，我們撥動了百分之幾？

“技術(shù)日新月異，人類生活方式正在快速轉(zhuǎn)變，這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經(jīng)熟悉的一切，都開始變得陌生?！庇嬎銠C之父約翰·馮·諾依曼曾這樣說到。

標簽：

ai智能
AI視頻賽道，要變天了

“毀滅你，與你何干？”，這是在劉慈欣的科幻小說《三體》里用來形容人類與三體人之間的戰(zhàn)爭的一句話。

標簽：

ai智能
“創(chuàng)造市場”與“算法進化”，中美AI競速的岔路口

“人工智能的商業(yè)模式，是要創(chuàng)造一個市場，而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場，占據(jù)主導地位的中美雙方，卻也走出了兩條截然不同的技術(shù)路徑，前者執(zhí)著于前沿技術(shù)的探索，后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向，或許已經(jīng)無法直接進行排位先后、優(yōu)

標簽：

ai智能
智能體進化發(fā)展了一年，現(xiàn)在的RPA Agent迭代到什么程度了？

智能體進化發(fā)展了一年，現(xiàn)在的RPAAgent迭代到什么程度了？從實在智能最新發(fā)布的實在Agent7.0，看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT，這款AIAgent真的實現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化，持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實
崔大寶：大模型降溫背后的難點、卡點、節(jié)點

崔大寶｜節(jié)點財經(jīng)創(chuàng)始人進入2024年，大模型似乎有熄火之勢：資本市場，與之關聯(lián)的概念炒不動了，英偉達股價動輒暴跌重挫，引發(fā)“泡沫戳破”的擔憂；消費市場，BATH們的推新活動少了，產(chǎn)品更新迭代的速度慢了，民眾的關注度降了……熱鬧的大概只剩下兩場酣仗：自5月15日字節(jié)跳動宣布“以厘計費”，打響國內(nèi)大模型

標簽：

大模型

這一屆“出道”的數(shù)字人，已經(jīng)拿捧上了“鐵飯碗”

文|智能相對論作者|陳泊丞好消息！你心心念念的事業(yè)單位發(fā)錄取公告了！壞消息！他們沒錄你，錄了個數(shù)字人。圖片來源網(wǎng)絡隨著數(shù)字人技術(shù)的突破，越來越多的傳統(tǒng)企業(yè)和機構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”，也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

標簽：

數(shù)字人
來到IPO關口，地平線離“三分天下”還有多遠？

黑芝麻智能敲鐘后，港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據(jù)悉，近日地平線已通過中國證監(jiān)會IPO備案，擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市，預計籌集約5億美元資金。從天眼查可以了解到，該公司成立于2015年，是一家乘用車高級輔助駕駛（ADAS）和高階自動駕駛（AD）解決方案供
對標GPT-4o，科大訊飛正以大模型重塑語音產(chǎn)業(yè)

大模型的創(chuàng)新與未來

標簽：

科大訊飛
機器人大會引領產(chǎn)業(yè)動向，卓翼飛思繪制無人系統(tǒng)教科研新藍圖

8月21日，萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天，集“展覽”“論壇”“賽事”于一體的機器人盛會，反映了當下機器人領域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù)，今年現(xiàn)場逛展觀眾高達25萬人次，比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知

加載更多

“未來技術(shù)”人工智能算力網(wǎng)絡面世：多模態(tài)的最佳“伴行者”？

相關文章

匯聚中國AI頂尖力量云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

用友大易：邁入AI招聘2.0時代，讓人力資源回歸本質(zhì)

新發(fā)布的PaaS2.0，能否助力涂鴉智能再起飛？

大模型難掩AI制藥的悲傷：越過山丘，無人等候

拾起王慧文的AI夢，美團沖向“光年之外”？

庫克已納投名狀：蘋果AI沒得選，只能選百度

AI加速時代的“進度條”，我們撥動了百分之幾？

AI視頻賽道，要變天了

“創(chuàng)造市場”與“算法進化”，中美AI競速的岔路口

智能體進化發(fā)展了一年，現(xiàn)在的RPA Agent迭代到什么程度了？

崔大寶：大模型降溫背后的難點、卡點、節(jié)點

這一屆“出道”的數(shù)字人，已經(jīng)拿捧上了“鐵飯碗”

來到IPO關口，地平線離“三分天下”還有多遠？

對標GPT-4o，科大訊飛正以大模型重塑語音產(chǎn)業(yè)

機器人大會引領產(chǎn)業(yè)動向，卓翼飛思繪制無人系統(tǒng)教科研新藍圖

熱門排行

編輯推薦

“未來技術(shù)”人工智能算力網(wǎng)絡面世：多模態(tài)的最佳“伴行者”？

相關文章

熱門排行

編輯推薦

“未來技術(shù)”人工智能算力網(wǎng)絡面世：多模態(tài)的最佳“伴行者”？