在剛剛舉辦的光合組織領導人大會 AI 技術分論壇上,青云科技分享了在 AI 算力領域的技術探索、產品與服務能力以及在不同場景的落地、與海光的多層次合作等。
讓算力“發(fā)動機”更強勁
眾所周知,算力是新生產力,與數(shù)據(jù)和算法共同構成數(shù)字經(jīng)濟時代最基本的生產要素。在 AI 時代中,算力扮演著“發(fā)動機”的角色,它為人工智能提供了強大的計算和數(shù)據(jù)處理能力,使得 AI 能夠更快地進行模型訓練、推理和優(yōu)化。
青云科技(qingcloud.com)在服務企業(yè)的云基礎設施建設過程中,捕捉了企業(yè)除了通用算力之外,對超算算力、智能算力的需求,并敏銳洞察了對于多元異構算力的統(tǒng)一調度與管理將成為新型數(shù)據(jù)中心的重大需求。
在這一洞察下,青云探索全新的技術架構,涉及到異構 GPU 架構、高速無損網(wǎng)絡、高速并行文件存儲、大規(guī)模訓練及推理加速優(yōu)化套件、向量數(shù)據(jù)庫、數(shù)據(jù)集服務等,同時也在規(guī)劃如何更好支持自服務與持續(xù)運營、支持應用與業(yè)務創(chuàng)新。
首先要做到的就是屏蔽復雜的硬件基礎設施,將算力、存力、運力、框架、組件以服務方式交付,其次是穩(wěn)定可靠且持續(xù)運行的計量計費平臺,并且提供可私有化部署落地的產品方案。建立廣泛的智算上下游生態(tài)也至關重要。
最終,青云通過一個軟件平臺—— AI 智算平臺,實現(xiàn)向下統(tǒng)一調度和管理多元異構的 IT 資源,向上承載大模型、行業(yè)應用等,同時通過統(tǒng)一的運營平臺和門戶,使得“交付、使用、管理、運營”多位一體。
青云 AI 智算平臺基于青云云原生底座,在異構資源池化方面也表現(xiàn)優(yōu)異。如面向人工智能企業(yè)的訓練場景,最終用戶可以快速申請資源,快速搭建計算的分布式訓練平臺,優(yōu)化業(yè)務和開發(fā)流程,打通開發(fā)環(huán)境、訓練環(huán)境、數(shù)據(jù)資源,提高科研效率。與此同時,通過資源動態(tài)調整與自動釋放,AI 智算平臺使得異構算力資源利用率明顯提升:假定每人固定分配 1-2 張物理算力卡,統(tǒng)計發(fā)現(xiàn)峰值利用率僅 21.8%,平均利用率低于 10%,通過分布式任務調度策略,按需動態(tài)掛載和釋放算力資源,資源效能節(jié)省 60% 以上。
加速企業(yè) AI 落地的最后一公里
青云在 AI 智算領域積極展開生態(tài)合作,比如與海光共同打造了全棧國產的異構算力解決方案,同時上線了海光異構加速算力專區(qū), 實現(xiàn)了海光異構加速卡的靈活調度和虛擬化管理。
青云 AI 生態(tài)的開放性不僅體現(xiàn)在底層硬件的兼容適配上,也體現(xiàn)在大模型、應用中間件、 AI 應用等廠商與開發(fā)者的廣泛合作上,通過聯(lián)合技術創(chuàng)新及解決方案,進一步提升 AI 智算平臺的產品能力與服務能力,加速企業(yè) AI 落地的最后一公里。
以 AI 訓練場景為例,基于AI 智算平臺的“調度”這一核心能力,青云客戶可以根據(jù)需要靈活編排包括算力資源、存儲資源、網(wǎng)絡資源以及運維運營等基礎要素,并獲得敏捷彈性的響應能力、高效智能的管理能力。如此一來,用戶 AI 訓練的平均等待和完成時間分別減少了 46% 和 21%,訓練任務的遷移性能提升了 3.7 倍,訓練任務可擴縮容性提升了 10-80 倍。
青云 AI 智算開發(fā)平臺還支持模型的推理和微調,同時通過大模型服務平臺提供完整的大模型場景化落地能力,集成大模型及模型應用開發(fā)平臺生態(tài)能力建設,面向行業(yè)領域構建場景化解決方案。
在 AI 時代,青云致力于打造強大、靈活且高效的算力基石,并通過一系列創(chuàng)新的技術和服務,攜手更多志同道合的伙伴,推動 AI 技術在各行各業(yè)中的廣泛應用和發(fā)展。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!