傳統(tǒng)數據湖面臨性能挑戰(zhàn)
隨著數據分析和人工智能應用的普及,企業(yè)數據量大增,創(chuàng)新業(yè)務層出不窮,企業(yè)對數據分析靈活性、性能和成本的要求越來越高,傳統(tǒng)大數據Hadoop系統(tǒng)搭建的數據分析平臺已無法滿足企業(yè)的要求。越來越多的企業(yè)以數據湖為基礎構建大數據處理平臺,數據湖的典型特征是存儲和計算分離,能夠降低系統(tǒng)成本同時獲得更好的系統(tǒng)擴展性。
數據湖架構使得企業(yè)可以在一份數據上拓展創(chuàng)新業(yè)務,而不必每發(fā)展一個新業(yè)務就做一次數據拷貝,但傳統(tǒng)數據湖方案在性能上仍然存在明顯的缺點,傳統(tǒng)數據湖依賴云存儲,雖然降低了存儲成本,但在數據分析的過程中完全依靠云存儲自身的吞吐能力進行數據掃描,這種方式只適用于ETL、批量計算等時延不敏感的應用,卻無法支撐秒級數據檢索、時序數據分析等低時延的分析場景。
數據湖支撐大數據分析和機器學習平臺
除了服務傳統(tǒng)的Hadoop/Spark大數據分析平臺,數據湖還需要滿足AI算法的模型訓練和推理、數據歸檔的需求,這要求存儲系統(tǒng)支持多種協(xié)議以提升處理效率。比如在自動駕駛模型訓練及分析場景中,車輛采集的視頻、雷達數據需要通過文件或對象接口導入存儲,然后通過HDFS接口對數據預處理,預處理結果再通過文件接口由計算服務器進行AI訓練和高性能仿真,從而得到新的算法和模型進行下一輪測試。這些需求不是單一的對象存儲或HDFS存儲能夠支撐的,需要更專業(yè)的存儲平臺提供服務。
杉巖數據的MOS海量對象存儲通過異構納管的方式,可以整合管理已有的HDFS數據源和NAS數據源,通過混合云存儲方案,可以將存儲在公有云的數據也納入到MOS對象存儲池統(tǒng)一管理。杉巖數據近期發(fā)布的MosFS高性能數據湖文件網關在系統(tǒng)架構中位于MOS對象存儲池之上,為Hadoop/Spark大數據分析平臺和TensorFlow/PyTorch/Caffe等機器學習平臺提供原生的HDFS接口、S3/OSS對象接口、POSIX文件接口。
圖1:數據湖文件網關架構
MOS對象存儲和MosFS文件網關組合構建的數據湖架構為企業(yè)統(tǒng)一管理眾多的數據源,實現(xiàn)高性能存儲和數據治理提供了堅實的基礎。
· 高效率的多數據源管理
MOS可以納管第三方的NAS存儲、對象存儲和HDFS數據源,并通過映射的方式對上層提供數據服務,可以在現(xiàn)有的IT架構中實現(xiàn)存儲系統(tǒng)的快速割接,漫長的數據遷移可以在后臺異步執(zhí)行。統(tǒng)一管理的數據可以為多套平臺和應用服務,不需要多重復制,減少對存儲空間的需求。
· 內容感知的多級緩存加速
機器學習平臺在模型訓練中要求數據的超高吞吐量和超低延遲,MosFS可以和上層應用聯(lián)動,通過標簽感知與應用關聯(lián)度高的數據,機器學習平臺可以通過路徑、數據標簽、多策略組合等方式得到相關性高的數據集。在實際運行中,MosFS把上述數據映射成目錄,并通過內存和SSD多級緩存來加速數據訪問。比如在自動駕駛的訓練中,算法需要所有車輛在白天的四車道上捕獲的視頻和圖片,MosFS就可以通過這些數據特征對應的標簽,將MOS存儲資源池中的相關數據映射為一個目錄,并通過多級緩存提供給訓練算法。
· 多策略數據映射簡化管理
MosFS的數據映射能力實現(xiàn)了數據訪問的虛擬化,并通過全局命名空間將數據呈現(xiàn)給上層應用,基于時間、標簽、文件名前綴等多粒度策略可以簡化對數據的管理。
性能逼近本地全閃存的分布式數據湖文件網關
MosFS文件網關與MOS對象存儲可以合設也可以分離部署,為了滿足機器學習平臺超高吞吐量和超低延遲的性能要求,通常將MosFS分布式部署于計算服務器,在這種情況下,MosFS將計算服務器的本地預留內存和SSD組成一個分布式的緩存層以加速訓練。傳統(tǒng)分布式NAS作為機器學習后端存儲的方案具有成本高昂、數據與其它類型存儲不能互通等缺點,數據管理復雜造成訓練效率低下,相比而言MosFS的方案可以管理MOS、原有NAS和HDFS存儲,統(tǒng)一所有數據視圖,且分布式數據緩存可以將訓練效率提升多倍,性能接近于使用計算服務器的本地SSD。
圖2:數據湖文件網關分布式部署于計算服務器
HDFS協(xié)議增強實現(xiàn)大數據存算分離
HDFS作為傳統(tǒng)的數據倉庫存儲平臺在數據湖場景下面臨性能和成本的問題。在實際應用中,在10~20PB以上的數據規(guī)模下,HDFS的性能下降嚴重,另外HDFS基本只支持多副本的存儲模式,對糾刪碼的支持效果不佳。MosFS和MOS組合構建的數據湖存儲兼容HDFS接口和S3協(xié)議,可以實現(xiàn)存儲和Hadoop計算平臺的分離,幫助客戶把HDFS的數據統(tǒng)一歸集到MOS存儲中,實現(xiàn)非結構化數據、半結構化數據和結構化數據的統(tǒng)一管理。MosFS提供的原生HDFS接口100%兼容主流平臺,并在內部實現(xiàn)了S3/OSS與HDFS接口協(xié)議的互通轉換,避免數據多次拷貝。
圖3:數據湖架構實現(xiàn)存算分離
大數據分析和AI訓練推理融合的需求越來越多,傳統(tǒng)的大數據存儲僅提供HDFS接口,大數據分析的結果如果用于AI訓練,需要把數據拷貝到其它存儲中處理,導致數據分析整體效率的低下,也浪費了存儲空間。杉巖新型數據湖架構既能提供HDFS接口用于大數據分析,又能提供文件和對象接口用于AI訓練推理,大數據分析結果可直接通過文件接口訪問,無需拷貝和等待,很大程度上提升了融合場景的大數據分析效率。
AI訓練實踐案例
類腦智能技術及應用國家工程實驗室是由中國科技大學組建,由中科院、復旦大學、微軟、百度等機構共同承建的國家工程實驗室,中科類腦成立于2017年,是該實驗室的產業(yè)化平臺,通過搭建“先進人工智能算法+公有計算云+私有部署云”的智能混合云平臺,對外提供計算資源、人工智能技術、智能化解決方案等服務。
中科類腦開發(fā)的類腦云OS提供了大規(guī)模算力、數據和智能技術,有效降低人工智能創(chuàng)業(yè)門檻,能夠促進人工智能應用生態(tài)的發(fā)展,賦能各行業(yè)完成智能升級轉型。目前該平臺已經匯聚了180項AI前沿算法、100類通用數據集,具備豐富的平臺建設和行業(yè)落地經驗。
杉巖新型數據湖架構已經在類腦云OS得到應用,根據中科類腦的訓練方案,數據集分別放在本地SSD、分布式NAS存儲和杉巖MosFS+MOS上,性能對比測試結果表明,MosFS訓練耗時與本地SSD接近,對比分布式NAS,MosFS在單GPU節(jié)點下讀取性能提升62.5%,雙GPU節(jié)點分布式訓練的性能提升75.8%。集群規(guī)模越大,杉巖數據湖方案的性能越能得到體現(xiàn),表現(xiàn)出了優(yōu)秀的擴展性。
圖4:本地SSD、MosFS、NAS的模型訓練性能對比
小結:智能應用和大數據分析需要智能的新型數據湖
數據基礎設施正在走向智能和融合。數據湖如果不能實現(xiàn)有效的數據管理,就會變成“數據沼澤”,智能管理要求存儲提供多維度的檢索能力、生命周期管理能力以及數據可視化能力,實現(xiàn)數據的合理分類與管理,加速數據清洗、轉換、流動的過程。存儲與計算架構實現(xiàn)分離,結構化數據、半結構化數據、非結構化數據統(tǒng)一存放在數據湖中,海量的數據得以在數據湖中實現(xiàn)融合,不同類型數據存儲的界限逐漸模糊。
人工智能和大數據分析應用的融合使得一份數據能夠同時提供給多個計算及分析流程使用,新一代數據湖存儲平臺必須具備多源數據管理能力,包括混合云能力與異構納管其它存儲的能力,以及可智能感知內容的高性能多協(xié)議數據服務能力。新型數據湖架構必將為數據分析和智能應用的開發(fā)和運行帶來巨大的便利,加快迭代分析過程,簡化基礎設施需求,提供綜合的數據服務能力,方便人們高效率地提取數據價值。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
隨著數字中國戰(zhàn)略的步步落實,大數據已經成為錨定戰(zhàn)略定位、搶得市場先機的重要基礎元素。為彰顯行業(yè)發(fā)展現(xiàn)狀,遴選、推薦優(yōu)秀企業(yè),長城戰(zhàn)略咨詢近日在2023中國國際大數據產業(yè)博覽會期間,重磅發(fā)布《中國大數據獨角獸企業(yè)榜單》,根據獨角獸企業(yè)國家推薦性標準,篩選出259家2022年中國大數據(潛在)獨角獸企業(yè)
2023年6月15日至18日,2023北京健康醫(yī)療大數據論壇、醫(yī)促會華夏健康數據與數字醫(yī)學高峰論壇、第三屆中華預防醫(yī)學會腎臟病預防與控制專業(yè)委員會學術會議將同期于北京舉行。論壇以“學術引領數智健康”為主題,著眼國家戰(zhàn)略需求,聚焦前沿科技在健康醫(yī)療領域的發(fā)展與實踐,薈萃全球頂尖學術觀點,促進多方跨界融
近日,北京市科學技術委員會、中關村科技園區(qū)管理委員會公示了北京市2023年第2批科技型中小企業(yè)名單,谷器數據借助優(yōu)秀的科技自主創(chuàng)新能力成功入選。此次評價指標圍繞科研人員、研發(fā)投入、科技成果等三個維度,成功入選科技型中小企業(yè)是對谷器數據專業(yè)化發(fā)展、自主創(chuàng)新能力、產品技術實力的激勵與肯定??萍夹椭行∑髽I(yè)
評審寄語面向車間現(xiàn)場生產制造過程的數字化管理,谷器數據SupplyX·MES通過推動更有效的工廠運行和現(xiàn)場效率,提供從接收生產計劃到制成最終產品全過程的生產活動實現(xiàn)優(yōu)化的信息,成為新型工業(yè)化的標桿力量!近日,由中國科學院《互聯(lián)網周刊》、中國社會科學院信息化研究中心等機構聯(lián)合主辦的“2023(第八屆)
在如今這個數字化轉型時代,大數據在企業(yè)發(fā)展的過程中發(fā)揮了至關重要的作用,大數據技術以更高效和有效的方式提供最好的服務,同時還可以提高生產力、提高客戶滿意度和更高效的智慧化運營。其中,成都四方偉業(yè)軟件股份有限公司(以下簡稱“四方偉業(yè)”)以優(yōu)秀的大數據產品和服務獲得了多項行業(yè)榮譽。去年,2022數博會數
把脈中國數據智能化
2023年,幾乎可以被定義為中國互聯(lián)網公司的“大模型元年”。ChatGPT的全球爆紅,徹底點燃國內的大模型賽道,曾經的“創(chuàng)業(yè)英雄”、如今的商業(yè)領袖們親自下場,接連發(fā)布生成式人工智能產品與大模型布局。大模型火了,沉寂許久的互聯(lián)網行業(yè)又有了新的“戰(zhàn)事”。同時,大模型的快速發(fā)展也改變了云市場的現(xiàn)狀,企業(yè)對
近日,數字化市場研究咨詢機構愛分析發(fā)布了《2022愛分析·數據智能廠商全景報告》,愛分析從技術研發(fā)能力、服務客戶數量、收入規(guī)模等維度對廠商進行了全面專業(yè)的評估
2022年11月18日,首個國家級大數據產業(yè)創(chuàng)新賽事——2022第一屆中國大數據大賽圓滿落幕。工業(yè)和信息化部信息技術發(fā)展司數字經濟推進處處長張建倫,中國電子技術標準化研究院副院長孫文龍出席頒獎典禮并致辭
2022年11月17日,在廈門市工業(yè)和信息化局的指導下,以“數據確權”為主題的2022數據資產(廈門)論壇在廈門成功舉辦。本次論壇以“數據確權”為主題,由廈門市互聯(lián)網域名應用服務產業(yè)協(xié)會和構信網(公信.中國)聯(lián)合主辦
近日,國內知名數字化市場研究咨詢機構愛分析正式發(fā)布《2022愛分析·信創(chuàng)廠商全景報告》(以下簡稱“報告”)。報告綜合考慮企業(yè)關注度、行業(yè)落地進展等因素,遴選出在信創(chuàng)市場中具備成熟解決方案和落地能力的廠商。
10月31日下午,由數博會執(zhí)委會主辦、數據觀(北京)傳媒科技有限公司承辦、貴陽大數據交易所協(xié)辦的第四期數博思享會“實踐先行觀公共數據價值與應用”活動成功舉辦。
近日,由中國國際數字經濟博覽會組委會主辦,中國電子技術標準化研究院、河北省工業(yè)和信息化廳承辦的“第一屆中國大數據大賽”(簡稱大數據大賽)正式啟動。
廣州光點信息科技有限公司自主研發(fā)的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創(chuàng)標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺。
廣州光點信息科技有限公司自主研發(fā)的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創(chuàng)標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺