一點資訊田超:大數(shù)據(jù)能為資訊平臺帶來什么?

2016-11-17 15:06 來源:互聯(lián)網(wǎng) 我來投稿 撤稿糾錯

  10萬+優(yōu)質自媒體資源,精準引流

WOT2016大數(shù)據(jù)峰會將于2016年11月25-26日在北京粵財JW萬豪酒店召開,屆時,數(shù)十位大數(shù)據(jù)領域一線專家、數(shù)據(jù)技術先行者將齊聚現(xiàn)場,在圍繞機器學習、實時計算、系統(tǒng)架構、NoSQL技術實踐等前沿技術話題展開深度交流和溝通探討的同時,分享大數(shù)據(jù)領域最新實踐和最熱門的行業(yè)應用。

51CTO記者對即將參加大會演講的一點資訊大數(shù)據(jù)平臺研發(fā)總監(jiān)田超行了專訪,讓我們先睹為快,探聽田超在一點資訊大規(guī)模實時點擊反饋平臺方面的心得。

 

田超,目前在一點資訊任職大數(shù)據(jù)中心技術總監(jiān)負責基礎架構及大數(shù)據(jù)平臺相關工作。碩士畢業(yè)于中國科學院計算技術研究所,曾任職雅虎北京研發(fā)中心工程師、同步盤CTO、高德軟件高級技術經理等職。現(xiàn)任一點資訊大數(shù)據(jù)平臺技術總監(jiān)。

大數(shù)據(jù)技術是對于海量數(shù)據(jù)的處理能力及構建在這樣處理能力之上的數(shù)據(jù)應用。從Hadoop大規(guī)模普及開始,業(yè)界擁有了構建大規(guī)模數(shù)據(jù)存儲和計算的能力,而隨著技術的不斷發(fā)展,上層應用對于擁有實時處理海量數(shù)據(jù)能力的需求在不斷增強,這就衍生出了如Storm在內的各種實時計算的框架和系統(tǒng)。而今天做的一些技術包括Spark、Googledataflow等則希望能夠更有機的將離線計算與在線計算進行統(tǒng)一。

實時的數(shù)據(jù)處理能力對于一個現(xiàn)代互聯(lián)網(wǎng)公司來說是必要的組成部分。各個公司的在線機器學習、實時用戶畫像系統(tǒng)、實時數(shù)據(jù)倉庫、實時統(tǒng)計分析系統(tǒng)等業(yè)務都需要擁有實時的大規(guī)模反饋數(shù)據(jù)計算的能力,這些系統(tǒng)的實時計算部分有一定的共同點,也有一定的特殊部分。一點資訊的實時反饋平臺在設計之初對上述系統(tǒng)對實時計算部分的公用計算模型和數(shù)據(jù)結構進行了抽象,對系統(tǒng)設計的時候參考了Google的Mesa系統(tǒng),從而設計成為一個可擴展的平臺,能夠在一點咨詢內部支撐著上述系統(tǒng)的實時計算部分任務。

許多的資訊平臺智能為讀者服務,但是一點資訊可以反向,為讀者服務的同時也可以為作者提供資訊。系統(tǒng)在根據(jù)用戶的行為來分析,以及挖掘用戶對興趣的需求和需求被滿足的情況。這些數(shù)據(jù)及對數(shù)據(jù)的深度挖掘為一點資訊的內容生態(tài)建設,提供了一個全局的上帝視角,使一點資訊可以從更高的角度來觀察群體上的表現(xiàn)及內容趨勢。一點資訊還有一個叫一點insight的系統(tǒng),目前屬于邀約測試中,該系統(tǒng)會把對于用戶興趣的知識映射到不同的領域上,以各種數(shù)據(jù)可視化的方式來展示這些知識。

搜索引擎強調的是用戶搜索,相當于用戶帶領內容;推薦是用戶完全處于被動,也不做表達,先給予用戶共性的內容,再根據(jù)其點擊行為,猜測用戶的喜好,然后再將內容推薦給用戶。搜索引擎和推薦引擎是有著相似結構的不同系統(tǒng)。把搜索技術和推薦技術有機的融合在一起,是一點資訊興趣引擎設計的核心目標。興趣引擎中,對于用戶的搜索和推薦行為數(shù)據(jù)底層完全打通,充分的利用用戶主動表達與被動行為信號,基于人工智能技術不斷學習和挖掘用戶的興趣,并基于用戶興趣進行內容的分發(fā)。

對于大數(shù)據(jù)到人工智能之間技術的不斷發(fā)展,在田超看來實際上是業(yè)界對數(shù)據(jù)的處理,以及利用能力不斷發(fā)展提升的自然過程。最早的時候,業(yè)界大多數(shù)技術都是用來處理結果數(shù)據(jù)的,數(shù)據(jù)量在GB級別,存儲使用Database,對于數(shù)據(jù)獲取和存儲計算的能力處于初級階段;隨著Hadoop等一系列基礎架構的不斷發(fā)展,大數(shù)據(jù)技術也不斷發(fā)展起來,技術人員不僅僅是處理業(yè)務結果數(shù)據(jù),對描述用戶行為的日志也進行了更深度的處理,輔助業(yè)務進行計算,這個時代數(shù)據(jù)量已經增長到了PB級別,存儲使用各種分布式文件系統(tǒng),這一階段各種離線計算、流式計算、圖計算模型也都隨著大數(shù)據(jù)應用的發(fā)展而發(fā)展起來;而今天,在已經擁有了更好的計算模型以及更加海量的數(shù)據(jù)之后,對于數(shù)據(jù)的利用也更加深化,人工智能及深度學習技術與大數(shù)據(jù)的結合也可以構造更加智能的應用。

51CTO主辦的高端技術峰會【W(wǎng)OT2016“大數(shù)據(jù)技術峰會】將于11月25日-26日在北京粵財JW萬豪酒店盛大揭幕,40余位業(yè)內重量級嘉賓匯聚,解析大數(shù)據(jù)技術與行業(yè)應用的實踐結合。福利大放送,主辦方將邀請更多講師來到“WOT講師專訪間”,深度解析技術干貨。

標簽

推薦文章