1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. 大數(shù)據(jù)
  4. 正文

干貨丨大數(shù)據(jù)是如何被采集及應用的

 2018-03-22 14:53  來源:八度網(wǎng)絡  我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

 

盡管“大數(shù)據(jù)”一詞近年來屢遭熱捧

但很多人都還不知道什么是大數(shù)據(jù)

更不知道大數(shù)據(jù)有甚卵用

這兩年,發(fā)現(xiàn)“大數(shù)據(jù)”這個詞出現(xiàn)的越來越頻繁了

不僅企業(yè),連國家都在部署大數(shù)據(jù)戰(zhàn)略

一番百度了之后

Oh~ emmmmmmmmm~ +_+

還是沒搞懂大數(shù)據(jù)到底是個什么玩意兒

直到有一天

我發(fā)現(xiàn)一個秘密

不管我在網(wǎng)上搜索什么

頁面都會跳出我要搜索的相關產品或關聯(lián)事物

然后,我恍然大悟!

所謂大數(shù)據(jù),就是算法!

它能夠“算”出我們“心中所想”

那么問題來了

大數(shù)據(jù)技術是如何采集到我們的信息的呢?

數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是利用一種裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內部的一個接口。在互聯(lián)網(wǎng)行業(yè)快速發(fā)展的今天,數(shù)據(jù)采集已經被廣泛應用于互聯(lián)網(wǎng)及分布式領域,比如攝像頭,麥克風,都是數(shù)據(jù)采集工具。

數(shù)據(jù)采集系統(tǒng)整合了信號、傳感器、激勵器、信號調理、數(shù)據(jù)采集設備和應用軟件。在數(shù)據(jù)大爆炸的互聯(lián)網(wǎng)時代,數(shù)據(jù)的類型也是復雜多樣的,包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)。結構化最常見,就是具有模式的數(shù)據(jù)。非結構化數(shù)據(jù)是數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。大數(shù)據(jù)采集,是大數(shù)據(jù)分析的入口,所以是相當重要的一個環(huán)節(jié)。

我們首先來了解一下數(shù)據(jù)采集的三大要點:

一、數(shù)據(jù)采集的三大要點

(1)全面性

數(shù)據(jù)量足夠具有分析價值、數(shù)據(jù)面足夠支撐分析需求。

比如對于“查看商品詳情”這一行為,需要采集用戶觸發(fā)時的環(huán)境信息、會話、以及背后的用戶id,最后需要統(tǒng)計這一行為在某一時段觸發(fā)的人數(shù)、次數(shù)、人均次數(shù)、活躍比等。

(2)多維性

數(shù)據(jù)更重要的是能滿足分析需求。靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標。

比如“查看商品詳情”這一行為,通過埋點,我們才能知道用戶查看的商品是什么、價格、類型、商品id等多個屬性。從而知道用戶看過哪些商品、什么類型的商品被查看的多、某一個商品被查看了多少次。而不僅僅是知道用戶進入了商品詳情頁。

(3)高效性

高效性包含技術執(zhí)行的高效性、團隊內部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標實現(xiàn)的高效性。也就是說采集數(shù)據(jù)一定要明確采集目的,帶著問題搜集信息,使信息采集更高效、更有針對性。此外,還要考慮數(shù)據(jù)的及時性。

不同應用領域的大數(shù)據(jù)其特點、數(shù)據(jù)量、用戶群體均不相同。不同領域根據(jù)數(shù)據(jù)源的物理性質及數(shù)據(jù)分析的目標采取不同的數(shù)據(jù)采集方法。

那么,接下來我們再來了解一下常用的數(shù)據(jù)采集的方法。

常用的數(shù)據(jù)采集方法歸結為以下三類:傳感器、日志文件、網(wǎng)絡爬蟲。

(1)傳感器

傳感器通常用于測量物理變量,一般包括聲音、溫濕度、距離、電流等,將測量值轉化為數(shù)字信號,傳送到數(shù)據(jù)采集點,讓物體有了觸覺、味覺和嗅覺等感官,讓物體慢慢變得活了起來。

(2)系統(tǒng)日志采集方法

日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產生,用于記錄數(shù)據(jù)源的執(zhí)行的各種操作活動,比如網(wǎng)絡監(jiān)控的流量管理、金融應用的股票記賬和 web 服務器記錄的用戶訪問行為。

很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具均采用分布式架構,能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。

(3)Web 爬蟲

網(wǎng)絡爬蟲是指為搜索引擎下載并存儲網(wǎng)頁的程序,它是搜索引擎和 web 緩存的主要的數(shù)據(jù)采集方式。通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結構化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯(lián)。

此外,對于企業(yè)生產經營數(shù)據(jù)上的客戶數(shù)據(jù),財務數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與數(shù)據(jù)技術服務商合作,使用特定系統(tǒng)接口等相關方式采集數(shù)據(jù)。比如八度云計算的數(shù)企BDSaaS,無論是數(shù)據(jù)采集技術、BI數(shù)據(jù)分析,還是數(shù)據(jù)的安全性和保密性,都做的很好。

數(shù)據(jù)的采集是挖掘數(shù)據(jù)價值的第一步,當數(shù)據(jù)量越來越大時,可提取出來的有用數(shù)據(jù)必然也就更多。只要善用數(shù)據(jù)化處理平臺,便能夠保證數(shù)據(jù)分析結果的有效性,助力企業(yè)實現(xiàn)數(shù)據(jù)驅動。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章