域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過
安然事件(the Enron Incident),是指2001年發(fā)生在美國的安然(Enron)公司破產(chǎn)案。安然公司曾經(jīng)是世界上最大的能源、商品和服務(wù)公司之一,名列《財(cái)富》雜志“美國500強(qiáng)”的第七名。然而,2001年12月2日,安然公司突然向紐約破產(chǎn)法院申請(qǐng)破產(chǎn)保護(hù),該案成為美國歷史上第二大企業(yè)破產(chǎn)案。
美國聯(lián)邦調(diào)查局對(duì)此展開了美國歷史上最大的白領(lǐng)犯罪調(diào)查,包括約3000箱文件和4TB數(shù)據(jù)。數(shù)據(jù)中包括了大約60萬封安然公司高管之間交流的電子郵件。調(diào)查人員希望能從中發(fā)現(xiàn)這起復(fù)雜財(cái)務(wù)欺詐犯罪的有效線索,比如:安然公司內(nèi)部誰是決策者、誰能訪問大量公司內(nèi)部信息、以及對(duì)郵件內(nèi)容的非結(jié)構(gòu)化分析。
安然電子郵件數(shù)據(jù)集是由CALO項(xiàng)目組收集和準(zhǔn)備的。它包含大約150位用戶的數(shù)據(jù),大部分是安然公司的高級(jí)管理層。該數(shù)據(jù)集大約包含約50萬條消息。這些數(shù)據(jù)最初由聯(lián)邦能源監(jiān)管委員會(huì)在調(diào)查期間公布并發(fā)布到網(wǎng)絡(luò)上。該電子郵件數(shù)據(jù)集后來由麻省理工學(xué)院的Leslie Kaelbling購買,結(jié)果發(fā)現(xiàn)它存在一些完整性問題。SRI的一些研究者,特別是Melinda Gervasio,努力糾正這些存在的問題,正是由于他們的不懈努力,數(shù)據(jù)集才可用于有效的分析。這些公開的數(shù)據(jù)集不包括附件,并且某些敏感消息已被刪除,“因?yàn)槭芟嚓P(guān)員工的請(qǐng)求,作為編輯整理工作的一部分”。(來自網(wǎng)絡(luò))
電子郵件數(shù)據(jù),屬于“半結(jié)構(gòu)化”數(shù)據(jù)。它有結(jié)構(gòu),但是內(nèi)容又是非結(jié)構(gòu)化的文本。本文僅限于對(duì)結(jié)構(gòu)化部分進(jìn)行分析。非結(jié)構(gòu)化內(nèi)容分析可以使用智器云的火圖軟件,以后再分享。
最簡(jiǎn)單的建模思路就是人-人模型,A給B發(fā)了一封電子郵件。因?yàn)殡娮余]件有它的特殊性,它有收件人、抄送人、密送人等區(qū)別。如果要把這些關(guān)系表現(xiàn)出來,則可以使用智器云火眼金睛專業(yè)版的自有建模功能,如下圖所示:
為了盡可能把全部數(shù)據(jù)的關(guān)聯(lián)關(guān)系看清楚,快速了解宏觀態(tài)勢(shì)、發(fā)現(xiàn)異常情況、發(fā)現(xiàn)規(guī)律和模式,我們將數(shù)據(jù)導(dǎo)入智器云火眼金睛。由于數(shù)據(jù)集較大,我們選取了大約7000個(gè)高管的5萬條記錄。導(dǎo)入數(shù)據(jù)加后臺(tái)計(jì)算,總耗時(shí)約20秒。(筆記本配置:CPU i7 1.6GHZ, 16G內(nèi)存,Win10專業(yè)版)
記錄導(dǎo)入后,經(jīng)過合并,有7009個(gè)對(duì)象,11381條鏈接。圖形如下:
初步觀察,我們發(fā)現(xiàn):
·孤立點(diǎn)和自回路
有3對(duì)郵件和其他人都沒有交集。在這起白領(lǐng)欺詐案里,可能屬于無用信息;但在其它場(chǎng)景中,有可能就是一個(gè)需要多加關(guān)注的異常情況。比如這里面有個(gè)企業(yè)外部郵箱rjbaker@ttu.edu,值得關(guān)注。
有部分人自己給自己發(fā)郵件,也是屬于比較常見的。智器云火眼金睛中有專門應(yīng)對(duì)這種場(chǎng)景的特有功能,叫做自回路。
· 收發(fā)郵件最多的人
使用F11功能,找到收發(fā)郵件最多的人。這里把超過500的選中。(F11是火眼金睛的核心功能之一,建議大家多花點(diǎn)精力,把F11里面的功能了解清楚。)
很明顯,這幾個(gè)人屬于安然公司的核心人員或高管,因?yàn)榇蟛糠值氖虑槎家嬷麄兓蛘哒?qǐng)他們安排下去。
· 社會(huì)網(wǎng)絡(luò)分析(SNA)
社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis,SNA)是用于研究行動(dòng)者及其之間的關(guān)系的一套規(guī)范和方法,是一種定量的群體交互行為研究方法。它以數(shù)據(jù)挖掘?yàn)榛A(chǔ),采用可視化的圖以及社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的形式表示。運(yùn)用這種研究方法 可以建立社會(huì)關(guān)系模型、發(fā)現(xiàn)社群內(nèi)部行動(dòng)者之間的各種社會(huì)關(guān)系。
經(jīng)過火眼的計(jì)算可以得到如下結(jié)果:
(1)活躍程度
與上一節(jié)的總關(guān)聯(lián)數(shù)排序相同。
( 2)重要程度
不完全與總關(guān)聯(lián)數(shù)一致了。但可以看出,Sally Beck, Vince Kaminski依然很重要。
( 3)中心地位
也不完全與總關(guān)聯(lián)數(shù)一致??梢钥闯觯琒ally Beck, Vince Kaminski的中心地位也很重要。
根據(jù)我們分析的角度,可以選取不同的排序來進(jìn)行分析。
· 專題分析
隨著調(diào)查的深入,主要操縱者鋃鐺入獄,安然帝國轟然*。2002年,安然西海岸首席能源交易官Timothy Belden承認(rèn),當(dāng)時(shí)安然通過欺詐操縱了加州電力市場(chǎng),從中牟利超過10億美元。他也承認(rèn),安然在其他電力市場(chǎng)亦有操縱行為,包括德州2001年售電側(cè)開放前的試點(diǎn)項(xiàng)目。
我們通過F5功能搜索Belden,然后把他的第一層鏈接關(guān)系復(fù)制出來,如下圖:
由圖可見,幾位高管都和Timothy Belden有直接聯(lián)系。另外,有M.Belden屬于外部公司的郵件地址,具有深入挖掘的潛力。
將關(guān)聯(lián)關(guān)系圖,在火眼中直接轉(zhuǎn)為時(shí)序圖,非常方便。
在時(shí)序圖中,可以直接追蹤,某一封郵件隨時(shí)間的轉(zhuǎn)發(fā)路徑。
今年是安然事件20周年。用新的工具、新的思路、新的方法,把安然的電子郵件數(shù)據(jù)重新分析一遍,或許對(duì)當(dāng)下的工作更有一些指導(dǎo)意義;尤其在企業(yè)內(nèi)控、反舞弊、白領(lǐng)反欺詐等方面,更加有實(shí)際意義。作者:菩提
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!