毋庸置疑,大數據對我們時(shí)代的改變將越來(lái)越深刻。無(wú)論是IBM、CISCO這樣的老牌 IT 公司、還是在Hadoop生態(tài)圈中的專(zhuān)注于大數據的IT新秀,都在短短的幾年之內搶占了大數據產(chǎn)業(yè)鏈的各大環(huán)節。未來(lái)誰(shuí)能夠引領(lǐng)大數據技術(shù),中國制造商能否在大數據爆發(fā)性增長(cháng)來(lái)到時(shí)搶占到一席之地?未來(lái)制約大數據發(fā)展和應用的瓶頸又會(huì )是什么?
誰(shuí)將引領(lǐng)大數據?
通過(guò)對比分析目前IT企業(yè)在大數據領(lǐng)域的發(fā)展情況,以及對大數據行業(yè)專(zhuān)家的訪(fǎng)談,我們繪制了大數據發(fā)展的企業(yè)占位圖。
大數據按照信息處理環(huán)節可以分為數據采集、數據清理、數據存儲及管理、數據分析、數據顯化,以及產(chǎn)業(yè)應用等六個(gè)環(huán)節。而在各個(gè)環(huán)節中,已經(jīng)有不同的公司開(kāi)始在這里占位。
1、數據采集:Google、CISCO 這些傳統的IT公司早已經(jīng)開(kāi)始部署數據收集的工作。在中國,淘寶、騰訊、百度等公司已經(jīng)收集并存儲大量的用戶(hù)習慣及用戶(hù)消費行為數據。德勤預計,在未來(lái),會(huì )有更為專(zhuān)業(yè)的數據收集公司針對各行業(yè)的特定需求,專(zhuān)門(mén)設計行業(yè)數據收集系統。
2、數據清理:當大量龐雜無(wú)序的數據收集之后,如何將有用的數據篩選出來(lái),完成數據的清理工作并傳遞到下一環(huán)節,這是隨著(zhù)大數據產(chǎn)業(yè)分工的不斷細化而需求越來(lái)越高的環(huán)節。除了Intel等老牌IT企業(yè),Teradata、Informatica等專(zhuān)業(yè)的數據處理公司呈現了更大的活力。在中國,華傲數據等類(lèi)似廠(chǎng)商也開(kāi)始不斷涌現。德勤預計,在未來(lái),將會(huì )有大量的公司專(zhuān)注于數據清理。
3、數據存儲及管理:數據的存儲、管理是數據處理的兩個(gè)細分環(huán)節。這兩個(gè)細分環(huán)節之間的關(guān)系極為緊密。數據管理的方式?jīng)Q定了數據的存儲格式,而數據如何存儲又限制了數據分析的深度和廣度。由于相關(guān)性極高,通常由一個(gè)廠(chǎng)商統籌設計這兩個(gè)細分環(huán)節將為更為有效。從廠(chǎng)商占位角度來(lái)分析,IBM、Oracle等老牌的數據存儲提供商有明顯的既有優(yōu)勢,他們在原有的存儲業(yè)務(wù)之上進(jìn)行相應的深度拓展,輕松占據了較大的市場(chǎng)份額。而 Apache Software Foundation等新生公司,以開(kāi)源的戰略匯集了行業(yè)專(zhuān)精的智慧,成為大數據發(fā)展的領(lǐng)軍企業(yè)。
4、數據分析:傳統的數據處理公司SAS及SPSS在數據分析方面有明顯的優(yōu)勢。然而,基于開(kāi)源軟件基礎構架Hadoop的數據分析公司最近幾年呈現爆發(fā)性增長(cháng)。例如,成立于 2008 年的Cloudera公司,幫助企業(yè)管理和分析基于開(kāi)源Hadoop產(chǎn)品的數據。由于能夠幫助客戶(hù)完成定制化的數據分析需求,Cloudera擁有了如Expedia、摩根大通等大批的知名企業(yè)用戶(hù),僅僅五年時(shí)間,其市值估值已達到7億美元。
5、數據的解讀:將大數據的分析結果還原為具體的行業(yè)問(wèn)題。SAP、SAS等數據分析公司在其已有的業(yè)務(wù)之上加入行業(yè)知識成為此環(huán)節競爭的佼佼者。同時(shí),因大數據的發(fā)展而應運而生的wibidata等專(zhuān)業(yè)的數據還原公司也開(kāi)始蓬勃發(fā)展。
6、數據的顯化:這一環(huán)節中,大數據真正開(kāi)始幫助管理實(shí)踐。通過(guò)對數據的分析和具象化,將大數據能夠推導出的結論量化計算、同時(shí)應用到行業(yè)中去。這一環(huán)節需要行業(yè)專(zhuān)精人員,通過(guò)大數據給出的推論,結合行業(yè)的具體實(shí)踐制定出真正能夠改變行業(yè)現狀的計劃。
突破未來(lái)發(fā)展瓶頸
通過(guò)對大數據產(chǎn)業(yè)鏈的分析,我們可以看到,在大數據產(chǎn)業(yè)鏈的各個(gè)生產(chǎn)環(huán)節中,各大公司都已開(kāi)占位,隨著(zhù)高性能計算機、海量數據的存儲和管理的流程的不斷優(yōu)化,技術(shù)能夠解決的問(wèn)題終將不會(huì )成為問(wèn)題。我們認為,真正會(huì )制約或者成為大數據發(fā)展和應用瓶頸的有三個(gè)環(huán)節:
第一、數據收集和提取的合法性,數據隱私的保護和數據隱私應用之間的權衡。
任何企業(yè)或機構從人群中提取私人數據,用戶(hù)都有知情權,將用戶(hù)的隱私數據用于商業(yè)行為時(shí),都需要得到用戶(hù)的認可。然而,目前,中國乃至全世界對于用戶(hù)隱私應當如何保護、商業(yè)規則應當如何制定、觸犯用戶(hù)的隱私權應當如何懲治、法律規范應當如何制定等等一系列管理問(wèn)題都大大滯后于大數據的發(fā)展速度。
德勤認為,未來(lái)很多大數據業(yè)務(wù)在最初發(fā)展階段將會(huì )游走在灰色地帶,當商業(yè)運作初具規模并開(kāi)始對大批消費者和公司都產(chǎn)生影響之后,相關(guān)的法律法規以及市場(chǎng)規范才會(huì )被迫加速制定出來(lái)??梢灶A計的是,盡管大數據技術(shù)層面的應用可以無(wú)限廣闊,但是由于受到數據采集的限制,能夠用于商業(yè)應用、服務(wù)于人們的數據要遠遠小于理論上大數據能夠采集和處理的數據。數據源頭的采集受限將大大限制大數據的商業(yè)應用。
第二、大數據發(fā)揮協(xié)同效應需要產(chǎn)業(yè)鏈各個(gè)環(huán)節的企業(yè)達成競爭與合作的平衡。
大數據對基于其生態(tài)圈中的企業(yè)提出了更多的合作要求。如果沒(méi)有對整體產(chǎn)業(yè)鏈的宏觀(guān)把握,單個(gè)企業(yè)僅僅基于自己掌握的獨立數據,無(wú)法了解產(chǎn)業(yè)鏈各個(gè)環(huán)節數據之間的關(guān)系,對消費者做出的判斷和影響也十分有限。
在一些信息不對稱(chēng)比較明顯的行業(yè),例如銀行業(yè)以及保險業(yè),企業(yè)之間數據共享的需求更為迫切。例如,銀行業(yè)和保險業(yè)通常都需要建立一個(gè)行業(yè)共享的數據庫,讓其成員能夠了解到單個(gè)用戶(hù)的信用記錄,消除擔保方和消費者之間的信息不對稱(chēng),讓交易進(jìn)行的更為順利。然而,在很多情況下,這些需要共享信息的企業(yè)之間競爭和合作的關(guān)系同時(shí)存在,企業(yè)在共享數據之前,需要權衡利弊、避免在共享數據的同時(shí)喪失了其競爭優(yōu)勢。此外,當很多商家合作起來(lái),很容易形成賣(mài)家同盟而導致消費者利益受到損失,影響到競爭的公平性。
大數據最具有想象力的發(fā)展方向是將不同的行業(yè)的數據整合起來(lái),提供全方位立體的數據繪圖,力圖從系統的角度了解并重塑用戶(hù)需求。然而,交叉行業(yè)數據共享需要平衡太多企業(yè)的利益關(guān)系,如果沒(méi)有中立的第三方機構出面,協(xié)調所有參與企業(yè)之間的關(guān)系、制定數據共性及應用的規則,將大大限制大數據的用武之地。權威第三方中立機構的缺乏將制約大數據發(fā)揮出其最大的潛力。
第三、大數據結論的解讀和應用。
大數據可以從數據分析的層面上揭示各個(gè)變量之間可能的關(guān)聯(lián),但是數據層面上的關(guān)聯(lián)如何具象到行業(yè)實(shí)踐中?如何制定可執行方案應用大數據的結論?這些問(wèn)題要求執行者不但能夠解讀大數據,同時(shí)還需深諳行業(yè)發(fā)展各個(gè)要素之間的關(guān)聯(lián)。這一環(huán)節基于大數據技術(shù)的發(fā)展但又涉及到管理和執行等各方面因素。
在這一環(huán)節中,人的因素成為制勝關(guān)鍵。從技術(shù)角度,執行人需要理解大數據技術(shù),能夠解讀大數據分析的結論;從行業(yè)角度,執行人要非常了解行業(yè)各個(gè)生產(chǎn)環(huán)節的流程的關(guān)系、各要素之間的可能關(guān)聯(lián),并且將大數據得到的結論和行業(yè)的具體執行環(huán)節一一對應起來(lái);從管理的角度,執行人需要制定出可執行的解決問(wèn)題的方案,并且確保這一方案和管理流程沒(méi)有沖突,在解決問(wèn)題的同時(shí),沒(méi)有制造出新的問(wèn)題。這些需求,不但要求執行人深諳技術(shù),同時(shí)應當是一個(gè)卓越的管理者,有系統論的思維,能夠從復雜系統的角度關(guān)聯(lián)地看待大數據與行業(yè)的關(guān)系。此類(lèi)人才的稀缺性將制約大數據的發(fā)展。