大數據時代不是突然出現的,實際上過去的幾十年間,數學分析就已經涉獵金融行業了,諾貝爾經濟學獎獲得者哈里.馬克維茨、威廉.夏普、羅伯特.恩格爾就是利用計量經濟學知識和金融市場數據來建立數學模型,預測金融市場產品收益同風險波動的關系。大數據時代的出現簡單的講是海量數據同完美計算能力結合的結果。確切的說是移動互聯網、物聯網產生了海量的數據,大數據計算技術完美地解決了海量數據的收集、存儲、計算、分析的問題。大數據時代開啟人類社會利用數據價值的另一個時代。
大數據
首先來介紹一下大數據時代中新出現的數據類型:
1)過于一些記錄是以模擬形式方式存在的,或者以數據形式存在但是存貯在本地,不是公開數據資源,沒有開放給互聯網用戶,例如音樂、照片、視頻、監控錄像等影音資料。現在這些數據不但數據量巨大,并且共享到了互聯網上,面對所有互聯網用戶,其數量之大是前所未有。舉個例子Facebook每天有18億張照片上傳或被傳播,形成了海量的數據。
2)移動互聯網出現后,移動設備的很多傳感器收集了大量的用戶點擊行為數據,已知IPHONE有3個傳感器,三星有6個傳感器。它們每天產生了大量的點擊數據,這些數據被某些公司所有擁有,形成用戶大量行為數據。
3)電子地圖如高德、百度、Google地圖出現后,其產生了大量的數據流數據,這些數據不同于傳統數據,傳統數據代表一個屬性或一個度量值,但是這些地圖產生的流數據代表著一種行為、一種習慣,這些流數據經頻率分析后會產生巨大的商業價值。基于地圖產生的數據流是一種新型的數據類型,在過去是不存在的。
4)進入了社交網絡的年代后,互聯網行為主要由用戶參與創造,大量的互聯網用戶創造出海量的社交行為數據,這些數據是過去未曾出現的。其揭示了人們行為特點和生活習慣。
5)電商戶崛起產來了大量網上交易數據,包含支付數據,查詢行為,物流運輸、購買喜好,點擊順序,評價行為等,其是信息流和資金流數據。
6)傳統的互聯網入口轉向搜索引擎之后,用戶的搜索行為和提問行為聚集了海量數據。單位存儲價格的下降也為存儲這些數據提供了經濟上的可能。
我們所指的大數據不同與過去傳統的數據,其產生方式、存儲載體、訪問方式、表現形式、來源特點等都同傳統數據不同。大數據更接近于某個群體行為數據,它是全面的數據、準確的數據、有價值的數據。
一、大數據時代帶給我們的思考
1)大數據計算提高數據處理效率,增加人類認知盈余
大數據技術就像其他的技術革命一樣,是從效率提升入手。大數據技術平臺的出現提升了數據處理效率。其效率的提升是幾何級數增長的,過去需要幾天或更多時間處理的數據,現在可能在幾分鐘之內就會完成。大數據的高效計算能力,為人類節省了更多的時間。我們都知道效率提升是人類社會進步的典型標志,可以推斷大數據技術將帶領人類社會進入另外一個階段。通過大數據計算節省下來的時間,人們可以去消費,娛樂和創造。未來大數據計算將釋放人類社會巨大的產能,增加人類認知盈余,幫助人類更好地改造世界。
2)大數據通過全局的數據讓人類了解事物背后的真相
相對于過去的樣本代替全體的統計方法,大數據將使用全局的數據,其統計出來的結果更為精確,更接事物真相,幫助科學家了解事物背后的真相。大數據帶來的統計結果將糾正過去人們對事物錯誤的認識,影響過去人類行為、社會行為的結論,帶來全新的認知。有利于政府、企業、科學家對過去人類社會的各種歷史行為真正原因的了解,大數據統計將糾正樣本統計誤差,為統計結論不斷糾錯。大數據可以讓人類更加接近了解大自然,增加對自然災害原因的了解。
3)大數據有助于了解事物發展的客觀規律,利于科學決策
大數據收集了全局的數據,準確的數據,通過大數據計算統計出了解事物發展過程中的真相,通過數據分析出解人類社會的發展規律,自然界發展規律。利用大數據提供的分析結果來歸納和演繹出事物的發展規律,通過掌握事物發展規律來幫助人們進行科學決策,大數據時代的精準營銷就是典型的應用。
4)大數據提供了同事物的連接,客觀了解人類行為
在沒有大數據之前,我們了解人類行為的數據往往來源于一些被動的調查表格及滯后的統計數據。擁有了大數據技術之后,大量的傳感器如手機APP、攝像頭、分享的圖片和視頻等讓我們更加客觀的了解人類的行為。大數據技術連接了人類行為,通過大數據將人類的行為數據收集起來,經過一定的分析后來統計人類行為,幫助我們了解人類的行為。可以說大數據的一個重要作用就是將人類行為數據進行收集分析,了解人類行為特點,為數據價值的商業運用提供基礎資產
5)大數據改變過去的經驗思維,幫助人們建立數據思維
人類社會的發展一直都在依賴著數據,無論是各國文明的演化,農業的規劃,工業的發展,軍事戰役及政治事件等。但是出現大數據之后,我們將會面對著海量的數據,多種維度的數據、行為的數據、情緒的數據、實時的數據。這些數據是過去沒有了解到的,通過大數據計算和分析技術,人們將會得到不同的事物真相,不同的事物發展規律。依靠大數據提供的數據分析報告,人們將會發現決定一件事、判斷一件事、了解一件事不再變得困難。各國政府和企業將借助于大數據來了解民眾需求,拋棄過去的經驗思維和慣性思維,掌握客觀規律,跳出歷史預測未來的困境。
二、大數據的企業應用場景
大數據時代最有意義就是利用大數據及大數據技術創造價值,大數據的企業應用場景就是介紹大數據在行業的應用,體現大數據商業價值。大數據的應用場景會將提升企業對大數據的關注,鼓勵企業大數據產業中投入更多的資源,利用大數據這個工具,為人類社會造福。大數據的應用可以分為企業應用和政府應用,其關注點有所不同,我們分開介紹,先從大數據在企業應用開始談起。
1)醫療行業
醫療行業擁有大量的病例,病理報告,治愈方案,藥物報告等等。如果這些數據可以被整理和應用將會極大地幫助醫生和病人。我們面對的數目及種類眾多的病菌、病毒,以及腫瘤細胞,其都處于不斷的進化的過程中。在發現診斷疾病時,疾病的確診和治療方案的確定是最困難的。在未來,借助于大數據平臺我們可以收集不同病例和治療方案,以及病人的基本特征,可以建立針對疾病特點的數據庫。如果未來基因技術發展成熟,可以根據病人的基因序列特點進行分類,建立醫療行業的病人分類數據庫。在醫生診斷病人時可以參考病人的疾病特征、化驗報告和檢測報告,參考疾病數據庫來快速幫助病人確診,明確定位疾病。在制定治療方案時,醫生可以依據病人的基因特點,調取相似基因、年齡、人種、身體情況相同的有效治療方案,制定出適合病人的治療方案,幫助更多人及時進行治療。同時這些數據也有利于醫藥行業開發出更加有效的藥物和醫療器械。醫療行業的數據應用一直在進行,但是數據沒有打通,都是孤島數據,沒有辦法起大規模應用。未來需要將這些數據統一收集起來,納入統一的大數據平臺,為人類健康造福。政府和醫療行業是推動這一趨勢的重要動力。
2)生物技術
主要是指大數據技術在基因分析上的應用,通過大數據平臺人類可以將自身和生物體基因分析的結果進行記錄和存儲,利用建立基于大數據技術的基因數據庫。大數據技術將會加速基因技術的研究,快速幫助科學家進行模型的建立和基因組合模擬計算。基因技術是人類未來戰勝疾病的重要武器,借助于大數據技術的應用,人們將會加快自身基因和其它他生物的基因的研究進程。未來利用生物基因技術來改良農作物,利用基因技術來培養人類器官,利用基因技術來消滅害蟲都即將實現。
3)金融行業
大數據在金融行業應用范圍較廣,典型的案例有花旗銀行利用IBM沃森電腦為財富管理客戶推薦產品,美國銀行利用客戶點擊數據集為客戶提供特色服務,如有競爭的信用額度。,招商銀行利用客戶刷卡、存取款、電子銀行轉帳、微信評論等行為數據進行分析,每周給客戶發送針對性廣告信息,里面有顧客可能感興趣的產品和優惠信息。大數據在金融行業的應用可以總結為以下五個方面:
精準營銷:依據客戶消費習慣、地理位置、消費時間進行推薦
風險管控:依據客戶消費和現金流提供信用評級或融資支持,利用客戶社交行為記錄實施信用卡反欺詐
決策支持:利用抉策樹技術進抵押貸款管理,利用數據分析報告實施產業信貸風險控制
效率提升:利用金融行業全局數據了解業務運營薄弱點,利用大數據技術加快內部數據處理速度
產品設計:利用大數據計算技術為財富客戶推薦產品,利用客戶行為數據設計滿足客戶需求的金融產品
4)零售行業
零售行業大數據應用有兩個層面,一個層面是零售行業可以了解客戶消費喜好和趨勢,進行商品的精準營銷,降低營銷成本。另一層面是依據客戶購買產品,為客戶提供可能購買的其它產品,擴大銷售額,也屬于精準營銷范疇。另外零售行業可以通過大數據掌握未來消費趨勢,有利于熱銷商品的進貨管理和過季商品的處理。零售行業的數據對于產品生產廠家是非常寶貴的,零售商的數據信息將會有助于資源的有效利用,降低產能過剩,廠商依據零售商的信息按實際需求進行生產,減少不必要的生產浪費。
5)電商
電商是最早利用大數據進行精準營銷的行業,除了精準營銷,電商可以依據客戶消費習慣來提前為客戶備貨,并利用便利店作為貨物中轉點,在客戶下單15分鐘內將貨物送上門,提高客戶體驗。馬云的菜鳥網絡宣稱的24小時完成在中國境內的送貨,以及京的劉強東宣傳未來京東將在15分鐘完成送貨上門都是基于客戶消費習慣的大數據分析和預測。電商可以利用其交易數據和現金流數據,為其生態圈內的商戶提供基于現金流的小額貸款,電商業也可以將此數據提供給銀行,同銀行合作為中小企業提供信貸支持。由于電商的數據較為集中,數據量足夠大,數據種類較多,因此未來電商數據應用將會有更多的想象空間,包括預測流行趨勢,消費趨勢、地域消費特點、客戶消費習慣、各種消費行為的相關度、消費熱點、影響消費的重要因素等。依托大數據分析,電商的消費報告將有利于品牌公司產品設計,生產企業的庫存管理和計劃生產,物流企業的資源配制,生產資料提供方產能安排等等,有利于精細化社會化大生產,有利于精細化社會的出現。
6)農牧業
大數據在農業應用主要是指依據未來商業需求的預測來進行農牧產品生產,降低菜賤傷農的概率。同時大數據的分析將會更見精確預測未來的天氣氣候,幫助農牧民做好自然災害的預防工作。大數據同時也會幫助農民依據消費者消費習慣決定來增加哪些品種的種植,減少哪些品種農作物的生產,提高單位種植面積的產值,同時有助于快速銷售農產品,完成資金回流。牧民可以通過大數據分析來安排放牧范圍,有效利用牧場。漁民可以利用大數據安排休漁期、定位捕魚范圍等。
三、大數據的政府應用場景
大數據另外一個重要應用領域就是在政府。利用提供的全局的數據、準確的數據、高效的數據,政府可以實現精細化管理。政府過去一直都在利用數據來進行管理,但是過去由于沒有高效的數據處理平臺,造成了很多數據只是在收集,沒有體現其社會價值。由于缺少全局的數據和完善的數據,數據自身沒有體現其應用的價值,所以在過去政府不重視數據價值。依托于大數據和大數據技術,政府可以及時得到更加準確信息,利用這些信息,政府可以更加高效的管理國家這部機器,實現精細化資源配置和宏觀調控。
1)交通
交通的大數據應用主要在兩個方面,一方面可以利用大數據傳感器數據來了解車輛通行密度,合理進行道路規劃包括單行線路規劃。另一方面可以利用大活數據來實現即時信號燈調度,提高已有線路運行能力。科學的安排信號燈是一個復雜的系統工程,必須利用大數據計算平臺才能計算出一個較為合理的方案。科學的信號燈安排將會提高30%左右已有道路的通行能力。在美國,政府依據某一路段的交通事故信息來增設信號燈,降低了50%以上的交通事故率。機場的航班起降依靠大數據將會提高航班管理的效率,航空公司利用大數據可以提高上座率,降低運行成本。鐵路利用大數據可以有效安排客運和貨運列車,提高效率、降低成本。
2)天氣預報
借助于大數據技術,天氣預報的準確性和實效性將會大大提高,預報的及時性將會大大提升,同時對于重大自然災害,例如龍卷風,通過大數據計算平臺,人們將會更加精確地了解其運動軌跡和危害的等級,有利于幫助人們提高應對自然災害的能力。天氣預報的準確度的提升和預測周期的延長將會有利于農業生產的安排。
3)農牧業
由于農產品不容易保存,因此合理種植和養殖農產品對十分重要。如果沒有規劃好,容易產生菜賤傷農的悲劇。過去出現的豬肉過剩、卷心菜過剩、香蕉過剩的原因就是農牧業沒有規劃好。借助于大數據提供的消費趨勢報告和消費習慣報告,政府將為農牧業生產提供合理引導,建議依據需求進行生產,避免產能過剩,造成不必要的資源和社會財富浪費。農業關乎到國計民生,科學的規劃將有助于社會整體效率提升。大數據技術可以幫助政府實現農業的精細化管理,實現科學決策。在數據驅動下,結合無人機技術,農民可以采集農產品生長信息,病蟲害信息。相對于過去雇傭飛機成本將大大降低,同時精度也將大大提高。
4)醫藥衛生
食品安全問題直是國家的重點關注問題,關系大人們的身體健康和國家安全。最近幾年外國旅游者減少了到中國旅游,進口食品大幅度增加,食品安全問題是其中的一個重要原因。在數據驅動下,采集人們在互聯網上提供的舉報信息,國家可以掌握部分鄉村和城市的死角信息,挖出不法加工點,提高執法透明度,降低執法成本。國家可以參考醫院提供的就診信息,分析出涉及食品安全的信息,及時進行監督檢查,第一時間進行處理,降低已有不安全食品的危害。參考個體在互聯網的搜索信息,掌握流行疾病在某些區域和季節的爆發趨勢,及時進行干預,降低其流行危害。政府可以提供不安全食品廠商信息,不安全食品信息,幫助人們提高食品安全意識。
5)宏觀調控和財政支出
政府利用大數據技術可以了解各地區的經濟發展情況,各產業發展情況,消費支出和產品銷售情況,依據數據分析結果,科學地制定宏觀政策,平衡各產業發展,避免產能過剩,有效利用自然資源和社會資源,提高社會生產效率。大數據還還可以幫助政府進行監控自然資源的管理,無論是國土資源、水資源、礦產資源、能源等,大數據通過各種傳感器來提高其管理的精準度。同時大數據技術也能幫助政府進行支出管理,透明合理的財政支出將有利于提高公信力和監督財政支出。大數據及大數據技術帶給政府的不僅僅是效率提升、科學決策、精細管理,更重要的是數據治國、科學管理的意識改變,未來大數據將會從各個方面來幫助政府實施高效和精細化管理。政府運作效率的提升,決策的科學客觀,財政支出合理透明都將大大提升國家整體實力,成為國家競爭優勢。大數據帶個國家和社會的益處將會具有極大的想象空間。
6)社會群體自助及犯罪管理
國家正在將大數據技術用于輿情監控,其收集到的數據除了解民眾訴求,降低群體事件之外,還可以用于犯罪管理。大量的社會行為正逐步走向互聯網,人們更愿意借助于互聯網平臺來表述自己的想法和宣泄情緒。社交媒體和朋友圈正成為追蹤人們社會行為的平臺,正能量的東西有,負能量的東西也不少。一些好心人通過微博來幫助別人尋找走失的親人或提供可能被拐賣人口的信息,這些都是社會群體互助的例子。國家可以利用社交媒體分享的圖片和交流信息,來收集個體情緒信息,預防個體犯罪行為和反社會行為。最近警方通過微搏信息抓獲了聚眾吸毒的人,處罰了虐待小孩的家長。
四、大數據技術及廠商
由于本篇文章主要的目的是進行大數據知識普及,因此在大數據技術和平臺方面就不進行深入探討,主要介紹一些典型的大數據技術和行業解決方案,具體的大家可以參考趙剛老師的《大數據技術與應用實踐指南》,以及邁克爾.梅內里(MichaelMinelli)《大數據分析決生互連網金融時代》(BIGDATABIGANALYTICS)。以下內容主要來源于以上兩本書。
大數據技術必談的Hadoop和MapReduce.
Hadoop的最早創始人是DougCutting(曾經在雅虎公司工作,現在Cloudera工作)和MikeCafrella.他們當時在從事一個名為Nutch的開源項目,該項目主要致力于創建Web海量檢索框架,在研究過程中他們參考了google的MapReduce和GFS(GoogleFilesSystem)的技術,開發出Hadoop數據處理平臺。Hadoop的名稱來源于Doug的兒子為一只黃毛絨玩具長毛象取的名字。
Hadoop主要特點是,運行在標準硬件之上的Hadoop可以以傳統解決方案1/10的成本從海量的數分析分析復雜問題,可以勝任收搜索系統、登錄系統、推薦系統、數據倉庫、語音/圖像分析等。其是一個開源軟件,同傳統的技術不Hadoop能在它原有格式里存儲任意種類數據,并基于這些數據衍生一系列分析和變化。可以廉價的存儲百萬兆(Terabyte)甚至千萬億字節(Petabyte)數據。HDFS和MapReduece是其兩個關鍵要素。
HDFS將數據分成若干片段后分布存儲在集群中的不同服務器上。每臺服務器只存儲數據的若干片段,并且數據的每個片段被冗余存儲在多個服務器之上。分析工作可以在存儲數據的每個服務器上并行計算分析。每臺服務同時對自己存儲的數據片段進行分析并將結果范圍,最后在匯總計算為一個詳盡的分析結果,MapReduce就是這種收集和匯總分析結果代理。
主流的大數據廠商分為大數據分析基礎設施,大數據操作基礎設施,大數據基礎云服務,傳統結構化數據庫,商業智能,可視化領域等,下面將一一介紹。
1)大數據分析基礎設施
主要指Hadoop的發行版本產品,主要廠商有Cloudera,Hortonworks,MapR.其他還包括HP的Vertica,EMC的GreenplumHD,IBM的BigInsights
2)大數據操作基礎設施
主要是指企業級的NoSQL數據庫和SQLonHadoop產品。主要產品有Caouchbase,Hadapt,Teredata,Marklogic等
3)大數據基礎云服務(IAAS)
基于大數據基礎設施提供云服務的有AmazonWebServiceElasticMapReduce、GoogleBigQuery、Infochimps、MicrosoftWindowsAzure,阿里云等
4)關系型數據庫
關系型數據庫產品Oracle、MicrosoftSQLserver、SAPSybase、IBMDB2、MySQL、PostgreSAL,MemSQL等
5)數據云服務(DAAS)
DaaS的服務主要有WindowsAzureMarketplace、Datasift、SpaceCurve、Factual等
6)商業智能產品
BI產品主要有Oracle的Hyperion、SAPBusinessObjects,MicrosoftBusinessIntelligence、IBMCongnos,SAS,HP的Autonomy、QlikView等這些產品通常具有分析和可視化能力。
7)分析和可視化應用
主要產品有SAS,TeraDataAster,EMCGreenplum,TableauSoftware,Tibco等。
8)日志應用
主要產品有Splunk、Loggly、SumoLogic。其中Splunk是一個可運行于各種平臺的IT數據、日志分析軟件。
9)廣告/媒體應用
主要產品有MediaScience、BlucefinLaps、RocketFuelDataXu,RecordedFuture.其中RocketFuel是一家廣告優化公司,每天處理15億次品牌廣告展示,廣告效果完全基于數據來改善。
10)垂直應用
主要有PredictivePliciing、BloomReach,Myrrix,Atigeo.其中BloomReach公司面向市場開發大數據應用(BDA),通過機器學習,網絡爬蟲和搜索技術來挖掘數據,對網站的數據進行分析,然后為網站帶來更多的流量,從而給他們的客戶帶來更多的利潤。
國內的互聯網企業在大數據應用和研發方面處于較好的水平例如淘寶、百度、騰訊、新浪等。但是在大數據產品和技術服務領域卻落后于國際廠商。國際主流大數據產商包括Cloudera、Hortonworks、MapR,IBM,Oracle,EMC,Intel,SAP,Teredata。具體的解決方案請參考趙剛老師的書《大數據技術與應用實踐指南》
五、大數據產業鏈介紹
由于大數據及大數據技術是一個工具,無法像互聯網企業那樣形成一個大數據生態圈,形成閉環。但是從數據的收集,存貯,處理,分析,銷毀等方面分析,可以形成大數據產業鏈。
數據的收集
主要是指各種數據通過傳感器或其他方式被采集,大數據的的采集除了傳統的互連網入口、社交平臺、搜索引擎、電商交易數據、在線問答、企業業務數據外,移動互聯網的App將是一個重要的數據入口,例如通過手機APP內嵌的SDK將手機App上的用戶行為數據集中進行收集和處理,TalkingData目前是這一領域的領先的大數據廠商,他們既有大數據又有數據管理平臺DMP。攝像頭采集的數據、導航地圖的軌跡數據、物流信息、移動互聯網App的LBS位置數據等都大數據的重要來源。在這個階段主要是指擁有大數據的公司例如BAT,通訊行業、互聯網企業、物流行業、零售行業、醫療行業等,它們需要大數據采集和存儲產品。
數據的存儲
主要是指利用何種方式進行數據存貯,對于中小企業,云存儲是以個不錯的原則,對于金融行業和其他對數據保有權較為重視的企業,私有云將是一個不錯的選擇。政府主導的大數據存儲平臺可以作為參考。如果認為云平臺無法采用時,采用低端的并行計算機可能是一個經濟的方案,但是由于沒有云操作系統,其存儲的效率是個較大的挑戰。EMC、NetAPP、日立的NAS存儲可以考慮。SAN存儲由于成本過高,不建議用于大數據存儲,但是土豪除外。
數據處理
數據處理主要是指數據處理平臺,采用了SAAS概念的大數據處理平臺都可以考慮,企業在考慮處理平臺時建議,循序漸進,以未來2年內的數據處理量為參考,千萬不要一次投資到位,因為數據處理的技術發展是幾何級數的,兩年后采用新的技術平臺,其ROI將會大大降低,采用Cloudera,Hortonworks,MapR的Hadoop產品都可以,如果其在中國沒有成熟團隊建議考慮IBM,HP,Oracle的解決方案,他們的案例較多。
數據分析
主要是指如何對處理完的數據進行商業分析,業務需求和技術需求必須有本企業技術和商業人員主導,外部廠商很難了解企業自身的商業需求,但是數據展現形式和分析方式可以交給廠商來做,主要涉及的廠商是傳統的商業智能產品和可視化應用,包括Oracle的Hyperion、Teredata、SAPBusinessObjects,IBMCongnos,SAS,HP的Autonomy、QlikView等。
數據銷毀
主要是指數據如何進行安全管理,對于不再需要的數據如何進行銷毀,鑒于數據的數量較大,存儲需要重用,因此數據索引刪除、數據空間7次重寫,數據混淆、數據對稱加密等方式都可以用作數據銷毀,目前此階段市場需求不多,因此還沒有較為成熟的方案和廠商,未來將會用安全廠商進入此領域。
由于目前大數據產業的商業模式和盈利模式還在探索之中,大數據帶來的直接收益還沒有明確,目前主要的商業形式還是大數企業自身的大數據應用(例如,大數據計算平臺,大數據采集和分析,數據分析報告),行業應用處于一個探索的階段,在大數據較為集中的電信行業,并沒有成立數據事業部,數據被當作資產良好的保存起來,國外的大數據投資`在2005年就開始了,很多高科技企業已經大數產業鏈上投入巨資進行技術開發和行業應用。
六、大數據隱私保護
大數據的隱私和倫理已經爭論了很多年,由于其涉及我們每個人的自身利益,大數據隱私保護是大數據產業需要正面面對的問題。大數據在采集過程中必定會涉及到隱私數據,的收集,如果其保護的不好將會造成嚴重的后果,成為大數據產業發展的瓶頸。過度強調大數據的商業應用而忽視了大數據產業的隱私保護,將會產生災難性的后果,大數據產業的發展可能會因此被禁止。過度強調隱私保護而不發展大數據產業也是一個錯誤的選擇,人類可能會錯失一個高速發展的機遇。大數據產業發展要建立在隱私保護基礎之上,同時隱私保護也將通過適當約束來助推大數據產業的發展。
大數據企業在采集外部數據時,應該注意盡量不要收集可以識別出個人的PII信息,參照美國個人隱私定義者,PII信息包括姓名、地址、手機號碼、身份證號、駕駛證號、銀行帳號、借記卡/信用卡號。大數據企業在使用自身擁有的信息時也要注意保護敏感信息例如民族、政治意見、宗教信仰、健康/醫療信息,婚姻狀況、性生活、年齡、性別、犯罪記錄、個人喜好、標準IP地址等。
大數據企業應該在其公司的章程和文件中體現對個人隱私數據的保護,堅持遵守全球隱私保護7條原則;
1)知曉權(透明性):應該通知本人關于所收集信息的目的
2)選擇權:提供機會選擇或放棄所提供的個人信息是否被使用或如何被使用
3)同意權:再符合知曉權和選擇權的情況下才可以向第三方透露個人數據信息
4)安全權:采取負責的措施保護個人信息免受丟失、濫用、未授權獲取、泄露、篡改、毀壞的威脅
5)數據完整性:確保個人信息在最終用途、合理防護方面的可靠性,確保信息精確、完整、無誤。
6)可查詢:提供本人查詢個人信息的途徑
7)責任性:企業有責任遵守上述法則,并應確保合規的機制。
大數據企業面對的數據分為公開數據,授權數據,隱私數據。公開數據來源于公共媒體因此可以無須強調保護,授權數據來源于數據收集過程中,客戶對企業的授權,需要依據簽訂的協議使用范圍來使用,不能過越權進行數據轉讓和販賣,大數據企業僅能在簽署的授權范圍內部進行使用,企業在使用大數據時盡量使用分類數據、群體數據、趨勢數據、統計數據。不要使用針對個體的數據,同時在數據分析是需要注意關注隱私數據保護。大數據企業在利用隱私數據時將要特別注意對其的保護,即使在客戶授權的前提下,也要注意數據的使用場合和揭示方式,不要向外泄露受保護的PII信息。
大數據隱私保護應該從企業法律意識、國家法律法規、數據保護技術等幾個方面入手進行大數據隱私保護,其是大數據產業發展的一個重要前提,解決了大數據隱私保護問題才能打開大數據產業發展的空間,大數據產業發展才有明確的未來。
七、大數據的風險控制
任何一中事物出現后都會有其有利的一個方面,也有其不利的方面,片面的夸大了它的作用而不談它的弊端,這就是傳銷了。大數據和其他的新鮮事物一樣,它不是神,不可能天生沒有缺陷,不可能天生沒有風險,我們要正視大數據時代的弊端,在享受大數據時代的紅利時,希望能夠認清其弊端,不要成為數據的奴隸,不要成為Matrix的營養品。
大數據本質就像計算機和互聯網一樣是人類的工具,能有限地幫助人們但是不能代替人們思考和做決策。大數據不能幫助人類解決生理需要、情感溝通、心理安慰的問題,大數據只是一個提高效率和輔助人類決策的工具。
我們聊一聊如何控制大數據帶來的風險。
1)數據不能起到決定作用,僅應提供輔助決策。決策應來源于人類集體智慧和決策層,千萬不能讓數據或人工智能指揮一切。
2)數據報表不能代替人類思考,有些因素沒有辦法進行量化,有些因素數據報表無法提供信息,重大決定人類必需綜進行綜合考慮。
3)利用數據進行決策,應考慮其不良影響,顧及其他群體的利益,避免多數人暴政和少數精英獨斷專行。
4)有些領域不能過度依靠參考數據,還應該從尊重生命出發如食品安全管理問題等。
5)應建立數據分析和決策之間的防火墻,避免出現黑客帝國的場景。
大數據應用、大數據思維歸根到底還是商業思維的具體體現,同樣的大數據在不同的人眼里,會表現出不同的表現形式,同樣一組數據,通過不同的緯度看將會產生不同的商業結果。因此大數據僅是工具,其不能代替人類自身對社會的理解,以及人類社會自身的道德約束等。
八、中國的大數據之路任重而道遠
中國目前的大數據應用環境和技術相對于美國而言,在整體技術水平、應用環境、國民意識、商業環境、技術廠商、技術平臺上面相差超過5年左右。在大數據應用的國家戰略層面落后的也較多。
2012年3月,美國奧巴馬政府宣布推出“大數據的研究和發展計劃”。該計劃涉及美國國家科學基金、美國國家衛生研究院、美國能源部、美國國防部、美國國防部高級研究計劃局、美國地質勘探局等6個聯邦政府部門,承諾將投資兩億多美元,大力推動和改善與大數據相關的收集、組織和分析工具及技術,以推進從大量的、復雜的數據集合中獲取知識和洞見的能力。美國奧巴馬政府宣布投資大數據領域,是大數據從商業行為上升到國家戰略的分水嶺,表明大數據正式提升到戰略層面,大數據在經濟社會各個層面、各個領域都開始受到重視。
2014年從“兩會”的提案、議案看,很多人建議將大數據業務上升為國家戰略,互聯網領軍人物李彥宏在政協記者會上表示,政府應該把更多和人民生活有關的數據資料,公開地放到網絡上;雷軍則直接建議將大數據納入國家戰略,推動大數據切實地被用起來;科大訊飛劉慶峰建議國家建設聲紋數據庫進行大數據反恐。張近東、馬化騰、楊元慶的提案也與數據應用有著緊密聯系。但是在中國大數據國家戰略和大數據產業發展發面還沒有一個清晰的藍圖。
目前了解到的信息是上海政府計劃建設大數據產業園,通過政府自身投資來建立大數據平臺,吸引中小企業將信息系統及數據放到政府主導的數據平臺上,政府將利用此平臺來挖掘數據信息,提供數據信息報告。另外一個大數據應用是地方政府請一些大數據公司來開發輿情檢測系統,及時了解社會輿論。無論是大數據產業園還是輿情監控。我個人認為沒有抓住大數據優勢的核心,大數據產業園的管理機制和創新動力不足,無法發揮大數據計算的優勢,反而浪費了大量的投資,效率較低。輿情監控本身就無法發揮大數據的商業應用優勢,反而阻礙大數據產業的商業應用。我們應該提供大數據產業優惠政策,在資金、場地、稅收、科研方面提供外部支持,讓企業自身投入到大數據產業建設之中,從企業自身商業需求出發,投入資金來發展大數據產業。
IBM現已擁有全世界最先進的大數據和分析技術能力,其擁有400多位IBM數學家。2013年IBM就成功的申請了1500項大數據與分析的相關專利,自2005年開始對收購和研發投資達240億美元,2013年IBM大數據分析領域營收高達160億美金。美國的通用電氣公司投入了15億美金建立了軟件分析公司,雇用了400名數據科學家進行大數據產業研究。但是在中國除了我們熟知的BAT涉及大數據產業外,知名的大數據產業企業就非常少,市場機會巨大。北京騰云天下科技有限公司(TalkingData)是為數不多的大數據領先公司,其既有大數據又有大數據技術平臺,其目前是國內最大的第三方移動大數據平臺,旗下擁有眾多廣受歡迎的移動端數據統計、分析、監測產品。TalkingData與國內眾多應用分發平臺、渠道、廣告聯盟保持著緊密的合作關系,三年來積累了大量的移動互聯網用戶行為、興趣數據。中國銀聯、招商銀行、聚美優品等企業,正在使TalkingData提供的數據服務。
最后總結一下,大數據時代將會給人類社會帶來巨大變化,它是一個好的工具,就像計算機一樣,幫助人們提升社會生產效率,了解事物真相,認識客觀規律。重要的大數據可以幫助政府和企業進行科學決策,降低決策風險,加快進入智慧社會。