精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

科學理性撥開大數據的神秘外衣

責任編輯:jacky

2014-08-10 09:20:15

摘自:中國科技網-科技日報

—關于大數據的幾個重要觀點大數據產業鏈基本架構 同樣,大數據為云計算大規模與分布式的計算能力提供了應用的空間,解決了傳統計算機無法解決的問題,從而進一步明晰了云計算的價值。

大數據概念的升溫,引來了很多爭議。有人稱之為“新瓶裝舊酒”,也有人認為大數據的機遇被過于夸大。其實,這些都與沒有真正理解大數據的本質有關。任何事物的發展都有其客觀規律,大數據并非是“石頭里蹦出來的孫悟空”,它也有自己的“親生父母”——計算機科學和數據科學。正是由于兩者的融合,以及生命科學、地理科學甚至社會科學等各領域數據化程度的加深,才使得大數據擁有不同尋常的“基因”。而且,隨著互聯網產業的成熟,物聯網、云計算概念的落地,數據驅動創新觀念的深入人心,大數據的用武之地將更為廣泛,所能帶來的變革潛力也將不可限量。

關于大數據,有如下幾個重要判斷和觀點:

——大數據思維源于數據挖掘(Data Mining)又高于數據挖掘。也可以說,數據挖掘是大數據的“近親”。數據挖掘借助計算機從海量數據中發現隱含的知識和規律,是一門融合了計算機、統計等領域知識的交叉學科,其核心的人工智能、機器學習、模式識別等理論,在上世紀90年代推行知識管理時已有顯著進展。從本質上看,大數據帶來的“思維大變革”以及一些數據驅動類的商業智能(Business Intelligence)模式創新,都是數據挖掘理論的延伸,表達為“數據挖掘相對于數理統計帶來的思維變革”或許更加準確。比如,因果關系是數理統計中的重要內容,基于完善的數學理論,代表是回歸模型;而相關關系是數據挖掘中的重要內容,基于強大的機器運算能力,代表是神經網絡、決策樹算法,這使得人們不需要了解背后復雜的因果邏輯也可以獲得良好的分析和預測結果。但是,數據挖掘通常面向結構化數據。大數據則還涉及數據的采集、提取、轉化、存儲等,且必然要面對非結構化數據。

——大數據突破主要來自技術上的革新。表現在對多樣(Variety)、海量(Volume)、快速(Velocity)特征的“適應”和“運用”上。一是存儲數據從結構化向半結構化、非結構化拓展,如基于Web異構環境下的網頁、文檔、報表、多媒體等,導致了一批基于非結構化數據的專有挖掘算法的產生和發展。二是數據庫從關系型向非關系型、分布式拓展,關系型數據庫是以行和列的形式組織起來的結構化數據表,如Excel表格,缺點在于存儲容量小、數據擴展性和多樣性差,而新的非關系型、分布式數據庫可以彌補上述不足。三是數據處理從靜態向實時交互拓展,新的大規模分布式并行數據處理技術能夠實時處理社交媒體和物聯網應用產生的大量交互數據,有效應對多樣和海量帶來的復雜度和時效性要求。

——技術革新直接促成了價值(Value)的實現。得益于上述技術,數據挖掘理論獲得了呈幾何倍數增長的數據量和處理能力,原本很多無法驗證的設想和方法得以實現。比如,傳統商業智能(BI)分析有一個“集中”步驟,即在分析前需要對大量數據抽取和集中化,形成一個完整的數據倉庫,這個步驟往往成為BI分析全過程的能力瓶頸。而基于大數據分布式技術的BI分析無需“集中”,大大提升了敏捷度和智能水平,從而推動機器學習、語義處理等領域發生重大突破,直接促成了Mahout機器學習算法集、Siri語音助手等一批商用化產品的問世。

——價值實現的潛力主要體現在數據開放戰略和數據驅動范式上。在戰略層面,數據處理從封閉、斷點、靜態向開放、海量、實時的轉變,引發了社區、眾包、網格等新業態、新模式蓬勃發展,在此基礎上將推動機構數據開放和公眾共享運動的興起。在研究范式層面,科學研究出現從推理演繹驅動向數據驅動拓展的苗頭,如生物基因與健康等研發密集型產業開始向數據研究科學拓展,許多傳統的科學研究如歷史、文學等也開始嘗試運用數據分析技術。但上述重大變革目前尚未規模化實現,大數據現有技術水平的主要受益者仍然是互聯網產業和各類基于互聯網的商業模式。在信息基礎設施普及率、社會開放性以及與網絡智能交互技術的結合度沒有達到一定能級時,大數據的應用是有限的,達不到面向社會的“無所不能”。

——互聯網企業是當前大數據價值實現的推動者和直接受益者。由于互聯網的發展在帶動大數據概念興起的過程中起到了重要作用,因此多家知名互聯網企業順勢掌握了大數據相關核心技術,推出了關鍵產品和服務。如谷歌公司研發了大數據“三核心”——文件系統(Google File System)、處理算法(MapReduce)和分布式數據庫(BigTable),打造了全球大數據開發的主流框架和范式。雅虎基于谷歌的算法思想,改進了Hadoop開源框架,向廣大企業和創業者開放,推動產業生態系統的不斷壯大;亞馬遜、臉譜、推特等企業在此框架基礎上開發各類功能性工具,并以數據為消費產品改善用戶體驗;而微軟、IBM等傳統IT企業在產業鏈上更多關注下游應用,為各行業客戶提供系統解決方案。這些企業不僅可以從新技術產品和服務中獲得可觀的收入,還可以從占有的數據資源中獲利。

——大數據有助于進一步明晰云計算的價值。在云計算概念剛被提出的幾年里,許多政企行業用戶對其應用價值一直存在疑慮。而隨著大數據的異軍突起,云計算的價值又一次受到公眾的關注。由于云計算幫助解決了大數據無法進行抓取、管理和處理的問題,給予了它不同以往的存儲和計算能力,使得結果獲取更快速、分析更智慧??梢灶A見,在未來云計算將成為大數據應用分析最活躍的舞臺。同樣,大數據為云計算大規模與分布式的計算能力提供了應用的空間,解決了傳統計算機無法解決的問題,從而進一步明晰了云計算的價值。

——需警惕大數據至上主義。大數據支持者的一個重要論斷是:基于全量,大數據分析的準確性將超越傳統數理統計,因果關系將為相關關系所取代。而事實并非如此樂觀,一方面,經歷四百年發展的傳統數理統計沒有過時,仍然在經濟社會各方面發揮著重要作用。比如,抽樣是一門古老且成熟的統計方法,如果目標明確、方法科學,其在絕大多數情況下得出結論的正確性,并不遜于全量數據。客觀上看,全量的價值更多體現在一些傳統數理統計基本假設可能失效之處,如互聯網“長尾”現象的出現,導致正態分布、帕累托法則在個別領域不再適用,此時需要依靠全量數據尋求規律。另一方面,全量伴生的“噪音”有時會影響精準度。例如,被譽為大數據杰出案例的“谷歌流感趨勢”近期陷入低谷,錯誤率高達90%以上,不能預測甲型H1N1等重大疫情。它的核心邏輯是:搜索“流感”的人數與實際患癥的人數之間存在相關性,而事實上,即便去醫院看流感的人都有80%—90%實際沒有得流感,表面的網絡搜索行為與可靠的信息來源還存在較大差距以及“去噪”過程。很多專家認為,就目前而言,相關關系還不足以替代因果關系,而只是作為其補充。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 仙桃市| 南昌县| 黔西| 永善县| 晋江市| 北京市| 正蓝旗| 吴江市| 阿鲁科尔沁旗| 兴文县| 汉源县| 栾川县| 新竹市| 鹤山市| 海原县| 如东县| 宁乡县| 申扎县| 广平县| 镇赉县| 沾化县| 临朐县| 隆安县| 内乡县| 漳浦县| 宜昌市| 武陟县| 望江县| 丰镇市| 墨竹工卡县| 辽宁省| 临夏市| 西充县| 余干县| 乌鲁木齐市| 北川| 探索| 通道| 临沧市| 贡觉县| 天峻县|