精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

概念,算法,應(yīng)用,迄今為止對大數(shù)據(jù)研究最透徹的文章

責(zé)任編輯:editor004 |來源:企業(yè)網(wǎng)D1Net  2014-11-05 14:46:42 本文摘自:北京弘基時(shí)代科技

一、 大數(shù)據(jù)基本概念

大數(shù)據(jù)Big Data是指大小超出了常用的軟件工具在運(yùn)行時(shí)間內(nèi)可以承受的收集,管理和處理數(shù)據(jù)能力的數(shù)據(jù)集;大數(shù)據(jù)是目前存儲模式與能力、計(jì)算模式與能力不能滿足存儲與處理現(xiàn)有數(shù)據(jù)集規(guī)模產(chǎn)生的相對概念。

大數(shù)據(jù)的預(yù)處理

主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。

(1)抽取:因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的。

(2)清洗:對于大數(shù)據(jù),并不全是有價(jià)值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),因此要對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)。

大數(shù)據(jù)帶來的數(shù)學(xué)問題

在數(shù)學(xué)上來看,計(jì)算機(jī)中存在不斷變大的數(shù)據(jù)集,不存在絕對的大數(shù)據(jù),計(jì)算機(jī)中的所有數(shù)據(jù)集都是有限集合。

大數(shù)據(jù)采樣——把大數(shù)據(jù)變小、找到與算法相適應(yīng)的極小樣本集、采樣對算法誤差的影響

大數(shù)據(jù)表示——表示決定存儲、表示影響算法效率

大數(shù)據(jù)不一致問題——導(dǎo)致算法失效和無解、如何消解不一致

大數(shù)據(jù)中的超高維問題——超高維導(dǎo)致數(shù)據(jù)稀疏、算法復(fù)雜度增加

大數(shù)據(jù)中的不確定維問題——多維度數(shù)據(jù)并存、按任務(wù)定維難

大數(shù)據(jù)中的不適定性問題——高維導(dǎo)致問題的解太多難以抉擇

大數(shù)據(jù)的特征

稠密與稀疏共存:局部稠密與全局稀疏

冗余與缺失并在:大量冗余與局部缺失

顯式與隱式均有:大量顯式與豐富隱式

靜態(tài)與動態(tài)忽現(xiàn):動態(tài)演進(jìn)與靜態(tài)關(guān)聯(lián)

多元與異質(zhì)共處:多元多變與異質(zhì)異性

量大與可用矛盾:量大低值與可用稀少

目前大數(shù)據(jù)的外延

大數(shù)據(jù)規(guī)模大小是一個(gè)不斷演化的指標(biāo):

當(dāng)前任務(wù)處理的單一的數(shù)據(jù)集,從數(shù)十TB到十幾PB級的數(shù)據(jù)規(guī)模(TB PB EB ZB)

處理大數(shù)據(jù)的可等待的合理時(shí)間依賴任務(wù)的目標(biāo):

地震數(shù)據(jù)預(yù)測要求在幾分鐘內(nèi)才有效、氣象數(shù)據(jù)應(yīng)該在小時(shí)級別、失聯(lián)飛機(jī)數(shù)據(jù)處理要在7天之內(nèi)、數(shù)據(jù)挖掘一般要求在12小時(shí)內(nèi)

二、 大數(shù)據(jù)悖論

大數(shù)據(jù)已被定義為科學(xué)探索的第四范式。繼幾千年前的實(shí)驗(yàn)科學(xué)、數(shù)百年前的理論科學(xué)和數(shù)十年前的計(jì)算科學(xué)之后,當(dāng)今的數(shù)據(jù)爆炸孕育了數(shù)據(jù)密集型科學(xué),將理論、實(shí)驗(yàn)和計(jì)算仿真等范式統(tǒng)一起來。大數(shù)據(jù)已被譽(yù)為“非競爭性”生產(chǎn)要素。大數(shù)據(jù)具有“取之不盡,用之不竭”的特性,在不斷的再利用、重組和擴(kuò)展中持續(xù)釋放其潛在價(jià)值,在廣泛的公開、共享中不斷創(chuàng)造著新的財(cái)富。根源在于,大數(shù)據(jù)的價(jià)值在于預(yù)測未知領(lǐng)域、非特定因素的未來趨勢,在于破解長期的、普遍的社會難題。而目前的大數(shù)據(jù)技術(shù)和應(yīng)用,依然局限于歷史和實(shí)時(shí)數(shù)據(jù)的關(guān)聯(lián)分析,局限于滿足短線的、特定的市場需求。解決悖論的過程,恰恰是理論和方法應(yīng)運(yùn)而生的過程。而人們試圖解決悖論的努力,正好是大數(shù)據(jù)落地生根的推動力。

  方法論缺位

自2008年《自然》雜志推出“大數(shù)據(jù)”??詠?,大數(shù)據(jù)概念就從學(xué)術(shù)大討論,轉(zhuǎn)向了企業(yè)的數(shù)字化轉(zhuǎn)型,進(jìn)而上升到“開放政府?dāng)?shù)據(jù)”的戰(zhàn)略布局。然而,單純的數(shù)量上的規(guī)模龐大,并不能輕易地將大數(shù)據(jù)與以往的“海量數(shù)據(jù)”、“超大規(guī)模數(shù)據(jù)”等區(qū)別開,因?yàn)槿呔鶝]有設(shè)置數(shù)量級等門檻。

方法論缺位是最大的障礙。大數(shù)據(jù)發(fā)展的核心動力源于人們測量、記錄和分析世界的渴望,滿足這些渴望需要數(shù)據(jù)、技術(shù)和思維三大要素。在計(jì)算技術(shù)、通信技術(shù)日益成熟的今天,在廉價(jià)的、便捷的數(shù)字化存儲普及的當(dāng)下,數(shù)據(jù)無處不在,技術(shù)正以標(biāo)準(zhǔn)化、商品化的方式提供,事實(shí)上思維和方法論才是決定大數(shù)據(jù)成敗的關(guān)鍵,但目前來看,跨越學(xué)術(shù)與產(chǎn)業(yè)、技術(shù)與應(yīng)用之間鴻溝的方法論依然不完善。

在社會難題中淘金

正如數(shù)學(xué)史上三次危機(jī)分別促成公理幾何的誕生、集合論的創(chuàng)立和現(xiàn)代數(shù)據(jù)的發(fā)展一樣,悖論是理論、技術(shù)和應(yīng)用進(jìn)步的巨大推動力。大數(shù)據(jù)悖論的解決,也將推動大數(shù)據(jù)應(yīng)用的普及和社會價(jià)值的釋放。經(jīng)過新聞媒體和學(xué)術(shù)會議的大肆宣傳之后,大數(shù)據(jù)技術(shù)趨勢一下子跌到谷底,許多數(shù)據(jù)創(chuàng)業(yè)公司變得岌岌可危……根據(jù)這條著名的Gartner技術(shù)成熟度曲線,大數(shù)據(jù)已經(jīng)走過了萌芽期和泡沫化的炒作期,并將在未來3~5年內(nèi)步入低谷期。

  市場中的鴻溝

大數(shù)據(jù)營銷模型將經(jīng)歷創(chuàng)新者、早期采用者、早期大眾、后期大眾和落后者等5個(gè)階段。這5個(gè)階段之間存在著4條裂縫,其中最大、最危險(xiǎn)的裂縫存在于早期市場與主流市場之間,我們稱之為“鴻溝”。

大數(shù)據(jù)的主流市場來源于實(shí)用主義的早期大眾和保守主義的后期大眾,兩者各自占據(jù)大數(shù)據(jù)市場1/3的份額。這兩個(gè)群組的共同特征是均具備良好的信息技術(shù)基礎(chǔ)和深厚的大數(shù)據(jù)積累,并深諳大數(shù)據(jù)的社會價(jià)值和經(jīng)濟(jì)價(jià)值。有所不同的是,前者希望看到成熟的解決方案和成功的應(yīng)用案例,它們大多是金融、能源、電信等公共服務(wù)部門。而后者需要有更安全可靠的大數(shù)據(jù)保障和廣泛的社會應(yīng)用基礎(chǔ),它們大多是致力于解決環(huán)境、能源和健康等社會問題的公共管理部門。

大數(shù)據(jù)技術(shù)和應(yīng)用獲得創(chuàng)新者的追捧是顯而易見的,獲得早期市場的擁護(hù)也是輕而易舉的。但是,不因“時(shí)髦”而加入,不因“過時(shí)”而退出,才能成為大數(shù)據(jù)主流市場的掘金者。遺憾的是,不少企業(yè)或許會成為“鴻溝中的犧牲者”,而無緣迎接大數(shù)據(jù)真正應(yīng)用市場的到來。

規(guī)劃整體產(chǎn)品

現(xiàn)代營銷奠基人之——西奧多·萊維特給出了“整體產(chǎn)品”的概念。根據(jù)這一概念,大數(shù)據(jù)產(chǎn)品應(yīng)該包括作為“核心吸引物”的一般產(chǎn)品、滿足初級心理需求的期望產(chǎn)品和實(shí)現(xiàn)更高階參與以及自我實(shí)現(xiàn)的延伸產(chǎn)品和潛在產(chǎn)品4個(gè)部分。

三、 大數(shù)據(jù)挑戰(zhàn)性問題

現(xiàn)有的數(shù)據(jù)中心技術(shù)很難滿足大數(shù)據(jù)的需求,需要考慮對整個(gè)IT架構(gòu)進(jìn)行革命性的重構(gòu)。而存儲能力的增長遠(yuǎn)遠(yuǎn)趕不上數(shù)據(jù)的增長,因此設(shè)計(jì)最合理的分層存儲架構(gòu)已成為IT系統(tǒng)的關(guān)鍵。數(shù)據(jù)的移動已成為IT系統(tǒng)最大的開銷,目前傳送大數(shù)據(jù)最高效也是最實(shí)用的方式是通過飛機(jī)或地面交通工具運(yùn)送磁盤而不是網(wǎng)絡(luò)通信。在大數(shù)據(jù)時(shí)代,IT系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),將計(jì)算推送給數(shù)據(jù),而不是將數(shù)據(jù)推送給計(jì)算。應(yīng)對處理大數(shù)據(jù)的各種技術(shù)挑戰(zhàn)中,以下幾個(gè)問題值得重視:

1、大數(shù)據(jù)對科學(xué)規(guī)范的挑戰(zhàn)

大數(shù)據(jù)帶來了新的科研范式

科研第四范式是思維方式的大變化,已故圖靈獎得主吉姆格雷提出的數(shù)據(jù)密集型科研“第四范式”,將大數(shù)據(jù)科研從第三范式中分離出來單獨(dú)作為一種科研范式,是因?yàn)槠溲芯糠绞讲煌诨跀?shù)據(jù)模型的傳統(tǒng)研究方式。PB級數(shù)據(jù)使我們可以做到?jīng)]有模型和假設(shè)就可以分析數(shù)據(jù)。將數(shù)據(jù)丟進(jìn)巨大的計(jì)算機(jī)機(jī)群中,只要有相關(guān)關(guān)系的數(shù)據(jù),統(tǒng)計(jì)分析算法可以發(fā)現(xiàn)過去的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識甚至新規(guī)律。

大數(shù)據(jù)如何應(yīng)用于開放的研究

大數(shù)據(jù)基于對海量數(shù)據(jù)的分析產(chǎn)生價(jià)值,那么如何獲得海量數(shù)據(jù)來讓大數(shù)據(jù)真正落地呢?這其中最不可或缺的一個(gè)環(huán)節(jié)就是數(shù)據(jù)開放。現(xiàn)在推進(jìn)數(shù)據(jù)開放更為重要的是通過數(shù)據(jù)的共享來產(chǎn)生更多的價(jià)值。數(shù)據(jù)開放能夠提高社會運(yùn)行效率,積極整合各方公開的數(shù)據(jù),建立基于大數(shù)據(jù)的城市規(guī)劃來緩解交通和社會治安問題。 數(shù)據(jù)開放能夠激發(fā)巨大的商業(yè)價(jià)值,數(shù)據(jù)開放是面向社會大眾的開放,任何人只要有能力都可以用它來創(chuàng)造新的商機(jī)。

加強(qiáng)數(shù)據(jù)開放,為大數(shù)據(jù)發(fā)展打牢基礎(chǔ)。在大數(shù)據(jù)應(yīng)用日益重要的今天,數(shù)據(jù)資源的開放共享已經(jīng)成為在數(shù)據(jù)大戰(zhàn)中保持優(yōu)勢的關(guān)鍵。促進(jìn)商業(yè)數(shù)據(jù)和個(gè)人數(shù)據(jù)的開放與共享。商業(yè)數(shù)據(jù)和個(gè)人數(shù)據(jù)的共享應(yīng)用,不僅能促進(jìn)相關(guān)產(chǎn)業(yè)的飛速發(fā)展,產(chǎn)生巨大的經(jīng)濟(jì)價(jià)值,也能給我們的生活帶來巨大的便利。經(jīng)常網(wǎng)購的人會有這樣一種體驗(yàn)。很多電商網(wǎng)站能夠在我們買書的時(shí)候,推薦我們剛好喜歡的其他書籍,這正是網(wǎng)站根據(jù)成千上萬甚至上億人的個(gè)人數(shù)據(jù)的統(tǒng)計(jì)分析而得出的,但是我們也感受到了這樣強(qiáng)大的數(shù)據(jù)分析能力對我們“隱私權(quán)”的沖擊。因此,完善個(gè)人隱私保護(hù)等相關(guān)立法,對哪些個(gè)人數(shù)據(jù)可以進(jìn)行商業(yè)化應(yīng)用、應(yīng)用范圍如何界定、數(shù)據(jù)濫用應(yīng)承擔(dān)哪些責(zé)任等具體問題做出規(guī)范,從而保證數(shù)據(jù)開放工作穩(wěn)步推進(jìn),為大數(shù)據(jù)發(fā)展應(yīng)用打好根基。

重現(xiàn)大數(shù)據(jù)研究結(jié)果

數(shù)據(jù)量的增大,會帶來規(guī)律的喪失和嚴(yán)重失真。維克托·邁爾-舍恩伯格在其著作《大數(shù)據(jù)的時(shí)代》中也指出“數(shù)據(jù)量的大幅增加會造成結(jié)果的不準(zhǔn)確,一些錯(cuò)誤的數(shù)據(jù)會混進(jìn)數(shù)據(jù)庫,”此外,大數(shù)據(jù)的另外一層定義,多樣性,即來源不同的各種信息混雜在一起會加大數(shù)據(jù)的混亂程度,統(tǒng)計(jì)學(xué)者和計(jì)算機(jī)科學(xué)家指出,巨量數(shù)據(jù)集和細(xì)顆粒度的測量會導(dǎo)致出現(xiàn)“錯(cuò)誤發(fā)現(xiàn)”的風(fēng)險(xiǎn)增加。大數(shù)據(jù)意味著更多的信息,但同時(shí)也意味著更多的虛假關(guān)系信息,海量數(shù)據(jù)帶來顯著性檢驗(yàn)的問題,將使我們很難找到真正的關(guān)聯(lián)。

我們以一個(gè)實(shí)際的案例來看一下樣本量不斷增大之后,會出現(xiàn)的問題:

上表是關(guān)于某年網(wǎng)絡(luò)游戲歷程擴(kuò)散的回歸分析,當(dāng)樣本量是5241個(gè)的時(shí)候,你會發(fā)現(xiàn)用一個(gè)簡單的線性回歸擬合這個(gè)數(shù)據(jù),年齡、文化程度、收入這三個(gè)變量顯著,當(dāng)我們把樣本量增加到10482個(gè)的時(shí)候,發(fā)現(xiàn)獨(dú)生子女和女性開始顯著,增加到20964個(gè)的時(shí)候,體制外這個(gè)變量也開始顯著,當(dāng)樣本增加到33萬的時(shí)候,所有變量都具有顯著性,這意味著世間萬物都是有聯(lián)系的。樣本大到一定程度的時(shí)候,很多結(jié)果自然就會變得顯著,會無法進(jìn)行推論,或者得出虛假的統(tǒng)計(jì)學(xué)關(guān)系。此外,斷裂數(shù)據(jù)、缺失數(shù)據(jù)(下文將會進(jìn)行分析)的存在將會使這種虛假關(guān)系隨著數(shù)據(jù)量的增長而增長,我們將很難再接觸到真相。

事實(shí)上,真實(shí)的規(guī)律是這樣的:

對一個(gè)社會現(xiàn)象進(jìn)行客觀深刻準(zhǔn)確的分析,對事物的理解需要數(shù)據(jù),但更需要分析思維,在大數(shù)據(jù)時(shí)代,理論并非不重要,而是變得更加重要。我們所指的理論也并非僵化一成不變的固守舊有理論,而是在處理問題的過程中意識到海量數(shù)據(jù)所帶來的復(fù)雜性,堅(jiān)持分析方法和理論的不斷創(chuàng)新。

大數(shù)據(jù)研究結(jié)果可信與否

《大數(shù)據(jù)時(shí)代》一書的作者維克托·邁爾-舍恩伯格說,大數(shù)據(jù)的核心就是預(yù)測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機(jī)器學(xué)習(xí)。他認(rèn)為,大數(shù)據(jù)大大解放了人們的分析能力。一是可以分析更多的數(shù)據(jù),甚至是相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)抽樣;二是研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度;三是不必拘泥于對因果關(guān)系的探究,而可以在相關(guān)關(guān)系中發(fā)現(xiàn)大數(shù)據(jù)的潛在價(jià)值。因此,當(dāng)人們可以放棄尋找因果關(guān)系的傳統(tǒng)偏好,開始挖掘相關(guān)關(guān)系的好處時(shí),一個(gè)用數(shù)據(jù)預(yù)測的時(shí)代才會到來。

不可否認(rèn),大數(shù)據(jù)標(biāo)志著人類在尋求量化和認(rèn)識世界的道路上前進(jìn)了一步。這是計(jì)算技術(shù)的進(jìn)步,是人類決策工具的進(jìn)步。改編自邁克爾·劉易斯的《魔球:逆境中制勝的智慧》的影片《點(diǎn)球成金》,講述了一個(gè)真實(shí)的故事,介紹了奧克蘭運(yùn)動家棒球隊(duì)總經(jīng)理比利·比恩的經(jīng)營哲學(xué),描述了他拋棄幾百年延續(xù)的選擇球員的慣常做法,采用了一種依靠電腦程序和數(shù)學(xué)模型分析比賽數(shù)據(jù)來選擇球員的方法。比利·比恩的成功稱得上是對球探們經(jīng)驗(yàn)決策的顛覆,是讓數(shù)據(jù)說話的成功范例。正如維克托·邁爾-舍恩伯格將大數(shù)據(jù)視為人工智能的一部分,視為機(jī)器學(xué)習(xí)的一種應(yīng)用一樣,數(shù)據(jù)決策和數(shù)據(jù)旁證的博弈其實(shí)是人和機(jī)器的博弈。即便是有一將難求的數(shù)據(jù)科學(xué)家的協(xié)助,大數(shù)據(jù)決策依然是輔助系統(tǒng)。

在這一階段,云計(jì)算是基礎(chǔ)設(shè)施,大數(shù)據(jù)是服務(wù)工具,兩者將滿足特定語境下的、短線的市場需求,更重要的是它們還能發(fā)揮其在非特定語境下破解社會難題的價(jià)值。換言之,大數(shù)據(jù)將演繹“信息轉(zhuǎn)化為數(shù)據(jù),數(shù)據(jù)集聚成知識,知識涌現(xiàn)出智慧”的進(jìn)程。

2、大數(shù)據(jù)帶來的社會問題

在基于社交媒體和數(shù)字化記憶的大數(shù)據(jù)時(shí)代,人們不僅擔(dān)心無處不在的“第三只眼”,而且擔(dān)心隱私被二次利用。因?yàn)?,亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,微博似乎什么都知道,包括我們的社交關(guān)系網(wǎng)……可怕的不是這些隱私數(shù)據(jù),而是大數(shù)據(jù)的全數(shù)據(jù)分析、模糊計(jì)算和重關(guān)聯(lián)卻不求因果的特性,讓隱私數(shù)據(jù)與社交網(wǎng)絡(luò)等關(guān)聯(lián)起來。按照維克托·邁爾-舍恩伯格的說法,危險(xiǎn)不再是隱私的泄漏,而是被預(yù)知的可能性——這些能夠預(yù)測我們可能生病、拖欠還款和犯罪的算法會讓我們無法購買保險(xiǎn),無法貸款,甚至實(shí)施犯罪前就被預(yù)先逮捕。

無論如何,大數(shù)據(jù)正在推動產(chǎn)權(quán)認(rèn)知和結(jié)構(gòu)的變革,以往IT產(chǎn)業(yè)鏈的主宰者或?qū)⒃谧兏镏性庥鰶_擊。大數(shù)據(jù)的魅力在于它能夠讓企業(yè)在無邊界的數(shù)據(jù)海洋里遨游,發(fā)現(xiàn)社會進(jìn)步的內(nèi)在韻律,捕捉社會發(fā)展的先行參數(shù)。比如從消費(fèi)者興趣圖譜中萃取研發(fā)創(chuàng)新智慧,而不局限于產(chǎn)品關(guān)聯(lián)性分析;比如對企業(yè)內(nèi)外部利益相關(guān)者群體智慧的發(fā)掘,開展企業(yè)和產(chǎn)業(yè)的健康診斷,而不局限于短效的精益管理;比如對地震等自然災(zāi)害的預(yù)警,構(gòu)架社會應(yīng)急機(jī)制……

3、大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)

抽樣分析+全數(shù)據(jù)驗(yàn)證的分析思路

增加樣本容易,降低算法復(fù)雜度難。維克托·邁爾·舍恩伯格在介紹大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析思維轉(zhuǎn)變時(shí)提到過三個(gè)觀點(diǎn),其中之一是:分析所有的數(shù)據(jù),而不再僅僅依靠一小部分?jǐn)?shù)據(jù)。全數(shù)據(jù)一時(shí)甚囂塵上,企業(yè)、研究者以為大數(shù)據(jù)就是全數(shù)據(jù),以至于再談抽樣都似乎帶有保守主義色彩,這種看法無疑是對大數(shù)據(jù)和抽樣二者都存在偏見和不足,如果認(rèn)為大數(shù)據(jù)就是收集所有樣本的信息,讓數(shù)據(jù)自己說話,那么在方法論上就是狹隘的。

這里也涉及了全數(shù)據(jù)的第二個(gè)問題全(暫且假定我們通過人們在谷歌上輸入搜索條目就找到了真正意義上的全:谷歌利用搜索記錄而預(yù)測到流感爆發(fā)的案例被廣為引用以說明數(shù)據(jù)自會說話,當(dāng)人們開始在網(wǎng)上搜索關(guān)于感冒的詞匯表明他感染了流感,建立流感與空間、病毒的關(guān)系,能夠成功的預(yù)測一場流感)數(shù)據(jù)確實(shí)能看到變化,通過變化作出“預(yù)測”,但無法解釋變化的影響因素,維克托·邁爾·舍恩伯格對此的回答是:我們要相關(guān)性,不要因果關(guān)系。這并非是這位作者有選擇的選擇,而是放棄抽樣而直接采用大數(shù)據(jù)的必然。

《文學(xué)文摘》依靠紙媒時(shí)代巨大的發(fā)行量獲得240萬民眾的數(shù)據(jù),而蓋洛普僅在嚴(yán)格抽樣基礎(chǔ)上研究了5000人,是“小數(shù)據(jù)”的復(fù)雜算法超過“大數(shù)據(jù)”的簡單算法的真實(shí)案例。

沒有抽樣的擬合,直接面對大數(shù)據(jù),將使我們失去對人的了解,對真實(shí)規(guī)律的追尋,畢竟不是所有的社會事實(shí)都一場流感一樣易于預(yù)測,況且即便是谷歌被廣為贊譽(yù)的流感預(yù)測案例也被認(rèn)為存在問題:在與傳統(tǒng)的流感監(jiān)測數(shù)據(jù)比較之后,根據(jù)互聯(lián)網(wǎng)流感搜索實(shí)時(shí)更新的Google流感趨勢被發(fā)現(xiàn)明顯高估了流感峰值水平??茖W(xué)家指出基于搜索有太多的噪音影響了它的精確度這表明基于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的流感跟蹤將不是替代而只能補(bǔ)充傳統(tǒng)的流行病監(jiān)測網(wǎng)絡(luò)。他們正在開發(fā)噪音較少的替代跟蹤方法,例如基于Twitter的流感跟蹤只包含真正病人的帖子,而不是轉(zhuǎn)載的流感新聞報(bào)道。

分析理解大數(shù)據(jù)——盲人摸象

數(shù)據(jù)是企業(yè)最重要的資產(chǎn),而且隨著數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,將會變得更有價(jià)值。但封閉的數(shù)據(jù)環(huán)境會阻礙數(shù)據(jù)價(jià)值的實(shí)現(xiàn),對企業(yè)應(yīng)用和研究發(fā)現(xiàn)來講都是如此,因此我們需要合理的機(jī)制在保護(hù)數(shù)據(jù)安全的情況下開放數(shù)據(jù),使數(shù)據(jù)得到充分利用。有效的解決辦法之一是公正的第三方數(shù)據(jù)分析公司、研究機(jī)構(gòu)作為中間商收集數(shù)據(jù)、分析數(shù)據(jù),在數(shù)據(jù)層面打破現(xiàn)實(shí)世界的界限,進(jìn)行多家公司的數(shù)據(jù)共享而不是一家公司盲人摸象,這才能實(shí)現(xiàn)真正意義上的大數(shù)據(jù),賦予數(shù)據(jù)更廣闊全面的分析空間,才會對產(chǎn)業(yè)結(jié)構(gòu)和數(shù)據(jù)分析本身產(chǎn)生思維轉(zhuǎn)變和有意義的變革。

4、大數(shù)據(jù)管理的挑戰(zhàn)

每一種非結(jié)構(gòu)化數(shù)據(jù)均可被視為大數(shù)據(jù)。這包括在社交網(wǎng)站上的數(shù)據(jù)、在線金融交易數(shù)據(jù)、公司記錄、氣象監(jiān)測數(shù)據(jù)、衛(wèi)星數(shù)據(jù)和其他監(jiān)控、研究和開發(fā)數(shù)據(jù)。大數(shù)據(jù)存儲與管理要用存儲器把采集到的數(shù)據(jù)存儲起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用。重點(diǎn)解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。主要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問題。開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲、計(jì)算融入存儲、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù),異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù),數(shù)據(jù)組織技術(shù),研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動、備份、復(fù)制等技術(shù);開發(fā)大數(shù)據(jù)可視化技術(shù)。

通過隔離管理大數(shù)據(jù)存儲

如果有多個(gè)存儲箱,那么將數(shù)據(jù)庫、線交易處理(OLTP)和微軟Exchange應(yīng)用到特定的存儲系統(tǒng)是個(gè)不錯(cuò)的選擇。其它存儲系統(tǒng)則用于大數(shù)據(jù)應(yīng)用如門戶網(wǎng)站,在線流媒體應(yīng)用等。

如果沒有存儲系統(tǒng),將特定的前端存儲端口到數(shù)據(jù)庫,OLTP等等;致力于大數(shù)據(jù)應(yīng)用到其他端口。背后的基本原理是使用專用端口,而大數(shù)據(jù)流量是以千字節(jié)或兆字節(jié)衡量,OLTP應(yīng)用流量是以每秒的輸入/輸出操作(IOPS)衡量,因?yàn)閿?shù)據(jù)塊的大小是比大數(shù)據(jù)更大而比OLTP應(yīng)用程序更小。OLTP應(yīng)用程序是CPU密集型的,而大數(shù)據(jù)應(yīng)用程序更多的使用前端端口。因此,更多的端口可以專注于大數(shù)據(jù)應(yīng)用。

專業(yè)的大數(shù)據(jù)存儲管理

兼容數(shù)據(jù)管理的存儲系統(tǒng)。如EMCIsilon的集群存儲系統(tǒng)對于大數(shù)據(jù)存儲管理是一個(gè)更好的選擇,因?yàn)樵谝粋€(gè)單一的文件系統(tǒng)中大數(shù)據(jù)能增長到多字節(jié)的數(shù)據(jù)。

大數(shù)據(jù)分析

除了存儲,大數(shù)據(jù)管理的另一項(xiàng)大的挑戰(zhàn)是數(shù)據(jù)分析。一般的數(shù)據(jù)分析應(yīng)用程序無法很好的處理大數(shù)據(jù),畢竟涉及到大量的數(shù)據(jù)。采用專門針對大數(shù)據(jù)的管理和分析的工具,這些應(yīng)用程序運(yùn)行在集群存儲系統(tǒng)上,緩解大數(shù)據(jù)的管理。管理大數(shù)據(jù)的另一個(gè)需要重點(diǎn)考慮的是未來的數(shù)據(jù)增長。你的大數(shù)據(jù)存儲管理系統(tǒng)應(yīng)該是可擴(kuò)展的,足以滿足未來的存儲需求。

大數(shù)據(jù)的存儲管理和云計(jì)算

目前正在尋找云計(jì)算服務(wù)來進(jìn)行存儲和管理海量數(shù)據(jù)。而選擇云服務(wù)來大型數(shù)據(jù)存儲管理,可以確保數(shù)據(jù)的所有權(quán)。有權(quán)選擇將數(shù)據(jù)移入或移出云服務(wù),而不被供應(yīng)商鎖定。

5、大數(shù)據(jù)挖掘挑戰(zhàn)

面臨的挑戰(zhàn)

(1)大數(shù)據(jù)集的挑戰(zhàn)

如下圖為數(shù)據(jù)到知識的演化過程示意圖:

  缺少大數(shù)據(jù)復(fù)雜度冗余度的度量方法

缺少確保近似算法精度分析方法

缺少根據(jù)分布知識對大數(shù)據(jù)進(jìn)行抽樣的方法

(2)數(shù)據(jù)復(fù)雜性挑戰(zhàn)

挖掘?qū)艽蟪潭鹊靥岣邤?shù)據(jù)分析的性能和靈活性。源于數(shù)據(jù)倉庫的數(shù) 據(jù)立方體計(jì)算技術(shù)和OLAP(在線分析處理)技術(shù)極大地提高了大型數(shù)據(jù)庫多維分析的性能。除了傳統(tǒng)的數(shù)據(jù)立方體技術(shù),近期的研究致力于構(gòu)建回歸立方體、預(yù)測立方體以及其他的面向統(tǒng)計(jì)的復(fù)雜數(shù)據(jù)立方體。這樣的多維或高維分析工具對分層多維數(shù)據(jù)的有效分析提供了保證。

(3)數(shù)據(jù)動態(tài)增長的挑戰(zhàn)

研究內(nèi)容

(1)研究分布式并行計(jì)算環(huán)境下的大數(shù)據(jù)大數(shù)據(jù)分析的基本策略

I.與數(shù)據(jù)分布相聯(lián)系的分治策略

II.與算法機(jī)理相結(jié)合的并行策略

(2)研究復(fù)雜度降精度可控的新的大數(shù)據(jù)分析算法

I.大數(shù)據(jù)分類、聚類、關(guān)聯(lián)分析、異常發(fā)現(xiàn)等

(3)大數(shù)據(jù)分析平臺研發(fā)

四、 大數(shù)據(jù)挖掘的算法

分類和預(yù)測是兩種分析數(shù)據(jù)的方法,它們可用于抽取能夠描述重要數(shù)據(jù)集合或預(yù)測未來數(shù)據(jù)趨勢的模型。分類方法用于預(yù)測數(shù)據(jù)對象的離散類別;而預(yù)測則用于預(yù)測數(shù)據(jù)對象的連續(xù)取值。許多分類和預(yù)測方法已被機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計(jì)學(xué)和神經(jīng)生物學(xué)等方麗的研究者提出,其中的大部分算法屬于駐留內(nèi)存算法,通常假定的數(shù)據(jù)量很小,最初的數(shù)據(jù)挖掘方法大多都是在這些方法及基于內(nèi)存基礎(chǔ)上所構(gòu)造的算法。目前數(shù)據(jù)挖掘方法都要求,目前的數(shù)據(jù)挖掘研究已經(jīng)在這些工作基礎(chǔ)之上得到了很大的改進(jìn),開發(fā)了具有基于外存以處理大規(guī)模數(shù)據(jù)集合能力的分類和預(yù)測技術(shù),這些技術(shù)結(jié)合了并行和分布處理的思想。

1、數(shù)據(jù)變小——分類算法

分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到摸個(gè)給定的類別中??梢詰?yīng)用到涉及到應(yīng)用分類、趨勢預(yù)測中,如淘寶商鋪將用戶在一段時(shí)間內(nèi)的購買情況劃分成不同的類,根據(jù)情況向用戶推薦關(guān)聯(lián)類的商品,從而增加商鋪的銷售量。

空間覆蓋算法-基于球鄰域的空間劃分

  空間覆蓋算法-仿生模式識別

  空間覆蓋算法-視覺分類方法

VCA把數(shù)據(jù)看作一幅圖像,核心是基于尺度空間理論,選擇合適的尺度使得同類樣本區(qū)域融合在一起。

  分類超曲面算法HSC

設(shè)訓(xùn)練樣本所在空間為一封閉維方體區(qū)域,將此區(qū)域按照一定細(xì)分規(guī)則劃分成若干小區(qū)域,使每個(gè)小區(qū)域只包含同一類樣本點(diǎn),并用樣本點(diǎn)的類別標(biāo)定該區(qū)域,合并相鄰?fù)悈^(qū)域邊界,獲得若干超平面片封閉組成的分類超曲面。輸入新樣本點(diǎn),根據(jù)分類判別定理判斷樣本點(diǎn)所在的類別。

特點(diǎn):

(1)通過特征區(qū)域細(xì)化直接解決非線性分類問題,不需要考慮使用何種函數(shù),不需要升維變換。

(2)通用可操作的分類超曲面構(gòu)造法,基于分類超曲面的方法通過區(qū)域合并計(jì)算獲得分類超曲面對空間進(jìn)行劃分

(3)獨(dú)特、簡便、易行的分類判別方法,基于分類超曲面的方法是基于Jordan定理的分類判斷算法,使得基于非凸的超曲面的分類判別變得簡便、易行。

2、極小覆蓋子集

覆蓋型分類算法的極小覆蓋子集——對特定的訓(xùn)練樣本集,若其子樣本集訓(xùn)練后得到的分類模型與與原樣本集訓(xùn)練后得到的分類模型相同,則稱子樣本集是原樣本集的一個(gè)覆蓋。在一個(gè)樣本集的所有覆蓋中,包含樣本個(gè)數(shù)最少的覆蓋稱為樣本集的極小覆蓋子集。

(1)計(jì)算極小覆蓋子集的基本步驟:

用一個(gè)方形區(qū)域覆蓋所有樣本點(diǎn);將該區(qū)域劃分成一系列小區(qū)域 (單元格),直到每個(gè)小區(qū)域內(nèi)包含的樣本點(diǎn)都屬于同一類別;將落在同一小區(qū)域內(nèi)的樣本點(diǎn)中選擇且僅選擇一個(gè)樣本構(gòu)成極小覆蓋子集。

(2)采樣受限于極小覆蓋子集

全樣本空間必然包含極小覆蓋子集,任意一個(gè)數(shù)據(jù)集未必包含完整的極小覆蓋子集。大數(shù)據(jù)環(huán)境下,極小覆蓋子集中的樣本更多地包含在大數(shù)據(jù)中,較多的數(shù)據(jù)可以戰(zhàn)勝較好的算法、再多的數(shù)據(jù)亦不會超過極小覆蓋子集的代表性、再好的提升手段亦不會超過極小覆蓋子集確定的精度。

3、回歸分析

回歸分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系。它可以應(yīng)用到對數(shù)據(jù)序列的預(yù)測及相關(guān)關(guān)系的研究中去。在市場營銷中,回歸分析可以被應(yīng)用到各個(gè)方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出預(yù)測并做出針對性的營銷改變。

4、聚類

聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。

5、關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過程主要包括兩個(gè)階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組;第二極端為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測客戶的需求,各銀行在自己的ATM 機(jī)上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應(yīng)信息來改善自身的營銷。

6、神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù),因其自身自行處理、分布存儲和高度容錯(cuò)等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴(yán)密的知識或數(shù)據(jù)為特征的處理問題,它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類:第一類是以用于分類預(yù)測和模式識別的前饋式神經(jīng)網(wǎng)絡(luò)模型,其主要代表為函數(shù)型網(wǎng)絡(luò)、感知機(jī);第二類是用于聯(lián)想記憶和優(yōu)化算法的反饋式神經(jīng)網(wǎng)絡(luò)模型,以Hopfield 的離散模型和連續(xù)模型為代表。第三類是用于聚類的自組織映射方法,以ART 模型為代表。雖然神經(jīng)網(wǎng)絡(luò)有多種模型及算法,但在特定領(lǐng)域的數(shù)據(jù)挖掘中使用何種模型及算法并沒有統(tǒng)一的規(guī)則,而且人們很難理解網(wǎng)絡(luò)的學(xué)習(xí)及決策過程。

7、Web數(shù)據(jù)挖掘

Web數(shù)據(jù)挖掘是一項(xiàng)綜合性技術(shù),指Web 從文檔結(jié)構(gòu)和使用的集合C 中發(fā)現(xiàn)隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么Web 挖掘過程就可以看做是從輸入到輸出的一個(gè)映射過程。

五、 大數(shù)據(jù)展望與應(yīng)用

大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經(jīng)濟(jì)活動提供依據(jù),從而提高各個(gè)領(lǐng)域的運(yùn)行效率,大大提高整個(gè)社會經(jīng)濟(jì)的集約化程度。根據(jù)ESM國際電子商情針大數(shù)據(jù)應(yīng)用現(xiàn)狀和趨勢的調(diào)查顯示:被調(diào)查者最關(guān)注的大數(shù)據(jù)技術(shù)中,排在前五位的分別是大數(shù)據(jù)分析(12.91%)、云數(shù)據(jù)庫(11.82%)、Hadoop(11.73%)、內(nèi)存數(shù)據(jù)庫(11.64%)以及數(shù)據(jù)安全(9.21%)。Hadoop已不再是人們心目中僅有的大數(shù)據(jù)技術(shù),而大數(shù)據(jù)分析成為最被關(guān)注的技術(shù)。從中可以看出,人們對大數(shù)據(jù)的了解已經(jīng)逐漸深入,關(guān)注的技術(shù)點(diǎn)也越來越多。既然大數(shù)據(jù)分析是最被關(guān)注的技術(shù)趨勢,那么大數(shù)據(jù)分析中的哪項(xiàng)功能是最重要的呢?從下圖可以看出,排在前三位的功能分別是實(shí)時(shí)分析(21.32%)、豐富的挖掘模型(17.97%)和可視化界面(15.91%)。從調(diào)查結(jié)果可以看出:在未來一兩年中有迫切部署大數(shù)據(jù)的需求,并且已經(jīng)從一開始的基礎(chǔ)設(shè)施建設(shè),逐漸發(fā)展為對大數(shù)據(jù)分析和整體大數(shù)據(jù)解決方案的需求。

大數(shù)據(jù)將重點(diǎn)應(yīng)用于以下幾大大領(lǐng)域:商業(yè)智能、政府決策、公共服務(wù)等。

行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石

IBM:IBM大數(shù)據(jù)提供的服務(wù)包括數(shù)據(jù)分析,文本分析,藍(lán)色云杉;業(yè)務(wù)事件處理;IBM Mashup Center的計(jì)量,監(jiān)測,和商業(yè)化服務(wù)(MMMS)。 IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的InfoSphere bigInsights,基于Apache Hadoop。 該產(chǎn)品組合包括:打包的Apache Hadoop的軟件和服務(wù),代號是bigInsights核心,用于開始大數(shù)據(jù)分析。軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關(guān)信息為金融,風(fēng)險(xiǎn)管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案 微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫綜合應(yīng)用部門) 合作目標(biāo)是開發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設(shè)備。

EMC:EMC 斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個(gè)產(chǎn)品。

Oracle:Oracle大數(shù)據(jù)機(jī)與Oracle Exalogic中間件云服務(wù)器、Oracle Exadata數(shù)據(jù)庫云服務(wù)器以及Oracle Exalytics商務(wù)智能云服務(wù)器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。

大數(shù)據(jù)促進(jìn)了政府職能變革

重視應(yīng)用大數(shù)據(jù)技術(shù),盤活各地云計(jì)算中心資產(chǎn):把原來大規(guī)模投資產(chǎn)業(yè)園、物聯(lián)網(wǎng)產(chǎn)業(yè)園從政績工程,改造成智慧工程;在安防領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提高應(yīng)急處置能力和安全防范能力;在民生領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提升服務(wù)能力和運(yùn)作效率,以及個(gè)性化的服務(wù),比如醫(yī)療、衛(wèi)生、教育等部門;解決在金融,電信領(lǐng)域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲能力和計(jì)算能力的限制,只局限在交易數(shù)型數(shù)據(jù)的統(tǒng)計(jì)分析。一方面大數(shù)據(jù)的應(yīng)用促進(jìn)了政府職能變革,另一方面政府投入將形成示范效應(yīng),大大推動大數(shù)據(jù)的發(fā)展。

打造“智慧城市”

通過收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,從中獲得知識和洞見,提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐,強(qiáng)化安全意識,轉(zhuǎn)變教育和學(xué)習(xí)模式。智慧城市是使用智能計(jì)算技術(shù)使得城市的關(guān)鍵基礎(chǔ)設(shè)施的組成和服務(wù)更智能、互聯(lián)和有效,隨著智慧城市的建設(shè),社會將步入“大數(shù)據(jù)”時(shí)代。

未來,改變一切

未來,企業(yè)會依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶。 數(shù)據(jù)的再利用:由于在信息價(jià)值鏈中的特殊位置,有些公司可能會收集到大量的數(shù)據(jù),但他們并不急需使用也不擅長再次利用這些數(shù)據(jù)。但當(dāng)它被一些發(fā)布個(gè)性化位置廣告服務(wù)和促銷活動的公司再次利用時(shí),則變得更有價(jià)值。

關(guān)鍵字:算法復(fù)雜度數(shù)據(jù)可視化技術(shù)

本文摘自:北京弘基時(shí)代科技

x 概念,算法,應(yīng)用,迄今為止對大數(shù)據(jù)研究最透徹的文章 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

概念,算法,應(yīng)用,迄今為止對大數(shù)據(jù)研究最透徹的文章

責(zé)任編輯:editor004 |來源:企業(yè)網(wǎng)D1Net  2014-11-05 14:46:42 本文摘自:北京弘基時(shí)代科技

一、 大數(shù)據(jù)基本概念

大數(shù)據(jù)Big Data是指大小超出了常用的軟件工具在運(yùn)行時(shí)間內(nèi)可以承受的收集,管理和處理數(shù)據(jù)能力的數(shù)據(jù)集;大數(shù)據(jù)是目前存儲模式與能力、計(jì)算模式與能力不能滿足存儲與處理現(xiàn)有數(shù)據(jù)集規(guī)模產(chǎn)生的相對概念。

大數(shù)據(jù)的預(yù)處理

主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。

(1)抽取:因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的。

(2)清洗:對于大數(shù)據(jù),并不全是有價(jià)值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),因此要對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)。

大數(shù)據(jù)帶來的數(shù)學(xué)問題

在數(shù)學(xué)上來看,計(jì)算機(jī)中存在不斷變大的數(shù)據(jù)集,不存在絕對的大數(shù)據(jù),計(jì)算機(jī)中的所有數(shù)據(jù)集都是有限集合。

大數(shù)據(jù)采樣——把大數(shù)據(jù)變小、找到與算法相適應(yīng)的極小樣本集、采樣對算法誤差的影響

大數(shù)據(jù)表示——表示決定存儲、表示影響算法效率

大數(shù)據(jù)不一致問題——導(dǎo)致算法失效和無解、如何消解不一致

大數(shù)據(jù)中的超高維問題——超高維導(dǎo)致數(shù)據(jù)稀疏、算法復(fù)雜度增加

大數(shù)據(jù)中的不確定維問題——多維度數(shù)據(jù)并存、按任務(wù)定維難

大數(shù)據(jù)中的不適定性問題——高維導(dǎo)致問題的解太多難以抉擇

大數(shù)據(jù)的特征

稠密與稀疏共存:局部稠密與全局稀疏

冗余與缺失并在:大量冗余與局部缺失

顯式與隱式均有:大量顯式與豐富隱式

靜態(tài)與動態(tài)忽現(xiàn):動態(tài)演進(jìn)與靜態(tài)關(guān)聯(lián)

多元與異質(zhì)共處:多元多變與異質(zhì)異性

量大與可用矛盾:量大低值與可用稀少

目前大數(shù)據(jù)的外延

大數(shù)據(jù)規(guī)模大小是一個(gè)不斷演化的指標(biāo):

當(dāng)前任務(wù)處理的單一的數(shù)據(jù)集,從數(shù)十TB到十幾PB級的數(shù)據(jù)規(guī)模(TB PB EB ZB)

處理大數(shù)據(jù)的可等待的合理時(shí)間依賴任務(wù)的目標(biāo):

地震數(shù)據(jù)預(yù)測要求在幾分鐘內(nèi)才有效、氣象數(shù)據(jù)應(yīng)該在小時(shí)級別、失聯(lián)飛機(jī)數(shù)據(jù)處理要在7天之內(nèi)、數(shù)據(jù)挖掘一般要求在12小時(shí)內(nèi)

二、 大數(shù)據(jù)悖論

大數(shù)據(jù)已被定義為科學(xué)探索的第四范式。繼幾千年前的實(shí)驗(yàn)科學(xué)、數(shù)百年前的理論科學(xué)和數(shù)十年前的計(jì)算科學(xué)之后,當(dāng)今的數(shù)據(jù)爆炸孕育了數(shù)據(jù)密集型科學(xué),將理論、實(shí)驗(yàn)和計(jì)算仿真等范式統(tǒng)一起來。大數(shù)據(jù)已被譽(yù)為“非競爭性”生產(chǎn)要素。大數(shù)據(jù)具有“取之不盡,用之不竭”的特性,在不斷的再利用、重組和擴(kuò)展中持續(xù)釋放其潛在價(jià)值,在廣泛的公開、共享中不斷創(chuàng)造著新的財(cái)富。根源在于,大數(shù)據(jù)的價(jià)值在于預(yù)測未知領(lǐng)域、非特定因素的未來趨勢,在于破解長期的、普遍的社會難題。而目前的大數(shù)據(jù)技術(shù)和應(yīng)用,依然局限于歷史和實(shí)時(shí)數(shù)據(jù)的關(guān)聯(lián)分析,局限于滿足短線的、特定的市場需求。解決悖論的過程,恰恰是理論和方法應(yīng)運(yùn)而生的過程。而人們試圖解決悖論的努力,正好是大數(shù)據(jù)落地生根的推動力。

  方法論缺位

自2008年《自然》雜志推出“大數(shù)據(jù)”??詠恚髷?shù)據(jù)概念就從學(xué)術(shù)大討論,轉(zhuǎn)向了企業(yè)的數(shù)字化轉(zhuǎn)型,進(jìn)而上升到“開放政府?dāng)?shù)據(jù)”的戰(zhàn)略布局。然而,單純的數(shù)量上的規(guī)模龐大,并不能輕易地將大數(shù)據(jù)與以往的“海量數(shù)據(jù)”、“超大規(guī)模數(shù)據(jù)”等區(qū)別開,因?yàn)槿呔鶝]有設(shè)置數(shù)量級等門檻。

方法論缺位是最大的障礙。大數(shù)據(jù)發(fā)展的核心動力源于人們測量、記錄和分析世界的渴望,滿足這些渴望需要數(shù)據(jù)、技術(shù)和思維三大要素。在計(jì)算技術(shù)、通信技術(shù)日益成熟的今天,在廉價(jià)的、便捷的數(shù)字化存儲普及的當(dāng)下,數(shù)據(jù)無處不在,技術(shù)正以標(biāo)準(zhǔn)化、商品化的方式提供,事實(shí)上思維和方法論才是決定大數(shù)據(jù)成敗的關(guān)鍵,但目前來看,跨越學(xué)術(shù)與產(chǎn)業(yè)、技術(shù)與應(yīng)用之間鴻溝的方法論依然不完善。

在社會難題中淘金

正如數(shù)學(xué)史上三次危機(jī)分別促成公理幾何的誕生、集合論的創(chuàng)立和現(xiàn)代數(shù)據(jù)的發(fā)展一樣,悖論是理論、技術(shù)和應(yīng)用進(jìn)步的巨大推動力。大數(shù)據(jù)悖論的解決,也將推動大數(shù)據(jù)應(yīng)用的普及和社會價(jià)值的釋放。經(jīng)過新聞媒體和學(xué)術(shù)會議的大肆宣傳之后,大數(shù)據(jù)技術(shù)趨勢一下子跌到谷底,許多數(shù)據(jù)創(chuàng)業(yè)公司變得岌岌可危……根據(jù)這條著名的Gartner技術(shù)成熟度曲線,大數(shù)據(jù)已經(jīng)走過了萌芽期和泡沫化的炒作期,并將在未來3~5年內(nèi)步入低谷期。

  市場中的鴻溝

大數(shù)據(jù)營銷模型將經(jīng)歷創(chuàng)新者、早期采用者、早期大眾、后期大眾和落后者等5個(gè)階段。這5個(gè)階段之間存在著4條裂縫,其中最大、最危險(xiǎn)的裂縫存在于早期市場與主流市場之間,我們稱之為“鴻溝”。

大數(shù)據(jù)的主流市場來源于實(shí)用主義的早期大眾和保守主義的后期大眾,兩者各自占據(jù)大數(shù)據(jù)市場1/3的份額。這兩個(gè)群組的共同特征是均具備良好的信息技術(shù)基礎(chǔ)和深厚的大數(shù)據(jù)積累,并深諳大數(shù)據(jù)的社會價(jià)值和經(jīng)濟(jì)價(jià)值。有所不同的是,前者希望看到成熟的解決方案和成功的應(yīng)用案例,它們大多是金融、能源、電信等公共服務(wù)部門。而后者需要有更安全可靠的大數(shù)據(jù)保障和廣泛的社會應(yīng)用基礎(chǔ),它們大多是致力于解決環(huán)境、能源和健康等社會問題的公共管理部門。

大數(shù)據(jù)技術(shù)和應(yīng)用獲得創(chuàng)新者的追捧是顯而易見的,獲得早期市場的擁護(hù)也是輕而易舉的。但是,不因“時(shí)髦”而加入,不因“過時(shí)”而退出,才能成為大數(shù)據(jù)主流市場的掘金者。遺憾的是,不少企業(yè)或許會成為“鴻溝中的犧牲者”,而無緣迎接大數(shù)據(jù)真正應(yīng)用市場的到來。

規(guī)劃整體產(chǎn)品

現(xiàn)代營銷奠基人之——西奧多·萊維特給出了“整體產(chǎn)品”的概念。根據(jù)這一概念,大數(shù)據(jù)產(chǎn)品應(yīng)該包括作為“核心吸引物”的一般產(chǎn)品、滿足初級心理需求的期望產(chǎn)品和實(shí)現(xiàn)更高階參與以及自我實(shí)現(xiàn)的延伸產(chǎn)品和潛在產(chǎn)品4個(gè)部分。

三、 大數(shù)據(jù)挑戰(zhàn)性問題

現(xiàn)有的數(shù)據(jù)中心技術(shù)很難滿足大數(shù)據(jù)的需求,需要考慮對整個(gè)IT架構(gòu)進(jìn)行革命性的重構(gòu)。而存儲能力的增長遠(yuǎn)遠(yuǎn)趕不上數(shù)據(jù)的增長,因此設(shè)計(jì)最合理的分層存儲架構(gòu)已成為IT系統(tǒng)的關(guān)鍵。數(shù)據(jù)的移動已成為IT系統(tǒng)最大的開銷,目前傳送大數(shù)據(jù)最高效也是最實(shí)用的方式是通過飛機(jī)或地面交通工具運(yùn)送磁盤而不是網(wǎng)絡(luò)通信。在大數(shù)據(jù)時(shí)代,IT系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),將計(jì)算推送給數(shù)據(jù),而不是將數(shù)據(jù)推送給計(jì)算。應(yīng)對處理大數(shù)據(jù)的各種技術(shù)挑戰(zhàn)中,以下幾個(gè)問題值得重視:

1、大數(shù)據(jù)對科學(xué)規(guī)范的挑戰(zhàn)

大數(shù)據(jù)帶來了新的科研范式

科研第四范式是思維方式的大變化,已故圖靈獎得主吉姆格雷提出的數(shù)據(jù)密集型科研“第四范式”,將大數(shù)據(jù)科研從第三范式中分離出來單獨(dú)作為一種科研范式,是因?yàn)槠溲芯糠绞讲煌诨跀?shù)據(jù)模型的傳統(tǒng)研究方式。PB級數(shù)據(jù)使我們可以做到?jīng)]有模型和假設(shè)就可以分析數(shù)據(jù)。將數(shù)據(jù)丟進(jìn)巨大的計(jì)算機(jī)機(jī)群中,只要有相關(guān)關(guān)系的數(shù)據(jù),統(tǒng)計(jì)分析算法可以發(fā)現(xiàn)過去的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識甚至新規(guī)律。

大數(shù)據(jù)如何應(yīng)用于開放的研究

大數(shù)據(jù)基于對海量數(shù)據(jù)的分析產(chǎn)生價(jià)值,那么如何獲得海量數(shù)據(jù)來讓大數(shù)據(jù)真正落地呢?這其中最不可或缺的一個(gè)環(huán)節(jié)就是數(shù)據(jù)開放。現(xiàn)在推進(jìn)數(shù)據(jù)開放更為重要的是通過數(shù)據(jù)的共享來產(chǎn)生更多的價(jià)值。數(shù)據(jù)開放能夠提高社會運(yùn)行效率,積極整合各方公開的數(shù)據(jù),建立基于大數(shù)據(jù)的城市規(guī)劃來緩解交通和社會治安問題。 數(shù)據(jù)開放能夠激發(fā)巨大的商業(yè)價(jià)值,數(shù)據(jù)開放是面向社會大眾的開放,任何人只要有能力都可以用它來創(chuàng)造新的商機(jī)。

加強(qiáng)數(shù)據(jù)開放,為大數(shù)據(jù)發(fā)展打牢基礎(chǔ)。在大數(shù)據(jù)應(yīng)用日益重要的今天,數(shù)據(jù)資源的開放共享已經(jīng)成為在數(shù)據(jù)大戰(zhàn)中保持優(yōu)勢的關(guān)鍵。促進(jìn)商業(yè)數(shù)據(jù)和個(gè)人數(shù)據(jù)的開放與共享。商業(yè)數(shù)據(jù)和個(gè)人數(shù)據(jù)的共享應(yīng)用,不僅能促進(jìn)相關(guān)產(chǎn)業(yè)的飛速發(fā)展,產(chǎn)生巨大的經(jīng)濟(jì)價(jià)值,也能給我們的生活帶來巨大的便利。經(jīng)常網(wǎng)購的人會有這樣一種體驗(yàn)。很多電商網(wǎng)站能夠在我們買書的時(shí)候,推薦我們剛好喜歡的其他書籍,這正是網(wǎng)站根據(jù)成千上萬甚至上億人的個(gè)人數(shù)據(jù)的統(tǒng)計(jì)分析而得出的,但是我們也感受到了這樣強(qiáng)大的數(shù)據(jù)分析能力對我們“隱私權(quán)”的沖擊。因此,完善個(gè)人隱私保護(hù)等相關(guān)立法,對哪些個(gè)人數(shù)據(jù)可以進(jìn)行商業(yè)化應(yīng)用、應(yīng)用范圍如何界定、數(shù)據(jù)濫用應(yīng)承擔(dān)哪些責(zé)任等具體問題做出規(guī)范,從而保證數(shù)據(jù)開放工作穩(wěn)步推進(jìn),為大數(shù)據(jù)發(fā)展應(yīng)用打好根基。

重現(xiàn)大數(shù)據(jù)研究結(jié)果

數(shù)據(jù)量的增大,會帶來規(guī)律的喪失和嚴(yán)重失真。維克托·邁爾-舍恩伯格在其著作《大數(shù)據(jù)的時(shí)代》中也指出“數(shù)據(jù)量的大幅增加會造成結(jié)果的不準(zhǔn)確,一些錯(cuò)誤的數(shù)據(jù)會混進(jìn)數(shù)據(jù)庫,”此外,大數(shù)據(jù)的另外一層定義,多樣性,即來源不同的各種信息混雜在一起會加大數(shù)據(jù)的混亂程度,統(tǒng)計(jì)學(xué)者和計(jì)算機(jī)科學(xué)家指出,巨量數(shù)據(jù)集和細(xì)顆粒度的測量會導(dǎo)致出現(xiàn)“錯(cuò)誤發(fā)現(xiàn)”的風(fēng)險(xiǎn)增加。大數(shù)據(jù)意味著更多的信息,但同時(shí)也意味著更多的虛假關(guān)系信息,海量數(shù)據(jù)帶來顯著性檢驗(yàn)的問題,將使我們很難找到真正的關(guān)聯(lián)。

我們以一個(gè)實(shí)際的案例來看一下樣本量不斷增大之后,會出現(xiàn)的問題:

上表是關(guān)于某年網(wǎng)絡(luò)游戲歷程擴(kuò)散的回歸分析,當(dāng)樣本量是5241個(gè)的時(shí)候,你會發(fā)現(xiàn)用一個(gè)簡單的線性回歸擬合這個(gè)數(shù)據(jù),年齡、文化程度、收入這三個(gè)變量顯著,當(dāng)我們把樣本量增加到10482個(gè)的時(shí)候,發(fā)現(xiàn)獨(dú)生子女和女性開始顯著,增加到20964個(gè)的時(shí)候,體制外這個(gè)變量也開始顯著,當(dāng)樣本增加到33萬的時(shí)候,所有變量都具有顯著性,這意味著世間萬物都是有聯(lián)系的。樣本大到一定程度的時(shí)候,很多結(jié)果自然就會變得顯著,會無法進(jìn)行推論,或者得出虛假的統(tǒng)計(jì)學(xué)關(guān)系。此外,斷裂數(shù)據(jù)、缺失數(shù)據(jù)(下文將會進(jìn)行分析)的存在將會使這種虛假關(guān)系隨著數(shù)據(jù)量的增長而增長,我們將很難再接觸到真相。

事實(shí)上,真實(shí)的規(guī)律是這樣的:

對一個(gè)社會現(xiàn)象進(jìn)行客觀深刻準(zhǔn)確的分析,對事物的理解需要數(shù)據(jù),但更需要分析思維,在大數(shù)據(jù)時(shí)代,理論并非不重要,而是變得更加重要。我們所指的理論也并非僵化一成不變的固守舊有理論,而是在處理問題的過程中意識到海量數(shù)據(jù)所帶來的復(fù)雜性,堅(jiān)持分析方法和理論的不斷創(chuàng)新。

大數(shù)據(jù)研究結(jié)果可信與否

《大數(shù)據(jù)時(shí)代》一書的作者維克托·邁爾-舍恩伯格說,大數(shù)據(jù)的核心就是預(yù)測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機(jī)器學(xué)習(xí)。他認(rèn)為,大數(shù)據(jù)大大解放了人們的分析能力。一是可以分析更多的數(shù)據(jù),甚至是相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)抽樣;二是研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度;三是不必拘泥于對因果關(guān)系的探究,而可以在相關(guān)關(guān)系中發(fā)現(xiàn)大數(shù)據(jù)的潛在價(jià)值。因此,當(dāng)人們可以放棄尋找因果關(guān)系的傳統(tǒng)偏好,開始挖掘相關(guān)關(guān)系的好處時(shí),一個(gè)用數(shù)據(jù)預(yù)測的時(shí)代才會到來。

不可否認(rèn),大數(shù)據(jù)標(biāo)志著人類在尋求量化和認(rèn)識世界的道路上前進(jìn)了一步。這是計(jì)算技術(shù)的進(jìn)步,是人類決策工具的進(jìn)步。改編自邁克爾·劉易斯的《魔球:逆境中制勝的智慧》的影片《點(diǎn)球成金》,講述了一個(gè)真實(shí)的故事,介紹了奧克蘭運(yùn)動家棒球隊(duì)總經(jīng)理比利·比恩的經(jīng)營哲學(xué),描述了他拋棄幾百年延續(xù)的選擇球員的慣常做法,采用了一種依靠電腦程序和數(shù)學(xué)模型分析比賽數(shù)據(jù)來選擇球員的方法。比利·比恩的成功稱得上是對球探們經(jīng)驗(yàn)決策的顛覆,是讓數(shù)據(jù)說話的成功范例。正如維克托·邁爾-舍恩伯格將大數(shù)據(jù)視為人工智能的一部分,視為機(jī)器學(xué)習(xí)的一種應(yīng)用一樣,數(shù)據(jù)決策和數(shù)據(jù)旁證的博弈其實(shí)是人和機(jī)器的博弈。即便是有一將難求的數(shù)據(jù)科學(xué)家的協(xié)助,大數(shù)據(jù)決策依然是輔助系統(tǒng)。

在這一階段,云計(jì)算是基礎(chǔ)設(shè)施,大數(shù)據(jù)是服務(wù)工具,兩者將滿足特定語境下的、短線的市場需求,更重要的是它們還能發(fā)揮其在非特定語境下破解社會難題的價(jià)值。換言之,大數(shù)據(jù)將演繹“信息轉(zhuǎn)化為數(shù)據(jù),數(shù)據(jù)集聚成知識,知識涌現(xiàn)出智慧”的進(jìn)程。

2、大數(shù)據(jù)帶來的社會問題

在基于社交媒體和數(shù)字化記憶的大數(shù)據(jù)時(shí)代,人們不僅擔(dān)心無處不在的“第三只眼”,而且擔(dān)心隱私被二次利用。因?yàn)?,亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,微博似乎什么都知道,包括我們的社交關(guān)系網(wǎng)……可怕的不是這些隱私數(shù)據(jù),而是大數(shù)據(jù)的全數(shù)據(jù)分析、模糊計(jì)算和重關(guān)聯(lián)卻不求因果的特性,讓隱私數(shù)據(jù)與社交網(wǎng)絡(luò)等關(guān)聯(lián)起來。按照維克托·邁爾-舍恩伯格的說法,危險(xiǎn)不再是隱私的泄漏,而是被預(yù)知的可能性——這些能夠預(yù)測我們可能生病、拖欠還款和犯罪的算法會讓我們無法購買保險(xiǎn),無法貸款,甚至實(shí)施犯罪前就被預(yù)先逮捕。

無論如何,大數(shù)據(jù)正在推動產(chǎn)權(quán)認(rèn)知和結(jié)構(gòu)的變革,以往IT產(chǎn)業(yè)鏈的主宰者或?qū)⒃谧兏镏性庥鰶_擊。大數(shù)據(jù)的魅力在于它能夠讓企業(yè)在無邊界的數(shù)據(jù)海洋里遨游,發(fā)現(xiàn)社會進(jìn)步的內(nèi)在韻律,捕捉社會發(fā)展的先行參數(shù)。比如從消費(fèi)者興趣圖譜中萃取研發(fā)創(chuàng)新智慧,而不局限于產(chǎn)品關(guān)聯(lián)性分析;比如對企業(yè)內(nèi)外部利益相關(guān)者群體智慧的發(fā)掘,開展企業(yè)和產(chǎn)業(yè)的健康診斷,而不局限于短效的精益管理;比如對地震等自然災(zāi)害的預(yù)警,構(gòu)架社會應(yīng)急機(jī)制……

3、大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)

抽樣分析+全數(shù)據(jù)驗(yàn)證的分析思路

增加樣本容易,降低算法復(fù)雜度難。維克托·邁爾·舍恩伯格在介紹大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析思維轉(zhuǎn)變時(shí)提到過三個(gè)觀點(diǎn),其中之一是:分析所有的數(shù)據(jù),而不再僅僅依靠一小部分?jǐn)?shù)據(jù)。全數(shù)據(jù)一時(shí)甚囂塵上,企業(yè)、研究者以為大數(shù)據(jù)就是全數(shù)據(jù),以至于再談抽樣都似乎帶有保守主義色彩,這種看法無疑是對大數(shù)據(jù)和抽樣二者都存在偏見和不足,如果認(rèn)為大數(shù)據(jù)就是收集所有樣本的信息,讓數(shù)據(jù)自己說話,那么在方法論上就是狹隘的。

這里也涉及了全數(shù)據(jù)的第二個(gè)問題全(暫且假定我們通過人們在谷歌上輸入搜索條目就找到了真正意義上的全:谷歌利用搜索記錄而預(yù)測到流感爆發(fā)的案例被廣為引用以說明數(shù)據(jù)自會說話,當(dāng)人們開始在網(wǎng)上搜索關(guān)于感冒的詞匯表明他感染了流感,建立流感與空間、病毒的關(guān)系,能夠成功的預(yù)測一場流感)數(shù)據(jù)確實(shí)能看到變化,通過變化作出“預(yù)測”,但無法解釋變化的影響因素,維克托·邁爾·舍恩伯格對此的回答是:我們要相關(guān)性,不要因果關(guān)系。這并非是這位作者有選擇的選擇,而是放棄抽樣而直接采用大數(shù)據(jù)的必然。

《文學(xué)文摘》依靠紙媒時(shí)代巨大的發(fā)行量獲得240萬民眾的數(shù)據(jù),而蓋洛普僅在嚴(yán)格抽樣基礎(chǔ)上研究了5000人,是“小數(shù)據(jù)”的復(fù)雜算法超過“大數(shù)據(jù)”的簡單算法的真實(shí)案例。

沒有抽樣的擬合,直接面對大數(shù)據(jù),將使我們失去對人的了解,對真實(shí)規(guī)律的追尋,畢竟不是所有的社會事實(shí)都一場流感一樣易于預(yù)測,況且即便是谷歌被廣為贊譽(yù)的流感預(yù)測案例也被認(rèn)為存在問題:在與傳統(tǒng)的流感監(jiān)測數(shù)據(jù)比較之后,根據(jù)互聯(lián)網(wǎng)流感搜索實(shí)時(shí)更新的Google流感趨勢被發(fā)現(xiàn)明顯高估了流感峰值水平??茖W(xué)家指出基于搜索有太多的噪音影響了它的精確度這表明基于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的流感跟蹤將不是替代而只能補(bǔ)充傳統(tǒng)的流行病監(jiān)測網(wǎng)絡(luò)。他們正在開發(fā)噪音較少的替代跟蹤方法,例如基于Twitter的流感跟蹤只包含真正病人的帖子,而不是轉(zhuǎn)載的流感新聞報(bào)道。

分析理解大數(shù)據(jù)——盲人摸象

數(shù)據(jù)是企業(yè)最重要的資產(chǎn),而且隨著數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,將會變得更有價(jià)值。但封閉的數(shù)據(jù)環(huán)境會阻礙數(shù)據(jù)價(jià)值的實(shí)現(xiàn),對企業(yè)應(yīng)用和研究發(fā)現(xiàn)來講都是如此,因此我們需要合理的機(jī)制在保護(hù)數(shù)據(jù)安全的情況下開放數(shù)據(jù),使數(shù)據(jù)得到充分利用。有效的解決辦法之一是公正的第三方數(shù)據(jù)分析公司、研究機(jī)構(gòu)作為中間商收集數(shù)據(jù)、分析數(shù)據(jù),在數(shù)據(jù)層面打破現(xiàn)實(shí)世界的界限,進(jìn)行多家公司的數(shù)據(jù)共享而不是一家公司盲人摸象,這才能實(shí)現(xiàn)真正意義上的大數(shù)據(jù),賦予數(shù)據(jù)更廣闊全面的分析空間,才會對產(chǎn)業(yè)結(jié)構(gòu)和數(shù)據(jù)分析本身產(chǎn)生思維轉(zhuǎn)變和有意義的變革。

4、大數(shù)據(jù)管理的挑戰(zhàn)

每一種非結(jié)構(gòu)化數(shù)據(jù)均可被視為大數(shù)據(jù)。這包括在社交網(wǎng)站上的數(shù)據(jù)、在線金融交易數(shù)據(jù)、公司記錄、氣象監(jiān)測數(shù)據(jù)、衛(wèi)星數(shù)據(jù)和其他監(jiān)控、研究和開發(fā)數(shù)據(jù)。大數(shù)據(jù)存儲與管理要用存儲器把采集到的數(shù)據(jù)存儲起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用。重點(diǎn)解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。主要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問題。開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲、計(jì)算融入存儲、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù),異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù),數(shù)據(jù)組織技術(shù),研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動、備份、復(fù)制等技術(shù);開發(fā)大數(shù)據(jù)可視化技術(shù)。

通過隔離管理大數(shù)據(jù)存儲

如果有多個(gè)存儲箱,那么將數(shù)據(jù)庫、線交易處理(OLTP)和微軟Exchange應(yīng)用到特定的存儲系統(tǒng)是個(gè)不錯(cuò)的選擇。其它存儲系統(tǒng)則用于大數(shù)據(jù)應(yīng)用如門戶網(wǎng)站,在線流媒體應(yīng)用等。

如果沒有存儲系統(tǒng),將特定的前端存儲端口到數(shù)據(jù)庫,OLTP等等;致力于大數(shù)據(jù)應(yīng)用到其他端口。背后的基本原理是使用專用端口,而大數(shù)據(jù)流量是以千字節(jié)或兆字節(jié)衡量,OLTP應(yīng)用流量是以每秒的輸入/輸出操作(IOPS)衡量,因?yàn)閿?shù)據(jù)塊的大小是比大數(shù)據(jù)更大而比OLTP應(yīng)用程序更小。OLTP應(yīng)用程序是CPU密集型的,而大數(shù)據(jù)應(yīng)用程序更多的使用前端端口。因此,更多的端口可以專注于大數(shù)據(jù)應(yīng)用。

專業(yè)的大數(shù)據(jù)存儲管理

兼容數(shù)據(jù)管理的存儲系統(tǒng)。如EMCIsilon的集群存儲系統(tǒng)對于大數(shù)據(jù)存儲管理是一個(gè)更好的選擇,因?yàn)樵谝粋€(gè)單一的文件系統(tǒng)中大數(shù)據(jù)能增長到多字節(jié)的數(shù)據(jù)。

大數(shù)據(jù)分析

除了存儲,大數(shù)據(jù)管理的另一項(xiàng)大的挑戰(zhàn)是數(shù)據(jù)分析。一般的數(shù)據(jù)分析應(yīng)用程序無法很好的處理大數(shù)據(jù),畢竟涉及到大量的數(shù)據(jù)。采用專門針對大數(shù)據(jù)的管理和分析的工具,這些應(yīng)用程序運(yùn)行在集群存儲系統(tǒng)上,緩解大數(shù)據(jù)的管理。管理大數(shù)據(jù)的另一個(gè)需要重點(diǎn)考慮的是未來的數(shù)據(jù)增長。你的大數(shù)據(jù)存儲管理系統(tǒng)應(yīng)該是可擴(kuò)展的,足以滿足未來的存儲需求。

大數(shù)據(jù)的存儲管理和云計(jì)算

目前正在尋找云計(jì)算服務(wù)來進(jìn)行存儲和管理海量數(shù)據(jù)。而選擇云服務(wù)來大型數(shù)據(jù)存儲管理,可以確保數(shù)據(jù)的所有權(quán)。有權(quán)選擇將數(shù)據(jù)移入或移出云服務(wù),而不被供應(yīng)商鎖定。

5、大數(shù)據(jù)挖掘挑戰(zhàn)

面臨的挑戰(zhàn)

(1)大數(shù)據(jù)集的挑戰(zhàn)

如下圖為數(shù)據(jù)到知識的演化過程示意圖:

  缺少大數(shù)據(jù)復(fù)雜度冗余度的度量方法

缺少確保近似算法精度分析方法

缺少根據(jù)分布知識對大數(shù)據(jù)進(jìn)行抽樣的方法

(2)數(shù)據(jù)復(fù)雜性挑戰(zhàn)

挖掘?qū)艽蟪潭鹊靥岣邤?shù)據(jù)分析的性能和靈活性。源于數(shù)據(jù)倉庫的數(shù) 據(jù)立方體計(jì)算技術(shù)和OLAP(在線分析處理)技術(shù)極大地提高了大型數(shù)據(jù)庫多維分析的性能。除了傳統(tǒng)的數(shù)據(jù)立方體技術(shù),近期的研究致力于構(gòu)建回歸立方體、預(yù)測立方體以及其他的面向統(tǒng)計(jì)的復(fù)雜數(shù)據(jù)立方體。這樣的多維或高維分析工具對分層多維數(shù)據(jù)的有效分析提供了保證。

(3)數(shù)據(jù)動態(tài)增長的挑戰(zhàn)

研究內(nèi)容

(1)研究分布式并行計(jì)算環(huán)境下的大數(shù)據(jù)大數(shù)據(jù)分析的基本策略

I.與數(shù)據(jù)分布相聯(lián)系的分治策略

II.與算法機(jī)理相結(jié)合的并行策略

(2)研究復(fù)雜度降精度可控的新的大數(shù)據(jù)分析算法

I.大數(shù)據(jù)分類、聚類、關(guān)聯(lián)分析、異常發(fā)現(xiàn)等

(3)大數(shù)據(jù)分析平臺研發(fā)

四、 大數(shù)據(jù)挖掘的算法

分類和預(yù)測是兩種分析數(shù)據(jù)的方法,它們可用于抽取能夠描述重要數(shù)據(jù)集合或預(yù)測未來數(shù)據(jù)趨勢的模型。分類方法用于預(yù)測數(shù)據(jù)對象的離散類別;而預(yù)測則用于預(yù)測數(shù)據(jù)對象的連續(xù)取值。許多分類和預(yù)測方法已被機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計(jì)學(xué)和神經(jīng)生物學(xué)等方麗的研究者提出,其中的大部分算法屬于駐留內(nèi)存算法,通常假定的數(shù)據(jù)量很小,最初的數(shù)據(jù)挖掘方法大多都是在這些方法及基于內(nèi)存基礎(chǔ)上所構(gòu)造的算法。目前數(shù)據(jù)挖掘方法都要求,目前的數(shù)據(jù)挖掘研究已經(jīng)在這些工作基礎(chǔ)之上得到了很大的改進(jìn),開發(fā)了具有基于外存以處理大規(guī)模數(shù)據(jù)集合能力的分類和預(yù)測技術(shù),這些技術(shù)結(jié)合了并行和分布處理的思想。

1、數(shù)據(jù)變小——分類算法

分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到摸個(gè)給定的類別中??梢詰?yīng)用到涉及到應(yīng)用分類、趨勢預(yù)測中,如淘寶商鋪將用戶在一段時(shí)間內(nèi)的購買情況劃分成不同的類,根據(jù)情況向用戶推薦關(guān)聯(lián)類的商品,從而增加商鋪的銷售量。

空間覆蓋算法-基于球鄰域的空間劃分

  空間覆蓋算法-仿生模式識別

  空間覆蓋算法-視覺分類方法

VCA把數(shù)據(jù)看作一幅圖像,核心是基于尺度空間理論,選擇合適的尺度使得同類樣本區(qū)域融合在一起。

  分類超曲面算法HSC

設(shè)訓(xùn)練樣本所在空間為一封閉維方體區(qū)域,將此區(qū)域按照一定細(xì)分規(guī)則劃分成若干小區(qū)域,使每個(gè)小區(qū)域只包含同一類樣本點(diǎn),并用樣本點(diǎn)的類別標(biāo)定該區(qū)域,合并相鄰?fù)悈^(qū)域邊界,獲得若干超平面片封閉組成的分類超曲面。輸入新樣本點(diǎn),根據(jù)分類判別定理判斷樣本點(diǎn)所在的類別。

特點(diǎn):

(1)通過特征區(qū)域細(xì)化直接解決非線性分類問題,不需要考慮使用何種函數(shù),不需要升維變換。

(2)通用可操作的分類超曲面構(gòu)造法,基于分類超曲面的方法通過區(qū)域合并計(jì)算獲得分類超曲面對空間進(jìn)行劃分

(3)獨(dú)特、簡便、易行的分類判別方法,基于分類超曲面的方法是基于Jordan定理的分類判斷算法,使得基于非凸的超曲面的分類判別變得簡便、易行。

2、極小覆蓋子集

覆蓋型分類算法的極小覆蓋子集——對特定的訓(xùn)練樣本集,若其子樣本集訓(xùn)練后得到的分類模型與與原樣本集訓(xùn)練后得到的分類模型相同,則稱子樣本集是原樣本集的一個(gè)覆蓋。在一個(gè)樣本集的所有覆蓋中,包含樣本個(gè)數(shù)最少的覆蓋稱為樣本集的極小覆蓋子集。

(1)計(jì)算極小覆蓋子集的基本步驟:

用一個(gè)方形區(qū)域覆蓋所有樣本點(diǎn);將該區(qū)域劃分成一系列小區(qū)域 (單元格),直到每個(gè)小區(qū)域內(nèi)包含的樣本點(diǎn)都屬于同一類別;將落在同一小區(qū)域內(nèi)的樣本點(diǎn)中選擇且僅選擇一個(gè)樣本構(gòu)成極小覆蓋子集。

(2)采樣受限于極小覆蓋子集

全樣本空間必然包含極小覆蓋子集,任意一個(gè)數(shù)據(jù)集未必包含完整的極小覆蓋子集。大數(shù)據(jù)環(huán)境下,極小覆蓋子集中的樣本更多地包含在大數(shù)據(jù)中,較多的數(shù)據(jù)可以戰(zhàn)勝較好的算法、再多的數(shù)據(jù)亦不會超過極小覆蓋子集的代表性、再好的提升手段亦不會超過極小覆蓋子集確定的精度。

3、回歸分析

回歸分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系。它可以應(yīng)用到對數(shù)據(jù)序列的預(yù)測及相關(guān)關(guān)系的研究中去。在市場營銷中,回歸分析可以被應(yīng)用到各個(gè)方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出預(yù)測并做出針對性的營銷改變。

4、聚類

聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。

5、關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過程主要包括兩個(gè)階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組;第二極端為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測客戶的需求,各銀行在自己的ATM 機(jī)上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應(yīng)信息來改善自身的營銷。

6、神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù),因其自身自行處理、分布存儲和高度容錯(cuò)等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴(yán)密的知識或數(shù)據(jù)為特征的處理問題,它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類:第一類是以用于分類預(yù)測和模式識別的前饋式神經(jīng)網(wǎng)絡(luò)模型,其主要代表為函數(shù)型網(wǎng)絡(luò)、感知機(jī);第二類是用于聯(lián)想記憶和優(yōu)化算法的反饋式神經(jīng)網(wǎng)絡(luò)模型,以Hopfield 的離散模型和連續(xù)模型為代表。第三類是用于聚類的自組織映射方法,以ART 模型為代表。雖然神經(jīng)網(wǎng)絡(luò)有多種模型及算法,但在特定領(lǐng)域的數(shù)據(jù)挖掘中使用何種模型及算法并沒有統(tǒng)一的規(guī)則,而且人們很難理解網(wǎng)絡(luò)的學(xué)習(xí)及決策過程。

7、Web數(shù)據(jù)挖掘

Web數(shù)據(jù)挖掘是一項(xiàng)綜合性技術(shù),指Web 從文檔結(jié)構(gòu)和使用的集合C 中發(fā)現(xiàn)隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么Web 挖掘過程就可以看做是從輸入到輸出的一個(gè)映射過程。

五、 大數(shù)據(jù)展望與應(yīng)用

大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經(jīng)濟(jì)活動提供依據(jù),從而提高各個(gè)領(lǐng)域的運(yùn)行效率,大大提高整個(gè)社會經(jīng)濟(jì)的集約化程度。根據(jù)ESM國際電子商情針大數(shù)據(jù)應(yīng)用現(xiàn)狀和趨勢的調(diào)查顯示:被調(diào)查者最關(guān)注的大數(shù)據(jù)技術(shù)中,排在前五位的分別是大數(shù)據(jù)分析(12.91%)、云數(shù)據(jù)庫(11.82%)、Hadoop(11.73%)、內(nèi)存數(shù)據(jù)庫(11.64%)以及數(shù)據(jù)安全(9.21%)。Hadoop已不再是人們心目中僅有的大數(shù)據(jù)技術(shù),而大數(shù)據(jù)分析成為最被關(guān)注的技術(shù)。從中可以看出,人們對大數(shù)據(jù)的了解已經(jīng)逐漸深入,關(guān)注的技術(shù)點(diǎn)也越來越多。既然大數(shù)據(jù)分析是最被關(guān)注的技術(shù)趨勢,那么大數(shù)據(jù)分析中的哪項(xiàng)功能是最重要的呢?從下圖可以看出,排在前三位的功能分別是實(shí)時(shí)分析(21.32%)、豐富的挖掘模型(17.97%)和可視化界面(15.91%)。從調(diào)查結(jié)果可以看出:在未來一兩年中有迫切部署大數(shù)據(jù)的需求,并且已經(jīng)從一開始的基礎(chǔ)設(shè)施建設(shè),逐漸發(fā)展為對大數(shù)據(jù)分析和整體大數(shù)據(jù)解決方案的需求。

大數(shù)據(jù)將重點(diǎn)應(yīng)用于以下幾大大領(lǐng)域:商業(yè)智能、政府決策、公共服務(wù)等。

行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石

IBM:IBM大數(shù)據(jù)提供的服務(wù)包括數(shù)據(jù)分析,文本分析,藍(lán)色云杉;業(yè)務(wù)事件處理;IBM Mashup Center的計(jì)量,監(jiān)測,和商業(yè)化服務(wù)(MMMS)。 IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的InfoSphere bigInsights,基于Apache Hadoop。 該產(chǎn)品組合包括:打包的Apache Hadoop的軟件和服務(wù),代號是bigInsights核心,用于開始大數(shù)據(jù)分析。軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關(guān)信息為金融,風(fēng)險(xiǎn)管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案 微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫綜合應(yīng)用部門) 合作目標(biāo)是開發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設(shè)備。

EMC:EMC 斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個(gè)產(chǎn)品。

Oracle:Oracle大數(shù)據(jù)機(jī)與Oracle Exalogic中間件云服務(wù)器、Oracle Exadata數(shù)據(jù)庫云服務(wù)器以及Oracle Exalytics商務(wù)智能云服務(wù)器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。

大數(shù)據(jù)促進(jìn)了政府職能變革

重視應(yīng)用大數(shù)據(jù)技術(shù),盤活各地云計(jì)算中心資產(chǎn):把原來大規(guī)模投資產(chǎn)業(yè)園、物聯(lián)網(wǎng)產(chǎn)業(yè)園從政績工程,改造成智慧工程;在安防領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提高應(yīng)急處置能力和安全防范能力;在民生領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提升服務(wù)能力和運(yùn)作效率,以及個(gè)性化的服務(wù),比如醫(yī)療、衛(wèi)生、教育等部門;解決在金融,電信領(lǐng)域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲能力和計(jì)算能力的限制,只局限在交易數(shù)型數(shù)據(jù)的統(tǒng)計(jì)分析。一方面大數(shù)據(jù)的應(yīng)用促進(jìn)了政府職能變革,另一方面政府投入將形成示范效應(yīng),大大推動大數(shù)據(jù)的發(fā)展。

打造“智慧城市”

通過收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,從中獲得知識和洞見,提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐,強(qiáng)化安全意識,轉(zhuǎn)變教育和學(xué)習(xí)模式。智慧城市是使用智能計(jì)算技術(shù)使得城市的關(guān)鍵基礎(chǔ)設(shè)施的組成和服務(wù)更智能、互聯(lián)和有效,隨著智慧城市的建設(shè),社會將步入“大數(shù)據(jù)”時(shí)代。

未來,改變一切

未來,企業(yè)會依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶。 數(shù)據(jù)的再利用:由于在信息價(jià)值鏈中的特殊位置,有些公司可能會收集到大量的數(shù)據(jù),但他們并不急需使用也不擅長再次利用這些數(shù)據(jù)。但當(dāng)它被一些發(fā)布個(gè)性化位置廣告服務(wù)和促銷活動的公司再次利用時(shí),則變得更有價(jià)值。

關(guān)鍵字:算法復(fù)雜度數(shù)據(jù)可視化技術(shù)

本文摘自:北京弘基時(shí)代科技

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 随州市| 滦南县| 尤溪县| 惠来县| 深圳市| 泾源县| 曲周县| 锦州市| 平果县| 南雄市| 安仁县| 凤台县| 焉耆| 安新县| 巨鹿县| 临高县| 惠安县| 水富县| 溧水县| 咸丰县| 乌什县| 丽水市| 剑阁县| 隆安县| 华宁县| 阆中市| 茌平县| 韶关市| 铁岭县| 沙河市| 都匀市| 伊川县| 太谷县| 古田县| 合作市| 财经| 洮南市| 高州市| 新兴县| 祁阳县| 嘉峪关市|