精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

為什么大數據是一場大變革?

責任編輯:hli

2012-05-02 13:10:47

來源:企業網D1Net

原創

大數據不僅是一種數據倉庫技術或BI(商業智能)的升級版,同時也是一場革命。

企業網D1Net 2012年5月2日 大數據不僅是一種數據倉庫技術或BI(商業智能)的升級版,同時也是一場革命。

上周,我和丹·庫斯內特斯基(Dan Kusnetzky)參加了網易科技大辯論,論題為“大數據:革命還是演變?”你可能會期望我站在“革命”的立場,但事實上我可能會和這兩方中的任意一方爭論,因為有時我會把大數據產品和技術同時視為BI(商業智能)。不過,我必須承認,大數據確實有其與眾不同的地方和非凡的意義。為何呢?我在這里簡單的介紹一下我的辯論主張。

、大數據的宣言:無需恐懼毋庸置疑,大數據是一場大變革。第一次世界技術革命時,我們正在考慮的不是如何減少數據數量和如何把它歸檔,而是如何收集更多的數據并對其進行分析。那時,我們并不怕受到受到數據量的威脅,而是在尋找額外的數據,以幫助我們發展業務,進一步了解我們的政府和社會。

后來,磁盤和存儲的低成本與價格下降推動了商品服務器集群的分散式處理趨勢。雖然我們收集、處理和分析大數據已經有相當長的一段時間了,但直到如今,我們所使用的方法依然是低效率,并缺乏經濟性的。但這場大變革中有著我們一直想知道但以前又不曾涉及的數據,所以,現在的我們無需恐懼。

、大數據的定義我對大數據的基本定義是高科技領域內非常精細的事件驅動數據的采集和分析。這涉及到互聯網的派生數據,這些派生數據的規模遠遠超出了網站的分析能力。它還與傳感器數據相關,而對于大部分傳感器數據我們直到最近才丟棄。現在,那些有很大價值的數據,將更有利于我們深入了解業務運轉和與客戶的互動。對我來說,這才是能否被稱為大數據的標準。

但是,事件驅動數據集容量實在是太大了,以致于交易數據庫系統不能有效地運轉。大數據,如Hadoop、復雜事件處理(CEP)和大規模并行處理(MPP)系統是專為這種較大的工作負荷量開發出來的。未來,交易系統將得到改進,但它們也永遠有一個障礙,即它們并沒有被設計和應用。

、2012年:大數據年代?

大數據正在成為主流,它從科學和高科技公司的專用技術轉變為企業IT應用程序的專用技術。大數據作為IT工具的主流,對IT領域有重大的影響,其可用性和易安裝標準是高于科學與高科技公司界對大數據的要求的。這就是為什么我們會看到像微軟這樣的公司,可以通過Web瀏覽器來實現利用云基礎大數據技術,從而進軍游戲行業。

為了更好的使大數據與企業相融合,我們應該實現技術的細化和降低經營成本。眼下,很多大數據工具都是粗糙的或昂貴的,或者是需要能夠實施操作的高度專業化的技術人員的輔助。不過,這種情況正在逐漸改變,而且,它從側面也證明了大數據革命的光明前景。

、Spreadmarts不是大數據,但他們也有自己的作用大數據和我們習慣使用的電子表格模型和數量運算有什么不同嗎?電子表格技術員們一直在做分析,但肯定不是大數據,因為Excel不符合前面對大數據集的定義。直到2007年,Excel才可以處理超過有16,384行的電子表格。但是,它還是不能處理較大的業務數據量,這方面它比大數據遜色許多。

當然,大數據分析的結果可以利用Excel來進一步計算和探討。事實上,微軟已經開發了一個與Excel連接的附件,與Hadoop連接的數據倉庫接口,還有象征性的大數據技術。大數據工作就像經過以Excel為基礎的分析和粗糙的編輯之后的后期制作。

從另一方面上看,BI(商務智能)和DW(數據倉庫)是相輔相成的,這對大數據而言是一件好事。大數據讓落后的、傳統的技術,為涵蓋比以前更廣的操作和交互范圍的數據集提供見解。我們可以在全新的環境下繼續使用熟悉的工具,從而實現對看似不可能或隨意的事情的訪問。

、自然語言處理和大數據關于用Hadoop開展自然語言處理(NLP)的解決方案已經產生了。該解決方案涉及到了Python編程語言和一套稱為NTLK(自然語言工具包)。另一個例子是蘋果的SIRI技術在iPhone上的應用。用戶只需與SIRI進行對話,就能從一個龐大的領域專家團隊那里得到答案。有趣的是,大數據技術將有助于改善自然語言技術,例如,對更大數量的書面作品進行處理和對算法的理解。因此,大數據將變得更容易使用。

、大數據專家和開發商:他們可以和平相處嗎?

我們并不需要問這種“To be Or Not to be”的問題。正如開發人員和數據庫專家將被繼續鼓勵開發軟件和對軟件生產與消費的數據進行專門的采集與分析一樣,這兩者是相輔相成的。

但我認為,開發能力強的人才的確是一項寶貴的資產。因為大多數高技術專業都會對本專業人才進行自我篩選。而且,我一直把它當做了一個趨勢,觀察整個行業的發展。在該行業中,很少有人逆勢而行,因此對人才的需求是很大的。

、聯邦政府和大數據?

最近,宣布將在大數據方面投資2億美元的美國聯邦政府收到大量的保證金,它雖然具有一定的象征意義,但我覺得它也有缺陷。在大數據領域,2億美元的投資實際上還是很少的,尤其是當眾多的聯邦機構存在分歧的時候。但是,當政府談到其工作中大數據治理及大數據對社會的重要性時,它會告訴你大數據技術的力量和影響。美國聯邦政府收集大量的數據,奧巴馬政府也承認大數據有很大的潛在價值。

、大數據和BI(商業智能)之間是相互獨立的,也是相互聯系的讓我們再次回到本文開頭,大數據是不是BI的下一代呢?大數據是它自己的子類,并且可能會一直如此。但它卻和BI、數據倉庫之類是相同的產業鏈的一部分,而這些類別存在的時間比他們原本應該存在的時間要短,這是由于它們分屬于完全不同的領域。

因為大數據和BI是數據庫管理員、BI模型師和數據挖掘專家研究了超過十年的東西。而有些人對這兩個方面都有研究,有些則只專攻一個方面。它們不是相互排斥的,也不是一方面是另一方面的新表現。所以,BI會與大數據相結合,數據專業技術、產品和結構,與其他以數據為重點的高新技術專業有著密切的聯系。這種關系貫穿于整個高科技產業和計算機科學,而且它們各自的特色仍然是合法的、有益的和真實的。

、大數據留給了我們什么?

在辯論中,我們討論了一些情況,如大數據將會沖擊哪些已建立的數據庫、數據倉庫、BI和分析技術?大數據市場的確很廣闊,這可能使大數據的進步更加迅速,但如果繼續使用已有的工具,我們怎么才能把“數據”變成“大數據”呢?

然而,大數據革命并不是通過這些已有的工具實現的,它的發生是遠離這些工具。我們采集了大量的數據,這些數據的大部分都是非結構化的。我們還使用廉價的服務器和磁盤,然后把篩選過的數據放置到傳統系統中。由于存儲太昂貴,處理速度太慢,寬帶太稀少,我們重新使用那些被丟掉過的數據。現在,我們正在以熟悉的方式來處理這些數據。這是史無前例的,同時也是直觀的。

鏈接已復制,快去分享吧

企業網版權所有?2010-2025 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 临江市| 兴安盟| 内丘县| 宜丰县| 岳普湖县| 霍山县| 颍上县| 临城县| 内丘县| 江口县| 淮南市| 合肥市| 海晏县| 资源县| 海淀区| 泉州市| 喀喇| 崇明县| 钟祥市| 宁陵县| 泸定县| 刚察县| 攀枝花市| 察隅县| 色达县| 宁南县| 集安市| 阜新| 贡山| 施秉县| 三门县| 尖扎县| 海伦市| 佛冈县| 黄大仙区| 曲周县| 突泉县| 察哈| 石河子市| 皋兰县| 巴南区|