大數(shù)據(jù)
大數(shù)據(jù)是一種現(xiàn)代云基礎架構,它包含了多種與其他人連接和共享信息的方法。它推動了“物聯(lián)網(wǎng)”的發(fā)展,如通過社交網(wǎng)站連接人、通過共享朋友或網(wǎng)絡來尋找人們之間互相認識的可能性。大數(shù)據(jù)的背后運行著人工智能,而它對于大多數(shù)人而言是完全透明的,人們不知道背后有這樣的技術。大數(shù)據(jù)位于人們?nèi)粘J褂玫闹悄苁謾C之后,然后人們通過它給移動互聯(lián)網(wǎng)貢獻信息,即使他們并沒有意識到這一點。
在北京,每五位的哥中就有一個人使用嘀嘀打車,嘀嘀打車日成交破萬,這樣的成績是怎么來的呢?歸根結底,這一切的實現(xiàn)都離不開大數(shù)據(jù)。今天,我們打開打車APP,以乘客為中心,可以看到,在他的附近有多少輛出租車正在待客;以司機為中心,可以看到,他的附近有多少人正在打車,其中又有多少人愿意加價。乘客、司機不再是在互不相知的情形下隨機遇到,而是可以在一個APP工具上互相找到。其起點,正在于乘客、司機都上線(online)了。在這一步之前,乘客和司機的所有關聯(lián)僅僅是路邊偶遇,乘客下車后,和司機也基本不再有任何聯(lián)系,這是離線(offline)的;而一旦使用打車APP,他和司機就開始建立起一種聯(lián)接。這就是一個簡單的O2O模型。這個模型的成立是建立在掌握大量打車客戶和出租車司機數(shù)據(jù)收集的基礎上的。如果沒有大數(shù)據(jù),這些可能看起來還是天方夜譚的事情。我曾經(jīng)坐過一個安裝了滴滴打車軟件出租車司機的車,在和他交談中知道,通過這以軟件的應用,他的生意比以前好了很多,收入也有了相應的增加,這就是大數(shù)據(jù)改變著我們生活的表現(xiàn)。未來圖景將是如此:所有人、所有物、通過大數(shù)據(jù)在任何地點、適合時間、永遠在線,實時互動。
為什么大數(shù)據(jù)如此重要?
大數(shù)據(jù)的重要性體現(xiàn)在很多方面。首先,它可以識別人們上網(wǎng)瀏覽的模式,從而給特定類型的人或群組推送與訪問內(nèi)容相關的廣告及發(fā)送電子郵件或社交媒體廣告。其次,它可以掃描用戶選擇屏蔽的內(nèi)容,如特定類型的廣告或媒體。第三點可能也是最重要的一點,它可以根據(jù)用戶的上網(wǎng)瀏覽活動推薦各種網(wǎng)站或廣告。這可以根據(jù)廣告點擊、視頻觀看、社交網(wǎng)站鏈接點擊和特定關鍵詞來實現(xiàn)。
Hadoop是什么?
Hadoop提供了一個用于存儲大規(guī)模數(shù)據(jù)的開源平臺。Hadoop是一個開放工具集,支持可變連接類型和數(shù)據(jù)結構。它開放給云環(huán)境中位于多個主機的分布式數(shù)據(jù)平臺。簡單地說,它是一種數(shù)據(jù)存儲方式,支持使用多個平臺和多個操作系統(tǒng)的多個計算機。它是一個Apache開源項目,支持搜索Web中的大數(shù)據(jù)。它是一組批處理工具,可供任何公司使用。它并不是單獨一個下載后在網(wǎng)站或應用中運行的應用程序。
Hadoop有何作用?
互聯(lián)網(wǎng)巨頭谷歌、Twitter和Facebook等一直都有能力利用Hadoop管理超大規(guī)模數(shù)據(jù)。Hadoop是一個用于解決大規(guī)模數(shù)據(jù)問題的非商業(yè)解決方案。Hadoop是一個分布式計算系統(tǒng),底層基于Linux操作系統(tǒng)。這意味著Hadoop在處理數(shù)據(jù)時并不需要使用傳統(tǒng)的高端超級計算機,而是用許多普通計算機來處理數(shù)據(jù)。Hadoop系統(tǒng)能夠在任意時間處理超大規(guī)模且不斷增長的數(shù)據(jù),而計算機網(wǎng)絡則是它的重要組成部分。換而言之,原來需要購買昂貴硬件和雇傭?qū)I(yè)技術人員才能完成的工作,現(xiàn)在都可以在云中交由一些非專業(yè)人員完成。增加業(yè)務效率就可以在不增加員工數(shù)量的前提下完成更多的工作。大數(shù)據(jù)的設計初衷就是這一點。除了財務和銷售,許多公司還使用大數(shù)據(jù)解決方案跟蹤員工和內(nèi)部流程。為什么呢?因為這些數(shù)據(jù)可以幫助他們發(fā)內(nèi)部的“漏洞”,發(fā)現(xiàn)員工在哪些方面最需要改進和幫助。這自然就轉(zhuǎn)化為開展定制培訓或精簡組織結構。用大數(shù)據(jù)構建的內(nèi)部藍圖清楚地告訴人們:業(yè)務決策完全可以變成一種輕松愉快的過程。
因此,為業(yè)務發(fā)展提供幫助是Hadoop的一個重要任務。它依靠各種相對廉價的計算機。如果有一臺計算機出現(xiàn)問題,那么更換它也比更換一直使用的大規(guī)模超級計算機容易得多。Hadoop包含一組工具,而不只是一個提供數(shù)據(jù)管理功能的軟件。它也是一個開源平臺,這意味著它可以根據(jù)公司需求而擴展,并且不需要大規(guī)模硬件或軟件投入。
總結
在大數(shù)據(jù)時代到來的時候,要用大數(shù)據(jù)的思維去發(fā)掘大數(shù)據(jù)的潛在價值。大數(shù)據(jù)的意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。從前我們所了解的數(shù)據(jù)是冷冰冰的、死氣沉沉的,被存到冷備份默默地等著人拿出來用,我們對待數(shù)據(jù)的感覺十分消極,要先想清楚其用處才開始分析應用。現(xiàn)在,數(shù)據(jù)時代來臨了,人們正在試圖點燃數(shù)據(jù),使其變熱,賦予生命。所謂“活數(shù)據(jù)”,是動態(tài)的數(shù)據(jù),流通的數(shù)據(jù),因互動而產(chǎn)生,因產(chǎn)生而互動,是自然演化的數(shù)據(jù),要用大數(shù)據(jù)的思維去考慮這些數(shù)據(jù)怎樣才能帶來效益。未來大數(shù)據(jù)的發(fā)展前景非常好,與大數(shù)據(jù)相關的職業(yè)比如數(shù)據(jù)挖掘師,數(shù)據(jù)分析師等必定會有廣闊的發(fā)展空間。