時間:2012-03-13 22:31 來源:物聯網在線 作者:EETTAIWAN 點擊:92次
英特爾(Intel)人類學家 Genevieve Bell 分享了她針對巨量資料所做的研究,她深刻思考了巨量數據對未來可能激起的改變,并探討了在許多不同情境下,這些巨量資料現象實際上所蘊涵的意義。
Bell在英特爾公司的正式頭銜是英特爾實驗室互動暨體驗研究總監,她負責的工作與英特爾其它科學家和工程師截然不同,涉及的層面涵蓋了所有最近在業界掀起熱烈討論的資料海嘯(data tsunami)、云端運算、設備擴散(device proliferation),以及更強大的服務器在內。“巨量資料”,正是Bell的下一個主要研究項目。
“問題是該從何處著手?對于我們想要討論的主題,我們仍處在試著想象這個主題的輪廓及其規模的階段,”Bell在稍早前英特爾的倫敦 Xeon E5 處理器發表會上表示。“而今天,所有已達爆滿邊緣的數據庫,只不過是個開端而已。”
接下來,Bell表示,這個世界必須去思考,我們想怎樣過濾這些數據?這會對傳統在線數據庫帶來哪些改變?既有的資料世界是否會開始失序,甚至面臨崩解而后再建設的局面?
而在這一切的轉變過程中,Bell表示,至少我們已經開始明白,所有的一切都會朝著建立一種數據追蹤法則的方向發展,包括模擬和數字數據在內,而且,我們還必須有能力管理所有數據。
“對我來說,在這份工作中,數據本身并不是讓我最感興趣的地方,因為所有的一切事物都會產生數據,真正有趣之處在于如何開發更能善加運用這些數據的算法之類,”她解釋道。
今天,我們使用數據的方法,并非都能直觀地展現出數據本身的意義,Bell說,特別是算法──要讓所有的數據都能善加運用,就必須深入了解數據本身的正確性,而這又和最初的數據填寫者有著密切關聯。
“所有我們試圖用來讓數據使用更加合理的想法,都會在一開始被就放在最優先的位置,”她說。事實上,她也點出了當我們開始在單一一種數據模式內找尋數據間的固定模式、因果關系和關聯時,實際上都早已落入固有的偏見之中。
“對我而言,巨量數據分析最迷人之處不僅在于匯聚了來自各個領域的廣泛數據,更重要的是你可以拿它們來做些什么,”Bell表示,我們愈來愈依賴數據分析,某種層面來說,這也代表著文化腳本(cultural script)正在跨入嶄新的水平。
這類有關數據分析的想法,也推動資料朝“擬人化”(anthropomorphizing)的方向發展。Bell指出,在開始討論到“資料的秘密生活”(the secret life of data)之際,所有這些數據都將是必要的。而這些討論也將進一步推動巨量數據和云端運算等應用的擴展。
Bell表示,所有的數據實際上都擁有它自己的特性,這正是使它與其它所有數據有所差異化之處,因此,在分析數據以前,最好先厘清所有數據的特性。
云端運算的物理特性和“野性”數據概念
Bell認為數據本身屬性即具備繁殖(ferality)或復制(reproductive)能力。“數據并不會永遠依照算法或輸入時的順序整齊排列,在經過云端運算和其它控制機制后,數據會產生何種變化才是重點所在,因為我們都會嘗試著去控制這些本身即具備“野性”(feral)的數據,”Bell說。
事實上,Bell舉例道,將同一類型的數據全都放在同一種類別中,像是將兔子或其它繁殖力極強的動物放在一起,或許能做出初步有的有效分類。她也指出,由于資料可以很容易地在各個類別間轉移,或是完全轉移到另一種類別,因此上下文(contexts)也可以很容易地轉移,這或許能讓人們試著去管理數據,或是減少這些數據的增殖情況。“在資料世界中,去思考這些策略,是相當有趣的一件事,”她若有所思地表示。
數據的另一個特性在于,盡管數據大多具有明確概念(conceptually),但卻也難以捉摸。例如,“云端”事實上仍需要許多實體建設。“云端運算最終都會有一個實體機房。云端運算數據中心必須是一個實體建筑,其中設有服務器,”Bell強調了實體建設的重要性。
Bell同時強調,云端運算并不是特殊的概念。“我們思考的不只是單一的云端系統,我們在想的是許許多多的云,以及成千上萬的實體設備,包括進行數據分析的服務器農場(server farm)在內,對我來說,所有這些實體設備,都是研究巨量資料過程中的關鍵部份,”她表示。
而這也對巨量資料的研究提出了諸多問題,包括最終資料是否會無處不在?服務器農場該設置在何處?這些資料該由何地的何種法律來管轄?采用何種網絡運作?以及如何提供和將提供何種服務?
同時,這也讓人們開始思考,是否每件事或每個人都會產生數據,抑或是像William Gibson對網絡空間(cyberspace)所下的批注:“未來已然來臨,只是還未廣為人知。”(future was already here but unevenly distributed)
Bell認為,數據將會在各種地方以不同的方式出現,但并非所有情況下的數據都是有用的。“你可以輕松地和蘋果(Apple)的 SIRI 對話,看起來這個語音管家似乎頗具智能性,但基本上我只覺得那是一連串毫無意義的對談,”她說。
再者便是如何處理舊設備和舊數據,這些數據可能尚未數字化,如何處理它們并以新型態來呈現都會是一大問題。
“愈來愈大量的數據不斷地產生出來,但這些數據并不一定出自人類之手,”她指出,即使靜態數據有可能經過處理轉變為動態信息,但在相反情況下卻不一定會出現同樣的結果。
在全球各地,物聯網(Internet of things, IoT)應用模式都正在發酵,從交通號志燈到汽車、冰箱、除草機,到固定電話、平板電腦、Ultrabook和電視,所有的設備都會產生數據,但將來這些數據未必會適合每一個獨立的使用者,Bell說。
例如,有些家庭會共享電話;一些家庭成員在白天工作時使用自己的平板計算機,但夜間或周末時則讓給他們的孩子使用。“我們要如何排序數據,才能得知有多少使用者共享一部設備?”Bell表示,這讓資料排序成為更艱難的任務。
(責任編輯:zxh007)
[page]
人類數據的特征──不確定性
然而,開發算法的噩夢還不僅限于要從這么多獨立使用者和個別設備中對數據進行排序,Bell表示,更重要的是,你必須牢記,有些數據根本就不是真實的。
她以一份在美國進行的研究為例指出,在該研究的調查對象中,幾乎100%在個人資料中都謊報了約會地點。那么,如何對這些虛構的數據進行排序,而且讓結果呈現出非常人性化的觀點呢?
“因此,目前人類和機器設備們都會建構數據,但我們會需要算法來協助建構更有用的數據,”她表示。
“數據基本上只是由0與1組成的字符串,這很容易想象,而你所要做的,只是找到適合的工具,盡可能去發揮這些數據的作用。但如果我們停止思考,那么數據將成為一堆難以想象數字符號。所以,我們要開始想象數據的輪廓,去想象經過處理后,它將會呈現出什么樣的結果,”她說。“我們正試著以這些數據集為基礎提出建議,但我們卻無法假設所有數據都100%是真實的。”
此外,Bell指出,隨著數據使用者的數量不斷增加,他們對數據的期望也愈來愈高,這些人會希望每一個故事、每一個當下、每一個所產生的數據,都能得到相應的處理。
另一個問題,則是這些數據是否需要被打理得很好,關聯性很強?或是能以散亂型態呈現?
隨著設備、服務、應用程序迅速增加,我們處理數據的經驗也快速累積,同時,隨著云端運算系統不停增加,巨量數據的概念也正不斷成長,Bell說,這也意味著在數據量持續增長的同時,我們將面對一系列嶄新的挑戰。
但所有這些問題都能得到妥善答復嗎?或是目前我們仍然未能觸及問題核心?Bell表示,巨量資料代表了“令人難以置信的龐大商機”,它不僅僅是字面上極龐大的數字,它還將對今天的系統架構師、工程師、設備制造商和使用者帶來深遠的影響。