英特爾人類學家Genevieve Bell分享了她針對大數據(big data)所做的研究,她深刻思考了大數據對未來可能激起的改變,并探討了在許多不同情境下,這些大數據現象實際上所蘊涵的意義。
Bell在英特爾公司的正式頭銜是英特爾實驗室互動暨體驗研究總監,她負責的工作與英特爾其他科學家和工程師截然不同,涉及的層面涵蓋了所有最近在業界掀起熱烈討論的數據海嘯(data tsunami)、云計算、設備擴散(device proliferation),以及更強大的服務器在內。“大數據”,正是Bell的下一個主要研究專案。
“問題是該從何處著手?對于我們想要討論的主題,我們仍處在試著想像這個主題的輪廓及其規模的階段,”Bell在稍早前英特爾的倫敦Xeon E5處理器發布會上表示。“而今天,所有已達爆滿邊緣的數據庫,只不過是個開端而已。”
接下來,Bell表示,這個世界必須去思考,我們想怎樣過濾這些數據?這會對傳統線上數據庫帶來哪些改變?既有的數據世界是否會開始失序,甚至面臨崩解而后再建設的局面?
而在這一切的轉變過程中,Bell表示,至少我們已經開始明白,所有的一切都會朝著建立一種數據追蹤法則的方向發展,包括模擬和數字數據在內,而且,我們還必須有能力管理所有數據。
“對我來說,在這份工作中,數據本身并不是讓我最感興趣的地方,因為所有的一切事物都會產生數據,真正有趣之處在于如何開發更能善加運用這些數據的算法之類,”她解釋道。
今天,我們使用數據的方法,并非都能直觀地展現出數據本身的意義,Bell說,特別是演算法──要讓所有的數據都能善加運用,就必須深入了解數據本身的正確性,而這又和最初的數據填寫者有著密切關聯。
“所有我們試圖用來讓數據使用更加合理的想法,都會在一開始被就放在最優先的位置,”她說。事實上,她也點出了當我們開始在單一一種數據模式內找尋數據間的固定模式、因果關系和關聯時,實際上都早已落入固有的偏見之中。
“對我而言,大數據分析最迷人之處不僅在于匯聚了來自各個領域的廣泛數據,更重要的是你可以拿它們來做些什么,”Bell表示,我們愈來愈依賴數據分析,某種層面來說,這也代表著文化腳本(cultural script)正在跨入嶄新的水平。
這類有關數據分析的想法,也推動數據朝“擬人化”(anthropomorphizing)的方向發展。Bell指出,在開始討論到“數據的秘密生活”(the secret life of data)之際,所有這些數據都將是必要的。而這些討論也將進一步推動大數據和云計算等應用的擴展。
Bell表示,所有的數據實際上都擁有它自己的特性,這正是使它與其他所有數據有所差異化之處,因此,在分析數據以前,最好先厘清所有數據的特性。
云計算的物理特性和“野性”數據概念
Bell認為數據本身屬性即具備繁殖(ferality)或復制(reproductive)能力。“數據并不會永遠依照算法或輸入時的順序整齊排列,在經過云計算和其他控制機制后,數據會產生何種變化才是重點所在,因為我們都會嘗試著去控制這些本身即具備“野性”(feral)的數據,”Bell說。
事實上,Bell舉例道,將同一類型的數據全都放在同一種類別中,像是將兔子或其他繁殖力極強的動物放在一起,或許能做出初步有的有效分類。她也指出,由于數據可以很容易地在各個類別間轉移,或是完全轉移到另一種類別,因此上下文(contexts)也可以很容易地轉移,這或許能讓人們試著去管理數據,或是減少這些數據的增殖情況。“在數據世界中,去思考這些策略,是相當有趣的一件事,”她若有所思地表示。
數據的另一個特性在于,盡管數據大多具有明確概念(conceptually),但卻也難以捉摸。例如,“云端”事實上仍需要許多實體建設。“云計算最終都會有一個實體機房。云計算數據中心必須是一個實體建筑,其中設有服務器,”Bell強調了實體建設的重要性。
Bell同時強調,云計算并不是特殊的概念。“我們思考的不只是單一的云端系統,我們在想的是許許多多的云,以及成千上萬的實體設備,包括進行數據分析的數據中心(server farm)在內,對我來說,所有這些實體設備,都是研究大數據過程中的關鍵部份,”她表示。
而這也對大數據的研究提出了諸多問題,包括最終數據是否會無處不在?數據中心該設置在何處?這些數據該由何地的何種法律來管轄?采用何種網絡運作?以及如何提供和將提供何種服務?
同時,這也讓人們開始思考,是否每件事或每個人都會產生數據,抑或是像William Gibson對網路空間(cyberspace)所下的注解:“未來已然來臨,只是還未廣為人知。”(future was already here but unevenly distributed)
Bell認為,數據將會在各種地方以不同的方式出現,但并非所有情況下的數據都是有用的。“你可以輕松地和蘋果(Apple)的Siri對話,看起來這個語音管家似乎頗具智能性,但基本上我只覺得那是一連串毫無意義的對談,”她說。
再者便是如何處理舊設備和舊數據,這些數據可能尚未數字化,如何處理它們并以新型態來呈現都會是一大問題。
“愈來愈大量的數據不斷地產生出來,但這些數據并不一定出自人類之手,”她指出,即使靜態數據有可能經過處理轉變為動態資訊,但在相反情況下卻不一定會出現同樣的結果。
在全球各地,物聯網(Internet of things, IoT)應用模式都正在發酵,從交通號志燈到汽車、冰箱、除草機,到固定電話、平板電腦、筆電和電視,所有的裝置都會產生數據,但將來這些數據未必會適合每一個獨立的使用者,Bell說。
例如,有些家庭會共用電話;一些家庭成員在白天工作時使用自己的平板電腦,但夜間或周末時則讓給他們的孩子使用。“我們要如何排序數據,才能得知有多少使用者共用一部設備?”Bell表示,這讓數據排序成為更艱難的任務。
人類數據的特征──不確定性
然而,開發演算法的噩夢還不僅限于要從這么多獨立使用者和個別設備中對數據進行排序,Bell表示,更重要的是,你必須牢記,有些數據根本就不是真實的。
她以一份在美國進行的研究為例指出,在該研究的調查對象中,幾乎100%在個人數據中都謊報了約會地點。那么,如何對這些虛構的數據進行排序,而且讓結果呈現出非常人性化的觀點呢?
“因此,目前人類和機器設備們都會建構數據,但我們會需要演算法來協助建構更有用的數據,”她表示。
“數據基本上只是由0與1組成的字串,這很容易想像,而你所要做的,只是找到適合的工具,盡可能去發揮這些數據的作用。但如果我們停止思考,那么數據將成為一堆難以想像數位符號。所以,我們要開始想像數據的輪廓,去想像經過處理后,它將會呈現出什么樣的結果,”她說。“我們正試著以這些數據集為基礎提出建議,但我們卻無法假設所有數據都100%是真實的。”
此外,Bell指出,隨著數據使用者的數量不斷增加,他們對數據的期望也愈來愈高,這些人會希望每一個故事、每一個當下、每一個所產生的數據,都能得到相應的處理。
另一個問題,則是這些數據是否需要被打理得很好,關聯性很強?或是能以散亂型態呈現?
隨著設備、服務、應用程序迅速增加,我們處理數據的經驗也快速累積,同時,隨著云計算系統不停增加,大數據的概念也正不斷成長,Bell說,這也意味著在數據量持續增長的同時,我們將面對一系列嶄新的挑戰。
但所有這些問題都能得到妥善答覆嗎?或是目前我們仍然未能觸及問題核心?Bell表示,大數據代表了“令人難以置信的龐大商機”,它不僅僅是字面上極龐大的數字,它還將對今天的系統架構師、工程師、設備制造商和使用者帶來深遠的影響。