為了充分實現大數據所能帶給人類的福祉,我們必須將社會學以及一切與人類有關的學問重視起來,將其置于與數學以及計算科學同等重要的位置上。
21 世紀,這是一個多么適合上演奇跡的時代,不僅僅是因為它更容易去實現人們曾經的夢想,更是因為在諸多科技和媒體領域,人們普遍都感覺到自己已經被其進步的速度帶得飛離地面,覺得每一個今天都已然成了明天。毫無疑問,我們已經生活在了大數據的時代,人類歷史截止到 2010 年所產生的所有數據,匯集起來,將我們推向了一個更加壯闊宏偉的大數據的未來。
我的夢想,是希望擁抱一個充滿了更多具有明確意義數據的時代中。為了實現這一點,我們應該對數據進行收集、分類、分析、解讀、并將其聯系組合起來。我們更要將數據視覺化,能夠更加明確的表達出來,要讓人們更加方便地進入數據。但是如今,那些所謂的「數據科學家」,更加傾向于在數學領域舞槍弄棒,他們普遍擁有計算機科學背景,卻無法真正充分實現大數據所蘊含的潛力。
在我們開始對真正的大數據進行解讀之前,讓我先來澄清我口中的「大數據」的概念,它反映出來了兩個各自獨立,卻又相互聯系的概念。
第一層的 data,小寫的 data,復數的 data。它是所有我們理解和衡量這個世界以及我們自身,有關定量乃至定性的范疇。
第二曾的 Data,大寫的 Data,也是單數的 Data。這個數據比所有的部分集合到一起更加的綜合龐大,這是所有一個將結果和行動打包起來的集合概念,直接對結果和行動之間的關系提供解釋。
除了單純的收集、儲存、分類這些數據之外,我想說將數據情景化、故事化、視覺化同樣是非常重要的工具,有助于我們來了解和描述事物之間的關系。而在這些工具之間的相互轉換、組合、搭配,才是真正數據學的奧義所在。更重要的是,數據學并不僅僅簡單的指代某種存儲、命令、以及解讀數字的能力,它更不可能是單單靠一個人就能夠辦到的事。
從供給方入手,這是在產出的每一個步驟環節都涉及大數據整合利用的過程,而在消費方的角度來看,它只看到最終產品的適用性。無論哪一方,大數據之于他們,就意味著要在生產和消費的過程中不斷地去深刻理解和解決各種深層次的問題,這其中包括了戰略方向、數據收集、過濾、分析、以及演示。
如果要總結現狀的話,應該是這樣的:那是我們想要去測量的東西,但是不知道該收集什么數據。那是我們想要收集的數據,但是我們不知道該如何收集;即便我們已經收集到了我們想要的數據,但是因為它們不是準確的所以無法真正投入應用;更無法對其進行解讀;如果我們錯誤解讀了這些數據,就會產生太多雜亂的聲音和誤導人的信號;之所以我們會錯誤的解讀,是因為我們無法正確的對數據之間的關系進行分類,無法分清楚什么是相互關聯影響,什么又是因果關系;進而我們想要利用這樣的數據成為行事的依據,就在一開始埋下了錯誤的根源。
如果我們沒有形成、并且掌握真正的數據學,我們很有可能遭遇一下的狀況:我們不收集它;我們忽視它、我們看著它,卻不知道應用;我們錯誤地應用;我們從中提取出來錯誤的信息,我們為了支持錯誤的觀點,強行扭曲它使之成為有力的佐證。
而即將出現的高級數據學就能夠幫我們解決上述的問題。現如今,每一個人都能夠張口就給出幾個數據,或者將其編進一個巨大的 EXCEL 表格,但是我們僅僅止步于此,面對成噸的數據,我們提取不出來任何有意義的信息。如果在這穹頂之上,能夠真正納入以下三個方面,那才真正能夠實現高級數據學的內涵和意義:分別為「情境化」、「敘述」、「設計以及視覺化」。下面進行分別的介紹:
「情境化」意味著一個將所發現的數據置于合理的角度,使之與周遭能夠聯系起來的過程。
「情境化」在之前往往是社會學領域使用的一款工具。無論是社會學家、人類學家、經濟學家、政治學家、心理學家、地質學家家、歷史學家、考古學家,都在利用這個工具更好的理解他們所掌握的一切,面對學科內種種的存疑提供盡可能準確、合理的解釋。同樣,心理學、文學、宗教、藝術、歷史、文化、以及語言在理解和記錄我們的世界的過程中,自然而然實現了我們所說的「情境化」。
即便之前有了這么多領域的研究和應用,但是「情境化」依然沒有被納入到數據分析和挖掘的范疇中,更別說數據在收集之后所形成的決策上了。專注于去細分性別、姓名、教育背景、種族、宗教、家族歷史、個人經歷以及地理位置之間到底有著怎樣的區別,這是「情境化」的關鍵。
如果將社會學中的研究方法和框架抽離出來,應用到數據學上,那么就能夠回答以下這些關鍵問題:
是誰創造了數據,基于何種原因,在何種條件之下,有怎樣的目的?在「數據抽離」的過程中,存在著哪些阻礙,切入點,以及背景前提影響著「數據抽離」本身?
是誰在收集、分析、解讀、解釋、以及視覺化這些數據?他們的目標是什么?看得見和看不見的偏見又是什么?他們在進入這個領域時都擁有怎樣的個人背景?
誰是最終受眾?你究竟能夠找到怎樣的方式,將你的研究成果能夠更好地讓這些受眾理解,如果他們不理解、不認同的話你該怎么辦?
現代思潮、地理位置、以及受眾本身的個人信仰,這些東西將如何作用于上述的交流過程中?是否會影響他們理解你的觀點?
「敘述」,是一種能夠通過故事表達,從而完成解釋、說服以及激勵等作用的藝術。
敘述有很多形式,比如電影、廣播、報告等等。至于回到我們的數據學應用范疇,那么我希望將其定義稍微往外面擴展一些,將講述故事的源頭轉移到數據上面。
自從文明誕生以來,我們就非常重視這種講述的技巧,你可以在教育系統中看到,公眾演講中看到,甚至在自我表達中都能見識到這種技巧。所以,讓數據變得更加有意義的重要方面之一,就是要讓數據轉化為更加富有情節和感染力的敘述。別再待在冷冰冰的數字殿堂里面轉悠了,去找那些會講故事的人,去找那些英文專業畢業的文科生,哲學家,讓他們來審視你的數據,他們會說出你完全想不到的另外一種解讀方式。在此,我特別想引用 Google 公司曾經的哲學家,戴蒙·赫洛維茲(Damon Horowitz)博士曾經說過的一段話。他擁有哥倫比亞大學的文學學士學位、麻省理工大學媒體實驗室的理科碩士學位、以及斯坦福大學的哲學博士學位。他是這么說的:
如果真的想要在人工智能領域獲得成就,我想最重要的一步并非是再建起一個什么人工智能中心實驗室,真正應該做的是要去打造一個表現更加理想的思想者,在這個目的驅使下,我們應該去學習哲學。我很高興自己能夠辭掉科技公司的職位,跑去學了個哲學專業的博士回來。這是我有生所做的最正確的決定之一。
「設計」,是一個將復雜的事物變得易于理解的過程。
設計是一個用于交流的奇妙工具,它能化腐朽為神奇。一個完全沒有接受過教育的人,在面對精美設計的時候,是可以完全感知并接收到信息的。設計所擁有的簡潔、親和、示范性、以及其目的性,使得它能夠讓數據發揮更大的作用。自從人類早期,設計就成為人們將抽象概念和想法轉換成具體信息的一種方式,比如他們用顏料涂抹在洞穴的墻壁上。它是我們人所以成為人的具體體現。維克托·帕涅克(Victor Papanek)在他 1971 年發表的書《Design for the Real World》里面這么說道:所謂設計的關鍵就是研究它是如何與人交互的方式。從這個意義上來說,將設計的學問融入到大數據中,將進一步發揮大數據造福世界的能力!
穹頂之上,它不僅僅意味著數字的堆砌和排列,而關鍵是如何去使用它們!
數據從目前來看,并不能稱得上有趣。但是在設計和視覺化的幫助下,它是可以做到這一點的。當我們將 Data (大寫的數據)與故事和意愿相結合,我們會變得更加優秀,聰慧,敏捷,并且能夠做出更加有效的預見性決策。當我們在面對受眾的時候能夠拿出足夠的簡潔、用心、以及同情,我們會獲得更多的目光,更多的人會愿意加入進來。如果我們能夠收集正確的數據,過濾、分析以及通過某種智能的方式將其情境化,在基于某種邏輯的前提下去敘述它們,并且使之視覺化,那么無論是小寫的 data,又或者大寫的 Data,都能夠在社會的各個層面轉化成更加有用的事物。
當“數據學”升級為“高級數據學”,其中包括了以上三個層面的知識:“情境化”、“敘述”和“設計”。那么我們的社會,無論是政府政策、體育、金融、醫療、經濟、商業、又或者是政治或者教育,都將被它改造。在這個轉變的過程中,越來越多的人將帶著自己的知識背景加入進來。