Palantir,提起這家公司就會讓人覺得如雷貫耳。之前36大數據之前應該花了非常多的時間去收集和整理了關于這家公司背后的故事,參考揭秘:曾用大數據幫助CIA干掉本·拉登的公司Palantir Technologies,在2013年美國大數據公司收入排行榜中,Palantir排名第一。
Palantir中國專區
Palantir也被稱為大數據行業的印鈔機,它的客戶包括美國國家安全局(NSA)、美國聯邦調查局(FBI)、美國中央情報局(CIA)和很多其他的美國反恐和軍事機構。那么,Palantir公司的大數據產品和技術又是怎么樣的呢?帶著這個問題,36大數據特別編譯了Palantir官網上的產品資料,今天先放出上篇。
一、產品概述
英語原文>
它如何運作
多源數據為起點
各個機構都有各自的數據,它們中有很多是結構化數據,如日志文件,財務數據表和電子表格,還有一些是非結構化數據,如電子郵件,文件,圖片和視頻。這些數據通常情況下存儲在分離系統中。每一天它們的類型都在迅速變化,體量都在呈指數性增長,并且變得越來越難以被利用。
機構內部看重這些數據的人并不是從它們有多少行,多少列,原始文本是什么,這些角度來思考它們的作用的,而是從當前本機構所負擔的任務和面臨的挑戰來思考。他們需要一種方法,以此來探尋已有的數據,并且能用自己能理解的方式得到反饋。
融合數據為人本模型
通過與客戶一起近距離的協作,我們的工程師能夠摒除數據類型和數據容量帶來的限制,將多個相關的源數據整合并繪制為簡潔、一致的模型。
你可以設想一下這樣的情景:這些數據一個字節、一個字節地涌入 Palantir Gotham 平臺,在這里它們被轉換為人群,地點,事物,事件以及他們相互之間的聯系,這些有意義的實體和關系。
標簽,安全追蹤所有數據
這個模型一經建立后,數據流就會持續不斷的流入Palantir Gotham 平臺。與此同時,相應的安全守則也已建立,只有被授權用戶才可登入。
這些數據的任何更新都會同步到平臺,并且用戶進行分析時,他們所有的行為都會被自動記錄、歸因分析和儲存。
人本驅動賦予數據活力
用戶可以通過建立在此平臺上的各種綜合性應用與數據進行互動。他們可以即刻搜索所有數據源,將數據關系可視化,探索不同的假設,發現未知的關系,揭示隱藏的模式,與同事分享自己的見解。
二、平臺介紹
平臺后端集成了一系列功能,它們主要用來整合不同數據源以便于進行安全、協同的分析。
平臺此時扮演著企業知識庫的角色,收容著企業全部分析活動的所有記錄。
建模靈活性
摒棄傳統數據建模死板的行和列,Palantir Gotham利用數據建模時采用真實世界的實例如“人群”、“組織”,他們相關的特征以及相互之間的聯系,這大大提高了建模的靈活性。
Palantir Gotham平臺的數據模型,能快速定義和重定義數據,這讓它被稱為“動態本體”,同時也讓整合不同來源的不同數據為一個整體成為可能,這個過程正符合人們對信息的自然設想。
隱私和安全控制
平臺的架構一開始就設計了隱私保護功能,用來支持精確的數據處理,多層次的安全保護,完全性的審核。首先,被整合進平臺的每個對象的每一項特性都和它的原始數據源相關聯,這樣準入限制就建立在每個屬性的基礎上(有時也被稱為“次單元層級安全保護”)。
然后,用戶會被分配給不同層級的準入許可,以此來管制他們與數據互動的權力。最后,所有用戶和管理員與數據的互動行為都會被記錄在一個防干擾的審計日志當中。
合作
版本控制數據庫(The Revisioning Database)和Palantir Gotham平臺的關聯技術(Nexus Peering technology)讓機構內部和機構之間的多個用戶可以對同樣的數據無縫、安全地進行合作性分析。Palantir Gotham平臺支持多樣性的合作,包括能突破跨越機構、功能、地域間限制的合作,連接安全模型和數據模型間的合作,連接低頻、高延時下的不同網絡、甚至衛星的合作;同時數據的安全性和完整性都有可靠的保障。
可擴展性,可定制性,應用程序接口
Palantir Gotham 平臺每一層的堆棧都被設計成可擴展的:從底層數據集成、進口管道定制到用戶界面,它都被設計成一個完全開放的平臺。經由動態本體技術(Dynamic Ontology)整合的數據可以通過Java入口作為Palantir 對象(Palantir Objects)接入。這些數據同時也可以整體導出用于其它的框架和工具。
知識管理
所有被整合的數據都存儲在Palantir Gotham平臺的版本控制數據庫 (Revisioning Database.)中。對數據對象的任何改動,不論是來自數據源還是產生自用戶,都會被記錄于其中。在概念上,版本控制數據庫 (Revisioning Database.)與Git和其它分布式版本控制系統類似,它允許數據分析人員在個人沙箱中工作,這里留有各個修訂版本的歷史分支記錄方便修改,工作完成才需要將發現提交給企業。
用戶可以探索不同方向的推理想法,一路記錄下每一步,并可以跳回他們探索過程中的早期節點。同時,數據分析者還可以在不丟失自己工作進度的情況下與他人分享自己的見解。這些便利條件會促成一個版本控制知識庫的誕生。它將機構內不同分析者對數據的見解累積起來,并將之轉換為數據。在未來,企業可以利用這些分析成果取得杠桿式飛躍。
算法處理
內置的算法功能自動將有趣的集群數據有序排列在使用者的面前,以供其檢視,這樣就提高了使用者理解大規模數據的能力。Palantir Phoenix 工具提供了編譯和分析大規模數據集的功能,同時還提供了一個強大而靈活的框架用來實現該功能的自動化。非技術出身分析師也可以利用我們的種子框架(seed-generation framework)在不用寫一行代碼的情況下創作出一份精彩的成果。
規模
通過結合可伸縮的架構和聯合數據庫兩者,我們平臺可以處理P字節規模級別的數據。Phoenix 服務 扮演著數據倉庫系統的角色,存儲著大量結構性數據集,如日志文件,網絡流量記錄和交易數據。Raptor聯合搜索服務(Raptor federated search server)保有大量非結構性文本數據,如文檔,電子郵件和電報文件。這兩種服務經由搜索功能和增強的查詢助手功能的輔助極大提高了用戶處理數據的便捷性。當用戶向Phoenix 和 Raptor請求數據時,它們也同時被集成到RevDB供進一步分析。
三、應用程序
Palantir Gotham平臺前端提供了一整套的集成工具,這套工具在語義分析、時間分析、地理空間分析、全文分析方面均做了優化。用戶可以將數據對象在不同應用之間拖放以獲得流暢、全面的分析經驗。
圖表
圖表應用可以視覺化數據對象間的語義關系。數據對象被以網絡中的點和邊界的形式形象地描繪出來。
過濾工具使用戶可以深度探討感興趣的數據對象。圖表應用具有時間線功能可以可視化事件順序,還有時間輪功能能展示重復事件的周期和頻率。綜合性柱狀圖可以選出和過濾具有相同屬性的數據對象,比如相同的地址,電話號碼、城市或者相同領域名稱。圖表應用還具有將通訊數據、支付數據、船運數據及其他數據通過網絡時的情況可視化的功能。
用戶還可以通過調整圖表中網絡節點和邊界的分布來可視化網絡中的不同特點,例如層屬關系。一套演示工具可以方便用戶注釋圖表并提高他們在展示會議中圖表的說服力。
地圖
地圖應用程序提供地理空間分析功能。它將地圖中的對象基于地理位置進行可視化,提供直方圖,時間線、時間輪這些可視化形式。可視化熱點圖闡釋了一幅地圖上關注對象的密度。在地圖中的意象是完全可插入式的,可以實現不同來源意象的的轉換,整合自有的意象,通過聯合兩個或兩個以上的意象創建復合的意象集。
標記語言和電子地圖文件可以作為獨立地圖層導入,并且這些圖層包含的特征點可以被用作選擇和過濾具有相似特征(如一個縣,人口普查點,州)的對象。圖層可以根據其包含的數據進行計算的結果來著色和加標簽。
對象資源管理器
對象資源管理器應用程序允許用戶在大規模數據集中根據自己關注點進行深入挖掘。在Palantir 具有的地平線技術(Horizon technology)的支持下,對象資源管理器應用程序允許分析人員定義一系列過濾器并將之運用在數以十億計的數據對象中,以此得到值得關注的下層數據,它們可以被其它的Palantir Gotham應用程序進行分析,例如圖表應用程序或者地圖應用程序。
瀏覽器
在瀏覽器應用程序內,用戶可以查看數據并可將結構性的性質應用于非結構文件中。在瀏覽器讀取原始文本時,用戶可以“標記”特定文字,從而將一個文件與動態本體(Dynamic Ontology)中的某一個或者某一些特定對象聯系起來,使這些數據能夠在其他Palantir Gotham應用程序中得到分析。
移動端
Palantir 移動平臺將Palantir Gotham的作用范圍擴大到實時領域。像災后人道主義救援響應和聯合執法行動這些實時活動,它們行動分散需要進行統一,數據收集面臨著環境變化迅速的挑戰。Palantir 移動平臺的客戶端在安卓和IOS兩種系統上均能運行,這讓它能實現現場工作人員和基地人員的實時合作。移動平臺用戶可以整理現場報告,上傳照片和視頻,記錄小組成員位置,并且搜索和利用整合在Palantir Gotham平臺上的數據。
四、技術
Palantir Phoenix技術是一種集群式的數據存儲技術,支持在P字節規模的數億萬億計的數據記錄中進行亞秒級別的查詢。利用Phoenix技術可以使其他一些開源技術在處理大規模數據和進行高級分析時達到杠桿效率。
The Palantir Raptor技術支持對外部數據源的就地聯合查詢。它利用動態方法完成數據集成。當一次聯合查詢被確認為Raptor技術的查詢時,此記錄會被就地轉移到版本控制數據庫中(Revisioning Database)
The Palantir Gotham平臺搜索技術可對平臺中的所有數據,不論是結構化數據還是非結構化數據,進行全文查詢。
Horizon技術是由Palantir創建的內存數據庫,用來對引導大規模數據下工作流的交互作用。Horizon技術使分析人員能查詢數十億級的對象并在10秒內得到結果。它創建于2009年,與 Apache Spark 在設計上相似。Horizon技術作為支撐Palantir Gotham對象瀏覽器(Object Explorer)關鍵技術,讓分析人員把大數據過濾為一些方便管理的次級數據以供進一步詳細分析。
Palantir Gotham 中的動態本體(Dynamic Ontology)是一種定義靈活,基于對象的數據模型,這個特點使它能將來源多樣化的數據整合在一起,并將存儲的原始數據格式轉化為Palantir Gotham上使用的數據對象格式。此種格式表示的是現實世界中的人、地點、事物、事件及彼此間的關系的特性。不同的機構對現實情境有著不同的認識,需要不同的模型。這些模型隨著時間而改變,因而動態本體的具體含義也就在現實的基礎上不斷重塑,并且會跟著新數據源一起增減,甚至會重新概念化。Palantir Gotham平臺上這些靈活而統一的數據模型能極大地簡化數據整合的過程。以往企業多年才能完成的數據整合項目,現在只要幾周時間便可完成。
版本控制數據庫技術
版本控制數據庫技術(The Revisioning Database)簡稱為RevDB,為Palantir Gotham技術提供了持續穩定的數據存儲能力。它增強了平臺的訪問控制,審計,知識管理和協同工作能力。此中所有數據都附有它們的歷史信息,包括創建和修改日期,創建和修改者身份,數據來源地以及數據自身的安全設定和訪問限制。這些原資料都可以被客戶接觸,使用戶能夠獲得背景信息豐富的條件下的分析經驗,并且可以保證不同權限用戶間的合作安全和不同分析方式用戶間的合作安全。廣泛的原始資料,可靠的安全規范和完善的版本控制,這些條件可以使不同用戶對給定的數據對象從不同角度進行審視,同時也維持著數據的完整性。
AtlasDB是版本控制數據庫(Revisioning Database)的數據存儲器。它既具有現代分布式非關系型數據庫的簡潔性和可擴展性,也具有傳統關系型數據庫的保證數據交易安全和相容性高的特點。AtlasDB菜單處理ACID(指數據庫事務正確執行的四個基本要素的縮寫)的兼容性方面遠高于key-value分布式存儲系統。AtlasDB在底層的程序界面便注重了便捷性和可插入性,這使它既可以處理數據庫級別的數據要求也可以處理筆記本級別的數據要求同時保持良好的性價比。
Palantir Gotham是一個分布式系統,而Nexus Peered網是它的一個實例,也就是一個分布式系統的分布式系統。每一個Palantir Gotham平臺的實例在RevDB中都包含自己的”nexus’數據。一個”nexus”可以包含Palantir Gotham平臺實例通過同步或者”peering”產生的數據和分析。Nexus Peering技術通過捕獲、循環、融合數據變動實現Palantir Gotham 實例的數據共享。不能解決的沖突性變化會留待人工解決并會以圖解的形式展現在界面上。Nexus Peering技術可以在保證實例間的穩定狀態的同時實現動態本體的多樣化和控制權限制度的多樣化。我們開發Nexus Peering技術的目的便在于使不同機構,不同功能部門,不同地域使用者之間能安全地分享數據和合作式的分析數據。