當Chrizs Smith加入Ticketmaster擔任數據科學副總裁時,這家有著40年歷史的票務公司在其數據科學項目中面臨著獨特的挑戰。
“我們的技術債務比我工作過的大多數公司都要老舊,”他說。
Ticketmaster通過與各種IT系統的定制數據集成,實現了早期數據科學的成功,而且也獲得了很多這樣的成功。經過40年的收購和內部軟件開發,該公司擁有大約300個IT系統,每個系統都獨立于自己的數據孤島之上。
隨著Ticketmaster開始進入門票轉售等新興市場,以及為場館提供管理和報告工具,它需要一種新的方法來集成這些數據孤島,并使其數據可供整個組織使用,而無需重寫其所有的軟件。
“我們需要一種通用的語言,可以教授給每個不同的系統,這將是一個不小的工作量,使我們能夠獲得系統的數據,并提供給每一個人,”Smith說。這種改變必須在對現有系統的干擾最小的情況下進行。“采用舊系統并將其應用于新問題的危險之一是它的設計可能會不合適,”他說。“它實際上會使系統更加不穩定,性能更差,而且隨著時間的推移也更難進化。”
流處理
最初,Ticketmaster用Hadoop進行了批量處理大數據的實驗,然后使用了Apache Storm,一個開源的流計算系統。
在該行業的其他地方,Ticketmaster正在使用另一個開源流處理平臺Kafka,Smith以前在廣告技術部門工作時就很熟悉這個平臺。
Kafka最初是由領英的員工開發的,后來捐贈給了Apache軟件基金會。它的創建者接著創建了Confluent,該公司雇傭了Kafka的大部分開發者,并提供圍繞該平臺構建的企業服務。
像消息隊列或企業消息系統一樣,Kafka允許用戶發布和訂閱信息流,但它也可以以高容錯性的方式存儲這些流,并記錄到達時對其進行的處理。
Smith認識到Kafka可以將Ticketmaster的數據推送到一個占用空間非常小的流中,并使他的團隊能夠以更快的方式迭代數據科學問題。
“這就像是數據科學家的貓薄荷,”他說。“一旦他們能夠訪問所有的這些數據,他們就會變得更加感興趣。”
為了將Kafka推薦給Ticketmaster的首席數據官,Smith必須展示該系統的高可用性和可擴展性。
“每次我們出售門票,本質上都是我們針對自己發起的一次分布式拒絕服務攻擊,因此這帶來了一些非常有趣的規模性的挑戰,”他表示。“如果你在一群試圖去聽音樂會或參加體育賽事的人中間倒下了,這對任何參與其中的人來說便都不是一次愉快的經歷。讓事情成功是最重要的。”
Kafka的另一個好處是Confluent提供的支持,包括圍繞Kafka構建的更大的數據平臺。它開發的一個被稱為模式注冊中心的組件,Smith極力推薦了它。
“很多人,當他們開始的時候,他們不會馬上使用模式注冊中心,這就造成了一種很難走出的技術死胡同,”他說。使用注冊表,公司可以在保持與現有應用程序向后兼容的同時,發展他們的與Kafka一起使用的數據庫模式。“你必須保持快速的迭代速度,否則就可能會讓你陷入非常脆弱且難以改變的環境當中。”
與業務部門合作
盡管Ticketmaster現在在整個企業中都使用了Kafka,但Smith的團隊一開始的規模很小,他們與fan data團隊合作,幫助他們創建通過Ticketmaster購買門票的球迷的單一視圖,然后與其他三到四個團隊一起構建了關鍵集成。
“我們會去找那些團隊,說,看吧,我們需要你的數據。我們希望你能夠使用這種你以前從未使用過的新技術,但我們也將為你提供專業知識,向你展示如何使用它。當然,這些團隊對他們的系統如何工作有自己的專長,所以這是一個聯合行動,”他說。
那些最初的、低風險的集成工作產生了一種網絡效應,他說:“團隊開始來找你,而不是反過來,因為能夠將單個組件的數據與我們創建的更大的數據生態系統集成會有很大的價值。”
使用Ticketmaster門票轉售和場館登記服務的客戶也可以從中受益,因為有了一項新功能,一旦門票被用于進入場館,他們就可以拒絕轉售。當粉絲主動提出轉賣他們的票,而沒有任何買家,并在最后一分鐘決定去看演出時,而如果又有其他人主動提出購買現在無法買到的票時,就會很有用。“可能你會有一個令粉絲失望的經歷,但是這最終可以通過我們不同系統之間的大量點對點的集成來解決,”Smith說。“但由于我們已經通過系統獲得了相關數據,管理這些轉售清單的人能夠很容易地將他們的數據整合到Kafka”并獲得自動退市功能。
盡管向Kafka的遷移最初是為了通過消除定制數據集成的需求來減少技術債務,但在系統上獲取關鍵的實時數據卻為實時處理帶來了許多機會。
“這就是我們基于身份的售票平臺的工作方式。這就是我們壓榨系統性能的工作方式。這是我們不僅能夠提供自己銷售的實時視圖,還能提供活動出席過程的實時視圖的原因所在,”Smith說。“在實時情況下,客戶可以看到人們在哪里進入了他們的場地,并可以注意到什么時候有VIP進入了場地,這樣他們就可以接觸到他們,給他們提供VIP級的體驗。”
隱私處理
然而,并非所有公司的系統都是通過Kafka連接起來的。有些系統不是優先考慮的遺留系統,現在正在退役當中。其他公司還沒有足夠長的時間來進行整合,它們是Ticketmaster最近收購的一些初創公司或競爭對手的一部分。
但是,Smith說,如果你今天從Ticketmaster網站上購買了一張票,關于你購買的數據就會經過Kafka。
“我們的關鍵數據系統是絕對集成的,而且很多你通常認為不那么重要的系統也被集成了進來,這種集成非常有價值。”
出乎意料的是,Kafka也成了處理隱私數據的一個關鍵工具。
“它已經被連接到大多數擁有個人身份信息的系統中了,我們只是做了一點額外的工作來將其余的信息也整合到其中,”Smith說。“它變成了一種中樞神經系統,可以用于管理我們可能遇到的任何隱私請求或擔憂。”
Smith下次會做的一件不同的事情將會是更早地向Confluent尋求幫助,以便在Kafka上培訓員工。“我們最終做到了,”他說。
一旦組織內部對使用Kafka的需求開始上升,培訓支持就變得特別重要了。“我們確實在中間花了很長一段時間……我們還沒有完成訓練,但是我們正在進行計劃,嗯,比我想象的要混亂一點。從那時起,我便一直在清理一些爛攤子了,”他說。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。