在與兩位頂級數據分析思想領袖的廣泛對話中,行業媒體提出了當今數據分析中的一些關鍵問題。以下的主題包括:
(1)在冠狀病毒疫情持續蔓延的情況下,如何看待當前疫情影響數據分析部門或數據分析的工作實踐?
(2)商業智能專家和數據科學家在角色和關鍵優勢方面有哪些不同?
(3)為什么“暗數據”很重要?針對暗數據的有效策略應該是什么?
(4)很多高管表示他們的企業在數據分析方面面臨很多困難。為什么數據分析仍然如此困難?
為了提供對數據分析的深入了解,行業媒體與Hitachi Vantara公司首席創新官Bill Schmarzo和Splunk公司首席技術倡導者Andi Mann為此進行了探討。
如何看待當前持續蔓延的疫情正在影響數據分析行業和數據分析實踐?
Mann說:“數據分析很有趣,現在必須從數據分析獲得更多的洞察力。數據分析的方法之一就是嘗試了解在疫情這個經濟低迷期間能夠更有效地將資源分配到何處。很多企業的員工在家遠程工作,實際上并沒有中斷業務,這真的很重要。
零售、在線服務、數字服務、營銷服務等行業受到了疫情的不同影響。他們可以采用更好的一種方法是使用數據分析,將其用于目標營銷和與客戶進行有針對性的接觸。當然,對于非營利組織和政府機構來說,能夠使用數據為處于經濟低迷時期最需要的人員提供服務,例如失業人員或者無家可歸的人員。
因此,可以使用數據分析來確定目標。例如Splunk公司正在提供數據集并向公共服務機構提供分析服務。我們正在與大學開展合作以嘗試追蹤傳播,我們正在與企業和政府合作以嘗試追蹤冠狀病毒疫情和其他事物的發展。因此,數據分析不僅可以幫助研究冠狀病毒的毒性和傳播機制,而且還可以幫助人們對抗冠狀病毒。
因為Splunk是一種數據分析平臺,我們不是自己創建數據,而是從其他來源獲取數據,并將其提供給各個州和聯邦政府機構,以便他們可以使用Splunk對數據集進行分析。它真的很強大。”
Schmarzo說:“實際上,數據分析不僅可以用于抗擊冠狀病毒的蔓延,而且可以分析疫情結束之后的發展情況,這實際上都是非常重要的。考慮到全球各國為了應對疫情而花費難以估量的費用,我們必須在某個時間點進行償還。
因此,我認為我們必須使用數據分析來采用更少的資源做更多的事情。我們將不得不非常微觀地關注營銷活動和治療活動。一切都將變得高度個性化。
例如醫療保健領域。很多政府部門現在就醫療保健和整體福利作出全面的政策決定。很多組織在這方面有太多浪費,因此需要從根本上獲得更多收益,或者說‘少花錢多辦事’的想法變得更加微觀化,這對于分析行業來說將是一件好事,因為我們非常擅長利用非常詳細的分析資料和數字趨勢,來真正了解每個客戶、老師、學生、設備之間的獨特差異。
所以我認為,大多數組織都必須具備這樣一種心態,即‘少花錢多辦事’,因為這是組織在面臨嚴峻的利潤壓力時能夠改變其經濟價值曲線的唯一途徑,可以大幅增加稅收,而世界上沒有免費的午餐。”
您是否聽說過在這個困難時期如何進行分析的事情?
Schmarzo說:“制藥領域的企業肯定是全天候不間斷運營。我上周和來自制藥商葛蘭素史克的機器學習工程師一起參加了一個小組討論,他們表示正在致力于研發抗擊冠狀病毒的藥物和疫苗。
我們作為數據行業人士,對關于疫情的數據缺乏更多的了解,這是一個悲劇。我們沒有進行足夠的測試,有時甚至對其結果沒有信心。現在發生的一切是就是沒有進行數據科學的典型例子。當一些人只通過收集的少量數據進行預測和推斷時,這在某種程度上過度樂觀或者有些過于消極,人們只是沒有對這些問題應用良好的數據科學嚴謹性。即使是一個很小的數據集,人們也可以深思熟慮,但必須清楚說明這些數據集的約束條件和假設。
小數據集并不是隨機樣本,沒有采用分析工作。有些人只是通過少量數字,然后推斷到某些極端情況。在許多情況下,這樣做只是因為他們自己的個人日程。”
Mann說:“我和很多客戶進行了溝通,他們的數據科學家正在開展工作,但是在醫療保健領域,有很多人長期進行數字運算工作,只是想弄清楚如何應對和遏制病毒傳播,也有許多人試圖弄清楚該病毒的傳播方式。
因此,我看到金融界人士為了了解業務而采用數據分析。因此,使用數據科學來衡量他們的業務指標,就像我之前說的那樣,試圖嘗試并理解將資源放在哪里。
此外,我看到另一個數字處理的領域是保險業,需要進行保險索賠。保險行業將面臨很多挑戰,因此他們進行了大量的精算數字運算,正在將數據科學應用于他們的精算實踐。在使用數據分析的效果方面存在很多缺陷,我認為有些人并沒有意識到這一點。”
商業智能專家和數據科學家在角色和關鍵優勢方面有哪些不同?
Schmarzo說:商業智能專家和數據科學家這二者都很重要。如果沒有報告可以告訴正在發生的事情,那么不知道將資源和數據科學工作重點放在哪里,因此它們是非常互補的。這個信息圖表可能使商業智能領域廠商付出的代價比其他事情都要多,因為人們誤解為數據科學就是BI 3.0。
這二者非常不同,商業智能專家確實在努力清晰地傳達組織用來衡量進度和成功的指標和關鍵績效指標(KPI)。
然而,數據科學家正試圖找出那些變量和指標,可能是更好的業績預測指標。這是一條探索性很強的路線,將以失敗為中心,需要不斷嘗試,不斷失敗,不斷學習,人們無法在數據科學方面衡量多少時間的進展,如果了解錯誤肯定和錯誤否定的代價,那么實際上只能衡量自己在建立模型方面的效率,因此實際上這是兩個不同的世界。而這二者并沒有一個比另一個好的問題。
在數據科學領域,所有這些都集中于真正理解試圖證明的假設,例如,需要衡量成功和進步的指標是什么,業務實體、利益相關者以及所有那些指標非常不同。”
Maguire說:“談論這二者的區別很有趣,很顯然,我認為企業在選擇商業智能專家和數據科學家的簡歷時,很多人都可能會選擇數據科學家,因為聽起來很好。而且我認為,以失敗為中心的數據科學專家也很有趣,這實際上可能是真正的學習。也許一些企業高管會說:“我們為什么為這個以失敗為中心的專家支付這么高的薪酬?”
Schmarzo說:“如果沒有足夠的失敗,那就意味著嘗試并不足夠,也就是努力并不夠。失敗是一種有效的學習方法。在商業智能方面,如果構建的架構無法正常工作,那么這樣的失敗將不會被接受。不斷嘗試不同的數據和數據元素的組合、轉換和擴充,試圖找出這些變量和組合中哪一個確實能提供更好的預測。”
Mann說:“商業智能和數據科學是兩種完全不同的科學。它們在很大程度上都是一種科學。商業智能隨著知識的積累而成長,這對于企業如何開展業務實際上非常重要。
這兩種科學確實存在一些非常大的差異。數據科學是關于創新過程,例如數據科學談論的是創新源于從失敗中吸取的教訓。我認為,如果沒有失敗,那么就不會學習,通過嘗試可以獲取更多的數據和理解,應該詢問更多的問題,而不是尋找更多的答案。
因此,數據科學家似乎提出了很多問題,而用戶又對數據提出了更多問題。用戶得到的每個答案都只是提出更多問題的機會。因此,這是另一種思維方式。我認為,考慮將來自任何來源的數據帶到任何問題,而不是試圖找到答案,這是一種不同的思維方式。因此,數據科學家如何看待創新機會的思維方式確實存在根本性的差異。將數據視為永遠沒有最終答案,并且總是提出更多問題。而商業智能專家尋求答案,因為他們的業務需要開展,這是他們需要的重要內容。
因此,這種創新理念與經營業務無關。這是我看到的最大差異之一,它在諸如預先部署、精心計劃與按需添加數據源等方面非常出色。
由于在商業智能中,知道要問的是什么問題,所以知道打算通過數據科學來規劃該數據集。因此需要能夠引入新的數據集,并在運行中不斷豐富。其中遇到的一些問題確實將數據科學的概念鎖定在了創新和問題上。我認為這是一種非常有趣的觀察方式。”
Schmarzo說:“我再補充兩點。第一,商業智能專家真正關心的是了解發生的情況以及發生的領域。數據分析科學家是試圖了解它為什么會發生,當將它們組合在一起時,它會變得功能強大。
另一件事,我認為在商業智能專家將逐漸變得成熟。真正了解數據和分析可以在何處以及如何推動業務發展。他們具有更強的業務敏銳度,并且擅長進行價值工程,識別、驗證和確定價值創造的來源。
然后將它們與數據科學相結合,這將成為一個強大的團隊。有人曾問我,商業智能和數據科學有什么區別?我花了很長的時間來認真思考,研究這二者在工作中是如何思考和處理的,以及如何改變事情的思維方式。然后得出的結論是團隊需要這兩方面的人才。”
Mann說:“這讓我想到的另一件事,就是讓人工智能在很大程度上完成人類的工作。商業智能專家具有深厚的商業知識,這也許是數據科學家不具備的能力,因此需要了解他們的業務,利用他們的智慧來了解他們試圖解決的問題。
而數據科學家通常會因為處理海量的數據集之類的東西,而經常會使用機器學習和人工智能技術。因為人類確實不善于觀察,但機器確實擅長于此。因此,當接觸到巨大的數據集時,使用機器學習幾乎成為獲得洞察力的必然選擇,而商業智能專家不一定需要采用機器學習,只需要獲得正確的數據集,并以正確的方式使用它們來獲得所需的洞察力。”
Schmarzo說:“但是有趣的是,當我們考慮到冠狀病毒疫情帶來的影響,必須能夠使用這些機器來幫助我們對客戶、員工、產品、服務、運營的每一個方面進行非常細化的洞察。正是這種粒度級別可以使我們從中獲得更多收益,我們只是追求采用更少的錢做更多的事情。
傳統上,商業智能一直專注于聚合數據的分類,在聚合水平上看待事物以及做出一些決定。當我們試圖用更少的錢做更多的事情時,我們需要那些機器來告訴哪些患者患有哪種疾病的風險,哪些人面臨患病的最大風險。”
為什么“暗數據”很重要?針對暗數據的有效策略應該是什么?
Mann說:“這是我們真正感興趣的東西。Splunk公司是一家分析和處理數據的公司,客戶使用我們提供的數據分析平臺處理他們的數據。因此,數據確實非常重要,并且我們有一個理論,即無論使用什么數據,使用的數據越多,就越能做得更好。因此,我們與一家獨立分析機構Enterprise Strategy Group合作,要求他們驗證我們有關此暗數據的一些想法。收集更多數據,使業務做得更好,這是我們的基本假設,這成為了事實。
ESG公司分析師考察了企業如何更好地經營。因此,他們著眼于收入、盈利能力和效率之類的指標,研究了使用和查找數據的含義。他們還圍繞企業的IT預算和支出用于數據分析的問題,對發現暗數據的承諾,以及對其進行操作的效率提出了疑問。因此,當查看可以在組織中使用更多數據的團隊與最后使用且對數據的忠誠度較低團隊之間的差異時,確實有顯著的不同結果。
當我們談到這些人使用他們的暗數據時,所有這些隱藏在數據庫、日志流或邊緣設備、或各種渦輪機、生產線中的數據,就會發現,當收集更多的數據時,就可以更多獲得,并且花費更少。而用更少的錢做更多的事,這很適合。
他們也能夠領先于競爭對手,開發和推出產品的可能性是競爭對手的兩倍。而且,在未來幾年內,超過客戶關注目標的可能性是競爭對手的兩倍,從新產品和服務中獲得20%以上收入的可能性是競爭對手的10倍。所以數據直接推動了創新。這很吸引人。”
這都是關于挖掘未使用的數據,但問題是如果數據已經被使用了,那么如何找到資源來挖掘那些額外的數據呢?
Mann說: “我們實際上是與我們的客戶一起進行數據源評估。例如數據在哪里,有什么數據,用途是什么。而且,不一定非得尋求外部機構的幫助來處理。可以讓組織內部的數據科學家解決諸如此類的問題,因為正如之前所討論的那樣,數據科學家的作用在于發現尚未獲得的見解。因此,能夠使其數據科學家找到暗數據,并開始圍繞如何??利用這些未知因素使組織的業務更好地制定策略,這是另一種看待世界的方式。”
Schmarzo說:“在有關暗數據的話題上,有一些非常有趣的事情。如何確定數據是否有價值?怎么知道應該嘗試返回并找到這些數據源并將其引入?我們發現,如果讓用例驅動它,這些用例將幫助人們區分哪些數據具有價值。它最終將幫助區分數據中的噪聲和信號。因此,許多方法都非常以用例為中心。
選擇一個用例,了解要執行的操作,然后集思廣益,可能想查看哪些數據源。這包括挖掘一些原有的數據。當然,當今最可能使用暗數據的例子是冠狀病毒疫情所發生的情況,以及韓國如何立即使用SARS和豬流感數據。他們收集了大量數據,做出了一些正確的預測,那是10年前的數據,那是無用的數據。誰會再需要這些數據?但這非常有價值,可以幫助他們真正做出精細的決策。
因此,組織擁有大量數據,這些數據埋在組織的不同部分。我們找到解決問題的最佳方法是,考慮要使用的用例,然后將所有不同利益相關者召集在一起,開始考慮擁有哪些數據,可以處理哪些數據并開始這一過程。很多時候,我們發現業務利益相關者和業務分析師了解什么數據可能有用。數據科學家實際上會告訴企業哪些數據有用。”
即使在當今時代,為什么數據分析仍然如此困難?
Mann說:“所以我認為有很多原因。我認為這全都源于這樣一個概念,即人類在數字方面通常沒有那么優秀。這并不是說有些人的數學不是很好,但是數字是一種構造,大多數人都是通過視覺進行觀察。而人類還可以使用聽覺和嗅覺來了解更多的信息。
此外,人們不是很擅長處理自相矛盾的想法。因此,當數據告訴人們一些不知道的東西時這是一回事,但是當數據告訴一些令人不相信的東西時,這很困難。因此,很多人會丟棄一些數據,因為它們無法證實先前的觀點。當人們談論冠狀病毒疫情時,有趣的是發現需要收集更多數據,進行更多測試,而使用更多數據的想法將改變這些模型的結果。
因此,我認為人們不會自然地偏向于數據和分析。他們自然傾向于故事和想法。因此,正如我之前所說,要成為一名數據科學家需要一種獨特的心態。但是,它還具有獨特的能力,可以妥協并接受數據科學家的新想法,以使企業高管能夠推動這些計劃。不幸的是,這些是人類一些不常見的特征。”
Schmarzo說:“人類確實在數字和圖案處理方案方面很糟糕,如果需要任何證據證明的話,那么可以去拉斯維加斯賭場嘗試一下進行賭博。有人說,賭博對于數學不好的人來說是一種收稅手段。
另外,很多人正在從數據分析中尋找魔力。問題當然是“魔力”這一術語。數據分析沒有任何魔力,而是一項艱苦的工作。我們在數據科學領域所做的一切并沒有什么神奇之處,只是大量艱苦的工作。這實際上是一種流程和思維定勢。我們將探索許多不同的想法,將嘗試一些不同的事情,將會不斷面臨失敗,并且不斷迭代,并繼續在這個過程中不斷學習。這就是我們要做的很多事情就是讓企業高管如何像數據科學家一樣思考的原因。
我們有一套完整的方法來吸引高管人員。如何讓商務人士像一個已經開始采用數據和分析功能的數據科學家那樣思考?在許多情況下,這要求他們不了解自己做過的事情,放棄他們原有的工作方式,現在準備接受新的學習過程。”
Mann說:“我認為這是因為人們在數字方面很差勁,可以這么說,如今擅長使用Excel的人都是數據科學家。但是我認為采用的工具集也存在部分缺陷。因為數據科學家是非常聰明的人,所以他們不介意使用復雜而困難的工具集。我認為作為IT領導者,需要創建更簡單的工具集。我們正在做的一件事是讓人們將開源算法插入機器學習工具包中。
因此,人們不必成為數據科學家即可采用數據科學。我認為,作為IT和數據領域的領導者,我們可以做很多事情,以使數據科學更易于獲得。”
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。