在現如今這樣一個物聯網(IoT)的世界,從供熱系統到生產控制系統再到射頻識別(RFID)標簽,一切都在收集數據信息。
這樣的數據收集既有好處也有壞處。好處在于,因為這些數據信息被鎖定,使得您企業可以更好的提高工作效率,更智能化地工作,并尋找新的營收和資源來源。壞處則在于,很少有企業是真正為大量數據洪水做好了充分的準備的。
為了幫助您的企業更好的處理數據并設計出最佳的數據管理策略,我們尋求了大量業界專家的意見和建議:其中包括了來自通用電氣和英特爾的物聯網領域的專家,這些企業已經全面部署了物聯網;同時還有一些專門負責幫助企業用戶應對物聯網大數據相關問題的企業的專家。
在本文中,提供了對于這一問題的深入研究以及相應可能的解決方案。
問題一覽
在我們聽取相關專業人士的建議之前,讓我們先簡要地對該問題的狀況進行一下一覽。主要負責銷售大數據分析平臺的Datameer公司表示說,到2019年,將會有350億臺設備連接到互聯網。共計將有40000艾字節的數據通過各種互聯設備的傳感器生成。
我們所探討的是什么樣的數據類型呢?其可能是任何類型的數據。例如,制造企業使用傳感器來檢查他們的設備和儀器,以確保一切生產工序的順利運行,并完善制造工藝流程。而零售商們則可以使用數據來更好地跟蹤銷售,并將銷售信息與供應鏈聯系起來。而日常設備也將收集數據信息。
因此,一項由埃森哲和通用電氣聯合進行的調研發現大數據現在已經成為企業最為關注的問題也就不足為奇了。在受訪的高管中,有88%的高管均表示說,大數據項目是其所在企業當前三大重點項目之一,而82%的受訪者表示,他們將在未來三年內建立或增加其現有的大數據平臺或他們的數據分析能力。
來自通用電氣的長期觀點
從各方面來看,GE都可以說是物聯網和大數據應用的先驅之一,無論其在自己企業內部對于該技術的部署采用還是為其企業用戶提供充分利用物聯網數據優勢的服務方面。GE的業務范圍涵蓋了諸多領域,從航空業到能源管理、醫療保健、石油和天然氣、交通運輸等等,工廠遍及世界各地。所以該公司不得不在大多數其他公司之前面對物聯網數據洪水。根據該公司的經驗,其為物聯網和數據銷售產品和服務,特別是在通用電氣的智能平臺事業部。
通用電氣智能平臺軟件部門的首席軟件架構師Rich Carpenter表示說,對于大多數公司來說,他們在利用物聯網的數據方面所面臨的第一個挑戰是數據的收集,這是一個比您想象的要艱巨得多的任務。
他說:“我們在自己的業務中面臨著很多這方面的問題,我們有400家全球性的工廠,以及海量未與網絡連接的設備,因為大量的設備是在互聯網流行之前就已經被安裝的。”
他說,通用電氣將其設備分為三類:完全無連接的設備;能夠連接,但需要一些工作來完成連接的設備;已連接或可以很容易地連接的設備。然后,GE針對每種類型的設備分別實施了不同的數據收集策略。
但是,僅僅收集來自物聯網設備的數據是不夠的。物聯網數據可以有許多不同的格式,其可能互不兼容或無法與數據分析軟件兼容。
在其工業生產中,通用電氣安裝了數據采集設備,其稱之為現場探員(field agent),具有安全、身份驗證的連接到數據存儲的公共或私有云。設備不僅能安全地發送數據,而且還可以決定收集什么數據,使用什么協議來收集它們,以及如何存儲數據。
一旦數據被收集,企業需要理解這些數據的意義,并挖掘有用的信??息。這是非常困難的。而更具挑戰性的是要充分利用這些數據信息,然后用它來改進企業的工作方式,比如使得一個制造工廠的生產變的更有效。
Carpenter 警告說,許多公司都停留在了這個階段。他就企業如何解決這個問題提出了相關建議。
“一些公司通過挑選一處制造工廠開始,并嘗試將其進一步在全企業范圍內推廣之前,進行該試點工廠的數據采集和分析。但他們可以永遠地解決所有的問題,即使是在一處試點工廠。我們已經了解到,一套更明確的解決方案是奏效的。先在該試點工廠實現70%的部署,然后將其規模化擴展到整個企業。這可以為您企業更快的帶來更大的價值。”
Carpenter還表示說,幾乎所有類型的企業最終將不得不考慮采用物聯網數據,并成為數據驅動型企業。
他說:“這并不僅僅是針對那些制造企業或已經知道需要進入物聯網的公司。所有的企業都將需要物聯網數據,無論是對其資產的管理維護,企業資源管理,供應鏈,或是幫助員工更有效地工作。”
來自英特爾建議:首先關注您企業的業務目標
英特爾數據中心集團大數據分析戰略總監Vin Sharma同意 Carpenter的幾乎任何一家企業總有一天都會需要利用物聯網的數據的觀點。
“農業,制造業,醫療保健業都有明顯的利用物聯網數據的愿望和需求。”他說。 “但我們所的期望是,每家企業都希望能夠利用所有他們所能夠獲得的數據,而這意味著物聯網的數據。我竭力想象一個不需要這種數據信息的行業,但實在很難想象。例如,零售業的企業可以通過監測庫存商品的RFID標簽來獲得很多價值。最終,許多公司的目標將是獲得對于其客戶的360度的視角,無論是對醫療行業的患者,農業產業的農民,或是零售行業的消費者。“
Sharma說,也許企業利用物聯網數據最大的錯誤是與技術無關,而是一切都牽扯到對于其業務目標的理解。
“一個常見的問題是,企業在開始之前對于他們要解決的分析問題以及他們的業務目標,并沒有一個非常明確的定義。”他說。“這方面存在一定的含糊不清,并轉化成了長期部署的拖延。但一旦企業對于他們想要完成的目標有了一個非常清晰的想法,事情往往會很快達成。”
Sharma列舉了服裝行業著手部署任何物聯網項目之前,作為明確定義業務問題的重要性的一個例子。
“比方說,讓我們來看看我的商店的庫存的準確性是否如我所希望的那樣。”他說。 “這迫使我需要積壓服裝產品,這會造成浪費,降低了我的利潤。而這種狀況也同樣延續到了供應鏈。所以,我知道提高我的店內庫存的準確性,將提高我的收益率。這給了我關于我所想要解決的問題的一個非常明確的定義。“
明確了這個目標,企業可以設計一個系統,以獲得關于其庫存的存儲貨物的更多的細粒度和準確的數據,例如通過使用射頻識別傳感器陣列。
他說,第二個大問題是企業的物聯網項目所涵蓋的范圍——通常,他們的范圍會過大而變得笨拙,很難部署和管理。
“我們看到很多企業通過規劃一個非常具體的措施范圍使得概念驗證取得了成功,然后實現了一個小規模的試點。在此之后,他們可以跨整個企業范圍在橫向和縱向水平規模化縮放他們的業務。“
他回到關于服裝需要得到更準確的庫存盤點的例子。他建議在一個單一的存儲倉庫進行庫存盤點試點,以解決所有問題。之后,可以擴展到所有的300處商店倉庫,然后添加其他類型的數據收集到項目部署。
使用基于云的Hadoop平臺
即使企業對于他們想解決的業務問題有了明確的定義。但除非他們擁有分析平臺來進行數據處理,否則他們是無法使用物聯網數據的。越來越多的開源Apache Hadoop被視為首選的平臺。原因在于:其提供了分布式存儲,并通過使用由低成本的商品硬件構建的計算機集群來處理非常大的數據集。
但是Hadoop并不容易部署,而且是超出了許多企業技術專家的專長。此外,很多企業可能并不愿意部署大量物聯網數據可能需要的平臺。因此,許多提供基于云的、端到端的Hadoop平臺,專為處理大數據,包括物聯網數據的服務企業如雨后春筍般涌現。這樣一來,企業可以專注于數據分析,而不是關于建設、部署和管理一個完整的平臺的爭吵。
Datameer公司便是提供這類平臺的供應商之一。Datameer公司于2009年首先建立了自己的平臺,該公司技術產品營銷和推廣高級主管安德魯·布魯斯特警告說,企業千萬不要陷入了當前物聯網過度的炒作。
“目前,物聯網正處在其炒作的黃金周期,所以聽起來似乎企業所面臨的數據問題是全新的。但在其核心,其并不是的。我們現在一般講的是流媒體的數據和分析。主要的區別是,我們現在可以從更大量的數據源收集數據,并且我們收集這些數據的頻率也更快。”
他說,物聯網數據的最大問題之一是:其是來自使用許多不同的協議和數據標準的許多不同設備的,而且這些協議和數據標準不一定是彼此相容的。在一些情況下,數據是高度結構化,而在其他情況下,卻不是。
“我可以給人們的最大建議是尋找能夠讓您在所有的物聯網數據上創建一個抽象層的技術和工具。這樣,當您得到了很多不同類型的數據時,您仍然可以對其進行處理,因為該平臺將能夠處理新的標準。同時您還需要尋找一款將能夠從盡可能多的將不同來源的數據進行集成整合的產品。”
布魯斯特還表示,企業雇傭具備合適分析技能的合適的員工也是非常重要的。他也承認,現如今的數據科學家都供不應求,但他認為沒有必要只是雇用有該職位頭銜的人。
“雖然圍繞著數據科學家這一概念還有太多的神秘感,但是您不應該僅僅因為市場對于這一職位的炒作很厲害,就認為您企業也需要雇傭一個具備這方面技能的人。”他說。“如果您企業有具備很好技術的員工在數據倉庫和IT 部門工作,您可以為他們提供專業知識培訓,以便他們能夠勝任該工作。您不僅可以獲得合適的資源,而且還可以為您的企業的相關員工提供相應的機會。”
Altiscale公司還提供了一款基于云的Hadoop平臺。該公司的首席運營官Mike Maciag認為,借助物聯網的數據的工作與以往借助大數據工作的方式有著顯著的不同。
“在很多情況下,物聯網數據是許多小的數據不斷累積起來的數據的集合。”他說。 “不斷有恒定的數據流匯集成數百TB然后再匯集成艾字節。此外,其通常時非結構化的數據,因此其在變得有用之前可能需要大量的操作處理。而獨特的是,許多數據都是在云計算中生成的,并通過云到達您的企業。”
他說,這在某種程度上,改變了企業考慮數據的方式。在過去,他說,企業需要提取數據,轉換數據,然后將其加載到數據庫中。隨著物聯網的發展,“這種情況已經改變,企業可以提取數據,加載數據,然后轉換數據。??”
正因為如此,他建議,“企業務必要確保存儲所有能夠獲得的數據,不要將其扔掉,即使您還不知道該如何處置。其可能會在某一天當您的公司想出了新的戰略和業務經營模式時成為非常寶貴的資源。”
而鑒于企業不斷摸索和形成新的戰略和新的經營方式,這也就是為什么企業需要現在就開始制定一套物聯網大數據戰略,或改進他們已有的物聯網大數據戰略的原因所在了。正如通用電氣的Carpenter所說的那樣,“這是關乎到市場競爭的問題。您企業需要運行基于真實業務的數據,而不是您所想象的東西。而您企業的競爭對手正在這樣做。如果您企業不這樣做的話,您會被市場淘汰。”