2019年8月10日,由企業網D1Net舉辦的CIO夏季沙龍在深圳召開。本次沙龍邀請大中型知名企業信息高管出席,聚焦政企數字化轉型難點,探尋當代政企在數字化轉型道路上的挑戰和解決之道。
以下為現場速記。
馮偉:今天給大家介紹第四范式這家公司和范式所做的事情,我們選了跟制造、傳統行業更相關的案例,與大家一起分享。我的PPT有一些調整,我先介紹一下公司本身的狀況。
范式公司,我們公司的名字起的有點不是那么太通俗,第四范式,這實際上選的是科學史上的一個科學名詞作為公司的名稱,有一個科學史學家,他總結認識世界的方式,范式,第四范式之前有第一、第二、第三,第一范式是我們通過實驗科學來認識世界,第二范式是通過相應的理論科學,比如說牛頓的物理定律。第三個范式是通過計算機科學,從上世紀五六十年代開始,大規模的計算機普遍使用。到第四范式也就是現在這個年代,我們通過大量的密集型的數據,來認識這個世界、描繪這個世界,和這個世界進行溝通。公司用科學歷史上的一個科學名詞作為公司的名稱。范式是做什么的呢?是人工智能技術和服務的提供商,我們提供相應的人工智能技術,當然本身人工智能技術也分很多子的層面,無論是圖形還是計算,還是機器學習,還是相應的各種語音語言的處理,本身分很多門類,但我們通過機器學習的平臺,公司有一個機器學習平臺的產品叫“先知”,我們一會兒會簡單地看到。通過機器學習平臺這個產品,為不同的行業和企業提供人工智能技術,除了技術本身,我們也提供相應的服務。
公司在北京、上海、深圳、香港、新加坡都有不同的分公司,公司大概2014年底成立,到現在快五年的時間。最開始的創始人是這幾位,戴文淵是CEO兼創始人,他最開始是在百度,為百度提供相應的百度廣告系統,不知道大家熟不熟悉,戴文淵百度鳳巢系統設計做很重要的工作,之后到了華為做諾亞方舟,華為有一個科學家的實驗室,最開始他在華為的那家實驗室做相應的研究,后來出來做第四范式這家公司。楊強教授,之前是港科大計算機系的系主任,港科大計算機系是亞洲最厲害的計算機系,楊強教授在機器學習方面,尤其是在更前沿的遷移學習、強化學習方面的研究是最領先的,而且他也是相應的國際機器學習協會的主席、理事長,在這個月底,8月29日還是30日,我們在上海有世界智能大會,那個規格非常高。上一屆是副總理去,今年可能習近平會去。在這個月底,在上海有世界計算機大會,楊強教授、戴文淵都會去。之后的是聯合創始人,我在這里就不做過多的介紹。
范式公司通過什么提供相應的機器學習或者是人工智能技術呢?大家如果能看到的話,我們中間黑色的這幾個部分,通過底層的,不管是通過云計算還是通過傳統的IT架構提供的算力,利用這些算力,我們通過先知機器學習平臺產品,利用底層的計算能力,通過數據進行訓練,然后有相應的不同的人工智能門類的模塊或者是技術,在這里包括視覺相關的O2CV的模塊,和視覺處理相關的。另外有自然語言處理相關的,通過這些不同的機器學習能力模塊,再往上通過相應的行業的或者是領域的業務的結合和應用,會為不同的行業和企業提供相應的,針對業務的最直接的賦能。
機器學習這些技術和傳統的過往這二三十年IT的發展有很大的不同,它的方法論是全新的,過往的這二三十年如果要說以制造業為核心的,就是以ERP、CRM,人財物、進銷存,所有的這些都是關于流程優化的,所有都是為了節省相應的流程的成本,提高流程的效率。但機器學習不是,機器學習無論是從開始的理論到現實的應用,本身的目標、目的不是針對流程的,是直接面對結果。所謂直接面對結果,就是它并不是告訴我們某一個具體的業務流程該怎么優化,或者是某一個業務的效率,本質上通過流程優化怎么提高,他是直接面對結果。我舉一個很簡單的例子,因為范式在銀行做的是最多的,當然我們也有很多其他的行業,但對銀行來說,范式不是告訴銀行該怎么去放貸、使得風險更小,也不是說你該怎么推介銀行各種理財產品、營銷產品,使得流程優化、回報率更高,不是針對流程,是直接面對結果。什么意思呢?你還是原來的流程,我就直接告訴你,可能針對貸款的話,相應的申請貸款的這些人,有哪些他們的風險性是更高的,他是直接面對結果。但如果營銷的話,我相信過往,大家會常常收到營銷的短信,尤其是在早些年。那時候做營銷的工作,隨便發、隨機發,有誰響應了,就算是響應了。但他本身并不知道誰會響應,但如果用機器學習人工智能的技術,用在面對結果上,這是什么意思呢?我們可以根據相應的歷史數據的積累,通過建模,指導業務說,如果你有1萬人的名單,我告訴你,你往前面1000人,給他們發短信、發營銷活動,這些人會更可能對你的營銷活動響應,更可能接受你推介的產品。在這個過程中,我不是告訴你怎么樣優化營銷的流程,應該有什么樣的步驟添加或者是有什么樣的步驟減少,我沒有辦法告訴你營銷流程,但我直接告訴你結果,你就給這1萬人當中的這1千人、2千人發營銷短信,他們通過歷史數據、建立的模型,知道原來這些人是更可能、更快地響應我的營銷活動。以往我是隨機發,我可能需要發1萬人,才能在這1萬人當中,把那有可能的1千人、2千人碰到,但通過人工智能技術,你就給這1千人、2千人發短信。
范式本身相應的機器學習,產品、平臺、技術都是有完全的自主知識產權的,我們先知這個平臺,我們機器學習平臺的名字是“先知”,底層和硬件相關的加速卡,和實時場景相關的,比如尤其是對銀行持續交易的場景,對數據的處理量和處理速度有非常高的場景,我們有數據庫,以及到上面分布式計算機器學習的框架,以至于每個不同的算法,以及相應的DSN的算法,范式都有自己的知識產權。范式無論從理論上的準備,還是到工程上的實踐,都有很多的投入和很多積累,范式完全不只是應用型的公司,不只是有拼拼湊湊的技術,稍稍加工一下應用到某個場景,范式本身在這些技術的投入和儲備上做了很多積累。
今天想給大家拋磚引玉的是我們在油氣管道運營方面所做的項目,這是去年的時候,和中石油旗下的一個管道通信公司做的項目。本身機器學習的技術是一項比較通用的,或者是跟具體的業務沒有那么緊密聯系的一項技術,對我們普通人通常來說,現在感受機器學習、人工智能技術最多的,比如我們常常聽到的自動駕駛、人臉識別,以及在一些零售商場、超市,這種場景下,我們普通人能接觸的多一些。但實際上這項技術與范式服務過的公司和合作過的行業,無論是金融、證券,還是保險,以及相應的零售,我們跟制造業、油氣運輸所有的行業,這些都可以通過人工智能技術提高效率。我們一起來看一下,我們在中石油做了哪些工作。
先講講背景知識,我們國家的油氣通過管道運輸,這幾十年,隨著經濟的不斷發展,我們對進口石油的量逐年增長,管道也在一直鋪建和鋪設當中,到明年的數據統計,我們差不多有17萬公里的油氣管道。主要是這“三桶油”做管道的建設,其中中石油占的比重是最大的,差不多占70%的量。一般的管道,他們有幾種問題。我不知道大家還有沒有印象,前些年在青島有一個大新聞,由于施工還是什么原因,把油氣管道挖斷了,產生了大爆炸。坦率地說,這種問題是層出不窮的,只是能上報紙上報道的,被大家知道的是特別重大或者是損失特別大的案件。實際上本身的管道在日常的過程當中就會出現這些問題,這對相應的管道日常的問題做的分類,大概有兩類,首先,管道本身因為年久失修的原因、自然的原因,導致自然管道本身出現的一些問題。另外,這些是由于外力所導致的,要么是自然的環境,這些天開始刮臺風的,這會導致地面對管道的影響。也有故意的,去盜油,做一些非法的行為,完全是人為的破壞。還有一大類是最主要的,就是城市建設在施工的過程當中,比如修路,做管網的建設,在這個過程當中,對油氣管網也會產生影響。油氣管道被施工的影響,大概占70%以上。本身油氣管網的公司,他們就會需要對這些油氣管道本身的狀況作監測,做相應的運維。總共的歷程是14萬公里,可能到明年會將近有17萬公里,這么長、這么廣泛、地域跨度這么大的管網,完全依靠人,不可能,因為完全檢查不過來,他們有相應的技術做管網的運維和處理。本質上有專門的管網通信公司,他是管網通信公司,什么意思呢?就是他負責維護管網,他通過什么樣的形式和手段維護管網?是在鋪就管網的同時,可以并行地鋪管網的光纖,光纖上有相應的信號采集設備,隔一定的距離就會有機房信息采集點,本質上的邏輯是通過這些光纖和管道并行的光纖上面的信號采集器,通過采集這些信號來判斷管網現在的狀態,到底有問題或者是沒問題,或者是什么樣的問題。范式就和相應的光纖或者是管道通信公司合作,應用人工智能技術,解決和監測管網的狀態,提高信號的準確預判能力。
這個問題由來已久,不是新問題,但由于人工智能的技術,我們把技術應用到相應的場景上,用新技術解決老問題。從2004年開始就建立起相應的管網運維系統,一代代發展,到現在利用人工智能技術判斷本質上管網光纖的信號,不同的采集器收到的信號,第一是分類,分類之后做相應危險等級的排查。
我們的方案簡單地說,就是將物聯網技術與人工智能技術相結合,光纖信號的采集、存儲、處理以及檢測、分析、渠道對管網破壞整個的流程串聯起來,實現管網端到端的安全運行應用。本質上是兩大技術的結合,現在制造業,尤其是以汽車為代表的各種指導,實際上都有很多,把相應的物聯網技術納入到設備本身,物聯網所要的技術,很重要的一點是使得本身的實體的物件能夠有數據采集的功能,或者是無論是采集外界的信息和數據,還是采集設備本身運行的數據和狀況,最重要的是把所有的行為數字化。如果要多說一句的話,相應的人工智能技術,范式的經驗,為什么在銀行業,比如說電信業,用的最多、最領先,互聯網行業用的最領先?因為很簡單,這些行業經過前些年的工作和積累,他們的數據較其他的行業來說是最全的,較其他行業來說準備是最好的?,F在對于各種各樣的制造業企業來說,對這些行業來說,互聯網的技術很重要的一點是把這個行業數字化,不是簡單的生產線上的流程,除了這些流程之外,需要把每一個流程以及參與到這個流程當中的每一個物理的部件,所有的狀態和信息數字化,在有了這些狀態和信息的數字化之后,可以利用這些數字和信息做非常多的工作。今天我們介紹的是在油氣管網的應用,還有其他制造業的企業,他們在做什么樣的轉型呢?
我自己知道有一家是做風機發電的企業,在過往他完全就是一個設備制造商,我是制造業制造商,我做很多風力發電機,本質上我的買賣就是賣這些發電機,如果哪里有壞或者是相應的故障,我就派人去修。本質上商業模式還是制造業的模式,但現在他們可以做哪些轉型的工作呢?通過物聯網的技術,在風機的各個部件上,在各個步驟上,他放非常多的信息采集器,他就把自己從一個制造業的企業轉型為一個服務性的企業。我不用你告訴我現在風力發電機有問題或者是有一些什么故障了,你打電話,我派人去檢修或者去看,我通過這些采集器,我有中央的控制室,我就能夠看到所有的設備賣到全球什么地方,每個地方的狀態是什么樣的,他們的每時每刻運營的狀態是怎樣的,當他有問題的時候,是哪里有問題,他馬上可以把商業模式轉變為一個服務型的模式,我的設備可以租給你用,我收相應的服務費用,就不簡簡單單是一個制造商,我生意的模式是生產和銷售,生意的模式馬上就可以改變,商業的模式在做這樣的變化。這一系列完全是通過技術本身對商業的模式、對服務的模式有相應的改變。
和管網相關的架構,本質上這些架構除了底層提供相應的機器學習的平臺之外,還有相應的模型建立、模型運維的模塊。本質上的管網公司是有相應的信號采集器、信號采集系統、監測系統,他們如何利用機器學習的技術,通過機器學習的模型流轉整個數據的過程,本身光纖信號采集器采集的信號作為歷史數據可以輸入到模型的開發環境當中,構建一個評判信號本身的模型。這個模型發布到線上的生產環境系統之后,他可以對于相應的實施得來的采集信號進行評判、評估,這些信號可以篩選,到底是有問題還是沒問題,到底是什么樣的問題。同時,模型評判的結果輸送給相應的管網接收系統,管網的接收系統最后判定是什么問題、是有問題還是沒問題,通知相應的現場工作人員到現場做相應的維護、核實。現場的工作人員在做了現場的勘查之后,會把相應的勘查結果反饋給響應的監測系統,報警或者是預報是正確的還是錯誤的,哪里正確、哪里錯誤,監控系統就會把現場勘測人員得到的結果又反饋給生產環節當中的模型自學習的模塊,這時候模型本身通過反饋的數據進行模型的迭代和模型的訓練,使得模型一直保持較高的準確率,整個過程就是通過數據的輸入、建模、相應的模型、提供相應的真實數據、業務場景的輸出、相應的現場人員對模型的結果有反饋的數據,進一步提高模型本身的準確率。機器學習很大的一個特點,我剛才說過的,不是針對流程的,是針對結果的。這個結果本身,因為涉及到模型,模型本質上是數學的問題,他是把所有業務的場景,一些真實的業務問題,抽象成一個數學的問題。如果再說的本質一些,抽象成一個統計學的問題,后面都是一個概率。之所以涉及到概率,本質上就不是百分之百的事情。模型肯定有相應的準確率,不是100%,可能是70%、80%、90%,那就看具體業務的要求能夠容忍到這個模型有怎樣的準確率。對于那些模型判斷錯誤的結果,相應的收集反饋數據,給模型不斷地迭代、不斷地更新,使得模型本身能夠有越來越好的準確性。
在本身的架構當中,有幾部分的核心技術上的應用,我們可以做一些簡單的介紹。一方面是高維的模型和自動特征的組合。高維的模型,所謂的高維就是指多維度,維度是我們描述一件事情的角度。比如說描述我的話,男性、年齡、在什么地方工作、身高、體重,這是描述事情的角度。當維度越高的時候,我們描述一件事情的準確性就越高,因為越豐富。如果只是描述現場的話,大家有幾十個人,只是人數。但如果維度高,我們可以對每一個人特別具體的描述。在這個場景當中,我們對不同的信號、不同光纖采集的信號增加了很多模型分析的維度,使得模型本身能夠更全面、更深入地檢測信號本身、描述信號本身,這是高維的模型。另外一方面是有自動特征的組合,所謂的特征是什么意思呢?在機器學習里,描述維度的值,在機器學習領域里叫做特征。實際上把這些基礎數據經過相應的衍生和變化,產生很多衍生數據,所謂的衍生數據自動之間能夠相互組合,產生更多的數據。所有的工作,這里是為了更多地描述一件事物。這里是能夠產生更豐富的數據本身,因為訓練模型的時候,需要有相應的數據支撐。越多的數據支撐,對于模型訓練的效果就會有更多的保障。
另外,用到深度學習的算法,這里就不把它說的那么學術,如果大家對于機器學習有一點點設計和了解的話,常規用到比較多的算法是GBTT和LI,邏輯回歸的模型。這兩個模型用在兩分類的業務場景上是比較多的,所謂的兩分類就是是或不是,直接分兩類。如果涉及到多分類,這兩部分的算法就不太適合。我們在這個場景下選用的是卷集神經網絡CNN算法,他通過對不同光纖信號的輸入,經過非常多輪次的卷集、池化,非常多輪次的迭代之后,最終分出多個種類、多個類別。這個類別首先按照相應的業務要求,要把所謂的信號,到底是什么原因導致這些信號。比如說是人工導致的還是施工導致的,還是自然環境導致的,有多分類,這個時候我們就選用卷集神經網絡的算法。卷集神經網絡除了在多分類用的比較多,另外在視頻和圖像領域用的非常多。比如說我們常常去火車站、機場做相應的安檢,我們通過照相、身份認證的通過,這個算法后面都是用到卷集神經網絡的算法,因為不是涉及單分類,是涉及多分類的。
另外,模型的自學習,為什么要模型自學習呢?本身數學的問題是概率和統計的問題,本質上模型是會衰減的,所謂衰減,模型本身對新出現的狀況、對未來的預測能力會隨著時間的推移變弱。很簡單,模型所能學到的數據是過往的歷史數據,如果時間越往未來推,那未來不會是過往百分之百的重復,總會有一些新的事情發生、總會有一些新的數據是過往學習模型歷史的時候數據不具備的,這時候模型就會衰減,所謂的衰減就是效果不好了。我原來對一些事情的預測可能非常準,但越往后時間就越不準,這個時候模型就需要自學習,所謂自學習的過程,就是把模型預測錯誤的結果,把這些結果再次作為模型的輸入數據,再訓練一遍。就好象以前學習考試做錯的題,你再把那些作錯的題當做訓練題,再做一遍,你就知道原來正確答案應該是這樣的,這樣就能夠提高模型的效果,減緩模型的衰減。它本質上是這樣的一個過程。
模型自學習本身的周期可以按照業務需求確定相應的模型自學習的周期,我知道大家會時常用到今日頭條、抖音等社交媒體工具,抖音、頭條模型自學習更新的頻率,大概是到分鐘級的,幾分鐘就會對每一個人所用到的相應的模型做相應的控制。對于這個場景來說,他會根據自己業務的需要,比如說以周、以月、以季做相應模型的控制。
另外,模型在這個業務場景下,他有兩個模型完成這個工作,一個是異常信號的識別模型,這個信號到底是什么類型的信號,我們剛才說了,是正常的還是異常的,首先要對這個進行相應的識別。當信號是不是異常,識別過之后,再對異常信號進行分類。比如我們這里可以看到是機械類的,還是人工作業的,還是車輛通過,本質上對信號有一些擾動,對機械類的,會做進一步的劃分。在這之后,他還會對本質上這些信號的威脅程度、危險程度進行評判和劃分,這是什么意思呢?實際上這是為了業務上是不是要立即就請勘查人員做這樣的維護、做這樣的評判,本質上我們通過多個模型的接連應用,從最開始原始的信號,到最后給現場勘查人員工作做具體的指導,有一系列的模型有做接力的預測工作。
本質上是兩大集成技術架構,是物聯網技術和人工智能AI技術,物聯網是采集數據、數據的存儲,數據本身的處理,有相應的不同模塊做不同的工作。機器學習就是物聯網技術提供的相應數據建立模型,同時為相應的結果提供反饋,這兩塊技術疊加在一起,實際上是能夠跟設備、制造、相應的領域里提供非常多的,無論是優化流程本身,還是直接提供結果,這方面都能夠提供很多幫助。
范式可以提供相應的企業級的AI產品,范式提供機器學習的平臺,我們建模有相應的建模工具、建模平臺,模型上線運行之后,本身的日常維護、迭代、相應的上線和下線的處理,需要機器學習的平臺維護,范式是提供響應的機器學習的平臺。
另外,我們在不同的行業有不同的案例,有在不同的項目上積累經驗的團隊進行支撐,在外面的時候,奇星的石總過來簡單地聊兩句。石總有一個困惑,奇星是做文具的,有眾多的供應商都往奇星供應商相關的系統錄入供應商能夠提供的產品,但大家錄入的時候,你建立的產品品類,在系統里已經有了,或者是其他人已經錄入過了,此時此刻對于奇星來說,這些處理的過程,他通過人工一個個校驗、比對,看一個新的供應商錄入的品類是否已經存在。如果用機器學習這個技術,可能解決什么樣的問題呢?我和石總剛才說,我們之前在招商銀行做過用自然語言處理的一個項目,大家如果用招行手機銀行APP的話,里面有非常多的商戶,不光是銀行的應用,上面也提供各種優惠券、各種營銷活動,招行在一開始接入這些商戶的時候,并沒有對這些商戶進行分類。接入之后,現在有幾十萬的商戶,他如何按照工商局企業門類的標準分門別類,完全通過人嗎?這得通過多少人、花多長時間才能把幾十萬的商戶分門別類好呢?機器學習就完全可以幫忙人,用到的技術是自然語言處理技術。我們就通過本質上的商戶名本身,以及對于商戶本身錄入的自己店鋪介紹的信息,實際上是能夠代替人或者是至少是幫助人來理解商家是做什么生意的,然后再按照國家有標準的行業企業分類規則、守則,分為大類、小類,分門別類地把這些商戶歸到相應的門類里去。相應技術的處理,跟石總之前提到的困惑是一樣的,都可以通過自然語言的處理,代替人去理解本身自然的語言、語義做這些工作。包括現在在銀行、醫療,電商有很多客服處理的工作,大家也在淘寶、天貓上買東西,客服的工作很多情況下,有用到相應的自然語言處理人工智能技術,減輕一部分客服的壓力。
人工智能技術本身是一個中性的技術,并不和某個具體的行業、某個具體的業務強綁定,他是一個中性的技術,以我們的經驗來看,能夠用到方方面面的不同的行業、不同的業務,只不過需要和具體的業務具體結合,剛才我們介紹到的是管網的技術,我們也說到不管是在供應鏈上,還是在銀行里,還是在保險,都可以做很多的應用,歡迎大家有機會一起交流和討論。謝謝大家!