內容提要:手機用戶畫像是電信運營商實現“數據驅動業務與運營”的重要舉措。首先,介紹了手機用戶畫像過程中對個人隱私保護的方法,然后分析手機用戶畫像的數據來源與大數據實現技術,最后,通過數據樣本實例分析手機用戶畫像在個人征信中的應用。
引言
隨著計算機網絡技術的不斷發展,“數據即資源”的大數據時代已經來臨。用戶畫像是電信運營商為了避免管道化風險,實現“數據驅動業務與運營”的重要舉措。用戶畫像與應用大數據技術對客戶分類密切相關,是單個客戶的眾多屬性標簽的累積;另一方面,在運營商涉足的消費金融領域,對手機用戶所進行的個人信用評價,是對手機用戶畫像中的諸多特征實施再組合與分類的應用過程。
1.手機用戶畫像與隱私保護
所謂用戶畫像,是指單個用戶所有信息標簽的集合,即通過收集與分析用戶的人口屬性、社會交往、行為偏好等主要信息,將用戶所有的標簽綜合起來,勾勒出該用戶的整體特征與輪廓。在互聯網經濟條件下,滿足消費者個性化需求成為運營商差異化競爭的主要手段,用戶畫像可以較為精準地發現客戶類型,成為電信運營商避免管道化風險,實現“數據驅動業務與運營”的重要助力。
用戶畫像是個形象的比喻。在大數據技術的幫助下,我們可以了解手機用戶的更多信息,但由于實施成本和隱私保護的限制,這個畫像其實不是全息的“照相”或“錄像”,是按需設計的,不可能無限細化,即用戶“畫像”不考慮成本與需求而具有超高“像素”是不現實的。一般而言,用戶畫像與客戶分類密切相關。在大數據分析中對客戶群進行分類,如聚類分析、判斷邏輯分析等,可以按特征將用戶劃分為不同的類別;這些多維角度的客戶分類,形成了一系列不同的屬性標簽。對于單個客戶,正是這些分類范圍的相互交集,即是單個客戶身上的眾多標簽的累積,使得客戶形象逐漸豐滿,依稀呈現。同時,眾多特征的迭加也可視同從量變到質變的“涌突”現象,在標簽信息的基礎上,可以再從各項特征中重新按需組合,形成相對完整的“大屬性”標簽,實施進一步的分類。從這個角度來看,手機用戶的個人信用評價,也是個手機用戶畫像中的諸多特征再組合分類的應用過程。
就電信運營商而言,應本著風險防范原則,首先加強系統安全的日常管控與監查,具體包括:流程規劃、權限分級、下載監控、合規巡檢等內容(見表1)。其次,利用大數據技術做好威脅情報與安全數據的解析工作。近年來,隨著網絡安全攻防技術的不斷演化,出現了依托社會工程學等方法的APT(Advanced Persistent Threat,高級持續威脅)方式,APT不單針對用戶信息,而是出于特定目標長期地威脅整個網絡系統的安全。APT的出現,促使電信運營商的數據安全理念從以漏洞為中心的實時防御,發展到以威脅情報為中心的安全解析管理。安全解析管理要利用大數據技術,著重分析挖掘業務系統中:①業務流程類數據:包括企業組織結構、業務環節構成、業務鏈關聯、員工層級與分工權責、出勤在崗記錄等,這些數據往往難以從機器中直接獲取,且有助于對潛在威脅點的搜索與定位;②網絡數據:包括FPC(full packet capture) PSTR(Packet ),會話或flow數據;③設備、主機及應用的日志:包括WEB代理日志、路由器、防火墻日志、VPN日志、windows安全及系統日志等;④報警數據:即檢測工具發現異常而發出的通知等。通過全面的數據解析,可以及時發現入侵跡象,力爭在攻擊者完成使命前成功地阻止其活動并完成溯源。當然,前面提及的日常實時防御仍是安全管理的基礎,構成了安全防守的縱深,否則后面的安全解析也無從談起。
最后,出于保護個人數據隱私的目的,做好數據脫敏工作。數據脫敏主要對應于數據分析應用與發布的環節,目前主要技術有:水印、泛化、加密、失真、歸并等。其中,水印是指對局部信息的掩遮;失真是指采用添加噪聲等方法對原始數據進行擾動處置,但還要保持原有的數據統計方面的性質不變;加密是應用密碼技術對數據進行封裝,這種方法保護效果最好但開銷較大;泛化是對數據進行更概括、更抽象的描述,如對于年齡18歲,可以泛化為年齡取值區間為[14,25];歸并則是將量化的數值指標按一定的標準進行分類,形成屬性指標參數,如價值5000元以上手機型號,被劃分為高檔手機類,記為參數1,歸并方法兼顧了失真與泛化的要求,在用戶畫像中常被使用。
表1:電信運營商數據安全與隱私保護
當前,許多與民眾生活息息相關的部門如公安戶籍管理、社會保障、住房公積金管理等,都涉及到為數從多的個人家庭住址、社會關系、職業經歷、個人收入等敏感信息,成為黑客們首選的攻擊目標;但這些部門并沒有因噎廢食,在不斷完善個人信息安全與隱私保護技術的前提下,充分利用大數據技術廣泛開展綜合業務為民服務。應該說,其它部門能夠做到的,電信運營商也有能力做到。
2.主要技術來源與技術框架
2.1主要數據來源
手機用戶畫像的數據可以分為四大類:人口屬性數據、社交網絡數據、行為偏好數據和其他方面數據。
2.1.1人口屬性數據
人口屬性數據是指手機用戶的姓名、年齡、性別、手機類型、手機用戶唯一標識、訂購套餐類型等基本信息,以及由此延伸的手機用戶的實際話費、手機號碼注冊地、身份證居住地址等。2015年9月1日起手機卡實名登記制實施,原有的“臨時賬戶”、“集團卡”、“代辦卡”,以及手機卡登記信息不完整、機主姓名與實際持用者信息不匹配的現象將被制止,這部分的信息將成為手機用戶畫像的重要基礎數據。
2.1.2社交網絡數據
手機是人們交往的重要通訊工具,從手機用戶的主被叫通訊記錄中可以描繪出該用戶的社會交往網絡。社交網絡的研究分為兩種形態,第一種是以某個人為核心點,重點探討研究其他各節點和核心點的連接互動關系以及連接強度,稱為“自我中心網絡(ego-centric networks)”。第二種形態是以整體網絡為核心,在特定范圍內所有成員所構成的關系網絡,稱之為“社會中心網絡”(socio-centric networks),研究重點在于網絡結構以及信息如何在網絡內部擴散。社交網絡技術方法有靜態和動態交互法,通用研究工具有Ucinet、Pajek、Nwb、Nodexl和Gephi等軟件。
手機用戶畫像的社交網絡主要研究的是第一種形態網絡,即以個人為中心的社交網絡。可以根據是否一段時期有主被叫、通話時間長短、通話發生的時間等因素來標注社會交往的連接緊密程度以及關系的穩定性。例如,有人認為通話記錄中,主叫較多的手機用戶可能處于相對的支配地位,但僅憑某單項指標則容易發生誤判,主叫多的可能是從事物流業的快遞員;而被叫較多的手機用戶,也有可能是導游或會議組織的服務人員。所以,有必要綜合考慮其它因素,如一段時期內的雙向通話的時長等。另一方面,根據“物以類聚,人以群分”的思路,手機用戶的社交網絡中有緊密連接關系的群體的一些相關信息,如ARPU值、手機型號的整體價格水平等也可以間接反映該用戶所處的社會環境與地位。另外,社交網絡也可以緩解信息不對稱問題,對手機用戶行為產生“聲譽約束”的影響。
2.1.3行為偏好數據
手機用戶的上網行為可以有兩種方式獲取。一是通過電信運營商自身經營的網站日志進行挖掘。如中國電信的“號碼百事通”網站上有旅游、團購、演出、購物、民生信息查詢,以及水電、有線費支付等模塊,手機用戶登錄該網站瀏覽及進行購物消費,其行為數據可以在網站日志中留下記錄。二是通過手機上網的信令分析。與前者網站日志分析不同,這部分行為數據的收集過程比較復雜,目前主要是進行Gb口信令分析。常用Wireshark和Compass等信令解碼分析系統,對采集到的Gb口信令數據進行解碼翻譯,并且對訪問的網站域名或通過文本和圖片分析對用戶所訪問的網頁內容進行識別,最終實現上網行為的分析。手機用戶GPRS上網流程經過5個步驟,分別是附著過程、PDP激活、WAP連接、數據傳輸與釋放連續。Gb口信令采集主要在于“WAP連接階段”,上網信令數據獲取的方法包括:分類采集、交換機端口鏡像采集等。手機用戶上網涉及的數據有:開始上網時間(也稱上線時間)、結束上網時間(下線時間)、用戶上線所在小區、所瀏覽的網站類型、瀏覽網站所傳輸的流量等。
同時,利用通信基站定位技術,在用戶允許的條件下,可以記錄查詢用戶的位置與活動軌跡。
2.1.4其它異常數據
例如:在手機實名制下,某用戶擁有多個手機號碼(10部以上),或者較短時間內頻繁地更換手機號,以及話費欠繳,為了區分無意欠繳,要重點關注話費欠繳累計逾期次數和最長逾期記錄。
當然,用戶畫像的數據可根據應用場景的需求,進一步進行衍生組合。例如,對于某手機用戶的社交網絡,可以在(2.1.2)項中分析出關系穩定而且親密的網絡成員(intimate relationship)的基礎上,進一步分析這些成員的(2.1.1)項中的年齡結構和套餐、(2.1.3)項中的上網行為等,特別是結合(2.1.4)項中有極個別聯系的成員異常情況,已成為偵察破案發現線索的主要渠道之一。
2.2MPP+Hadoop大數據技術框架
用戶畫像不是全息的,而且大數據的特點是數據量大但往往價值稀疏,所以,要從海量數據中挖掘有價值的特征屬性,前提是設計提供性價比可以接受的大數據技術解決方案。
類似于經濟學中的現象,曾經有個“三元悖論”一直困擾著數據存儲與查詢分析的資源協調與管理,也就是說,由于自身屬性特點,Hadoop和MPP目前只能滿足以下的兩項功能,而不能滿足全部要求。具體來說,數據分析主要實現以下目標:
(1)實時。在這方面,單節點執行系統具有明顯優勢,這方面MPP表現突出,其他方式會一定程度上弱化實時性能。雖然新近出現的spark技術幫助hadoop提高了實時性能,但實施成本過高,相關技術有待進一步的成熟完善。
(2)可擴展,即要按數據量的增加而擴容。MPP擴容到一定程度后因傳輸等因素將會受到限制,而Hadoop的Mapreduce在此方面表現較好。
(3)對數據復雜查詢與復雜分析的處理能力。Hadoop和MPP均可以通過算法實現此功能,但會有難易與熟練程度上的差別。
圖1:運營商“MPP+HADOOP”大數據技術框架
電信運營商運用的“MPP+Hadoop”混搭模式可以較好地解決這一問題(所圖1所示)。其中,MPP主要針對BSS 域(業務支撐系統)的相關數據以及部分的OSS 域(網管支撐系統)數據,主要包括用戶身份信息、費用賬單、欠費信息、套餐信息、登記住址以及接入網絡類型、用戶終端類型等具有準確性和實時性要求的數據信息。Hadoop主要針對MSS 域(管理支撐系統)、NSS 域(網絡安全系統)以及部分OSS 域(網管支撐系統)的數據,主要包括活動位置軌跡、上下線時間、通信時長、次數、訪問應用時間、上網偏好、投訴信息、用戶感知狀態、社交網絡、安全威脅情報等。
3.用戶畫像在征信方面的應用實例
2015年3月中國聯通與招商銀行下屬的永隆銀行出資組建了招聯消費金融公司,積極開展互聯網消費金融業務。這種消費金融業務由于具有無擔保、無抵押的特點,可以采取相對靈活的信貸政策,進而擴大了信貸范圍,但也面臨著一定的風險。為提高履約水平,電信運營商有必要從用戶畫像角度對個人消費信貸進行征信管理。
個人信用評價實質是一個類別識別問題。由于個人征信的基本過程,是將分散于不同來源的局部信息,整合成為可以完整描述消費者信用狀況,因此電信運營商的用戶畫像方法同樣適用于個人信用測評(如圖2所示)
圖2:手機用戶畫像在個人征信中的應用流程
可以這樣理解,所謂用戶畫像的應用,是根據情景需要對用戶標簽的再歸并組合以及對標簽重要性重新排序的過程。一般以為,用戶畫像的樣本可以從銀行個人信貸的記錄中進行篩選,但這種對已發放貸款的回收情況來進行邏輯判別,實質上會陷入“先驗性誤導”中。因為,所選取的有貸款業務的用戶已經被銀行風控部門進行了必要的審查和篩選,由此發生的信貸逾期呆壞賬,是基于貸前審核通過后的樣本,不是真正的完整的初審樣本。這里,我們以人民銀行安徽省分行為例,對省內部分申請貸款的個人用戶進行實證分析。首先,選取3525個申請個人貸款的手機用戶為樣本,運用兩種方法進行信用評價,其中,一種方法是銀行根據現有的申請人的審核資料進行征信,另一種方法是通過手機用戶畫像的方法進行征信。具體步驟如下:
3.1先由銀行風險管控部門人員根據銀行自身的信用評級標準(層次分析法,簡稱AHP法)對所有樣本進行打分;具體指標如表2所示。一般分為9級,為了進一步簡化區分,我們以銀行最終放貸決定為依據,將樣本分為“可予授信”樣本和“不予授信”樣本兩種。(當然,可授信樣本中也不能保證以后就不發生呆壞賬,一定程度的小額壞賬率也是銀行業務中的正常現象)。
表2:銀行傳統APH法的個人信用評價指標
3.2根據征信應用的情景需求,將手機用戶畫像的量化具體指標進行重新歸并與組合,如表3所示。
表3:基于應用需求的手機用戶畫像指標歸并與組合
3.3將所有樣本進一步分為兩部分,一部分為測試集,樣本數占60%;另一部分為檢驗集,樣本數占40%,并讓這兩個樣本集中的可授信和不可授信樣本占有相同比率。
3.4以銀行傳統評級結果為依據,運用監督學習算法中的支持分量機,對測試樣本中的手機用戶畫像特征進行維度約簡,找出關鍵屬性值組合。在分類過程中,變量多所獲得的信息也相對多,其判斷正確性也將會比較高。但是變量多,代表著收集樣本的成本和時間增加,最好的方法是能以較少的變量,卻能獲得不錯的判斷正確性。在個人征信中有效的用戶畫像指標如表4所示(由于條件限制,沒有實施手機用戶上網行為數據的采集與分析)。
表4:用戶畫像指標在個人征信中的有效性
注:T表示有影響,F表示無影響
3.5按上述得到的手機用戶畫像的屬性值組合,對檢驗樣本進行分類,并將分類結果與傳統的銀行AHP法進行對比,符合率達到94.35%,效果基本達標(如表5所示)。
尤其需要注意的是,手機用戶畫像法的可予授信樣本數小于銀行傳統方法的可予授信數,說明該方法授信標準更嚴,更趨保守,具有較好的穩健性。從中可以發現,運用手機用戶畫像的方式進行征信在“薄信息”狀態下,具有較高的有效性。當然,在“厚信息”情景中,也具有一定的信息補充功能,綜合利用效果更佳。
表5:兩種方法的結果對比
4.結束語
在“互聯網+”的背景下,大數據技術在電信運營商的業務應用領域將不斷拓展,而智能手機技術和功能的不斷推陳出新,進一步觸發了消費模式的轉變、產業鏈的開放和更大范圍的數據融合。在妥善解決個人信息安全與隱私保護的前提下,以客戶為中心的手機用戶畫像研究,有利于運營商充分利用現有的數據資源,有效實現精準營銷和個性化服務,同時在個人征信方面也可實施有益的探索與實踐。
作者簡介
丁偉,高級工程師,博士,主要從事投資規劃和大數據分析工作;王題,高級工程師,碩士,主要從事通信網咨詢規劃設計工作;劉新海,副研究員,博士,主要從事信用風險管理、大數據和互聯網金融。韓涵,助理研究員,博士,主要從事智慧城市、應急通信和大數據分析工作。