雷鋒網按:數據隱私、數據安全、數據道德這三者一直是商業界與學術界探討的熱點問題,本文就在流程過程中如和處理上述三個問題,提出了一些自己的見解。本文作者為 Anne Rozinat 博士與Christian W. Gunther 博士,雷鋒網(公眾號:雷鋒網)編譯,未經許可不得轉載。
十二年前,我移民到了荷蘭,常在當地的一家連鎖超市買東西,一開始他們讓我辦購物卡,說這種卡在它們的連鎖店買東西會打折,但我卻不想辦這種卡。我一直覺得,如果商家知道了我的購買記錄,那么他們就會采取一些針對方案(如廣告推送)使我購買更多的商品(而我原本并不想買的),但是后來我發現,是我想錯了。
數據分析技術本身不存在好壞之分,人們使用數據分析技術只是為了讓產品的銷量更好。例如,超市通過分析人們的購物習慣,在擺放商品時,它們會讓顧客走盡可能長的路,花費盡可能多的時間來買顧客原本想買的東西。在買全物品的過程中,讓顧客盡可能多的看到在他們購買計劃之外的商品,以增加這些計劃外商品的銷售量。除此之外,商場還可以使用顧客的購買信息,為顧客提供更好的購物體驗。
許多公司以這種或那種的方式對數據進行分析,這些數據分析技術給公司和消費者帶來了極大的好處,數據分析技術的廣泛使用雖然帶了很多好處,但也產生了一些問題,最主要的就是數據道德問題。Responsible Data Science在研討會主動討論了關于數據道德問題、并且呼吁研發人員在研究算法時不應只研究算法本身,還要考慮數據的準確性,保密性、安全性等問題。隨著其探討與呼吁,越來越多的人開始關注到了這一問題。
如果流程挖掘運用得當,那么它將可以使你更加深入了解你的業務處理流程,并提出改進措施。但這面臨一個問題,那就是你怎么保證你在流程挖掘過程沒有觸碰道德底線呢?你在流程挖掘中應該注意些什么呢?
在本文中,我們就在流程挖掘過程中應該注意的問題,提出了一些自己的見解。
1.目標明確
首先我們應明確我們的分析目標,大多數情況我們下,我們只需要對內部組織流程進行分析。進一步說,你是對整體進行分析。舉個例子,一個流程挖掘的目標可能是讓人們不要閑下來,而不是讓人們的工作效率更高。此外,流程之間是相互影響的,一旦你想要對某一特定流程進行深入了解,你就得深入研究其它流程,因為這些流程會對你要研究的那個流程造成影響。
因此在進行流程挖掘的開始階段,你就應該明確你的分析目標,弄清分析結果可以應用在哪些地方,想明白你要處理哪些問題以及為了解決這些問題,你需要哪些數據。
在這個過程中,以下事情你需要做:
所用數據是否有法定限制。例如,在德國,員工相關信息是不允許直接拿來使用的,如果你的項目需要使用員工信息,你需要對員工信息進行加密處理,然后再使用;
項目道德底線問題。在確定項目目標時,你應該考慮哪些地方可以使用你的分析結果,哪些地方不能用。舉個例子,你研發了一個對人的工作效果進行評估的項目,在項目的開始時,你就應該明確該項目不會用在自己的員工身上。此外,我們還應該與數據提供者隨時保持聯系,以便他們隨時為你提供你所需要的數據。
以下事情不能做:
在項目目標不明確的情況下啟動項目。要啟動一個項目,一定要想清楚你到底要解決什么問題?解決這些問題到底需要哪些數據?你的項目應該緊跟商業目標,這樣才能取得商業經理的支持。
項目不要立得太大,應該有一個清楚、明確、具體的目標。如果一個項目過大,那么人們會很難弄清楚你到底要做什么,進而可能會出現反對你的項目的情況。
2.責任意識
當你獲得數據后,你關心的只是數據本身。只有發生數據泄露問題時,人們才意識到數據安全問題。所以拿到數據之后,一定要對你拿到的數據進行恰到的保護,以防數據泄露,為了做到這些,你需要做以下事情:
與員工簽署數據保密協議;
對數據存儲設備進行加密處理;
數據檢查,在將拿到的數據交給開發人員之前,應對數據進行仔細檢查,確保沒有多余信息、敏感信息的出現;
不要使用任何需要數據上傳的過程挖掘工具,過程挖掘工具應該使用本地內部版本。
不能做的事情:
直接將數據交給研發人員,而不對其進行任何審查;
未經公司允許,將數據直接上傳到云端過程挖掘工具中。
3.加密意識
如果數據集中有敏感信息怎么辦呢?將這些敏感信息直接刪除,除了這種方法,我還有別的選擇嗎?當然有,我們可以對這些信息進行加密處理,例如員工姓名 Mary Jones、Fred Smith。我們可以將其處理成Resource 1、Resource 2。如果同一個名字出現多次,我們就用同樣的值將其替換。這樣就可以對你的信息即進行了加密處理、又保留了數據信息的完整性。例如,在對員工姓名進行加密后,你照樣可以對每個員工的工作量進行分析。
讓我們值得高興的事,一些過程挖掘工具包含了加密功能。這就意味加密將變得簡單,我們只需簡單的將數據導入工具,然后選擇要加密的數據,輕輕一點,就實現了數據加密。 在這個過程中,你需要做如下事情:
● 確定要加密信息并且明確加密后對數據分析的影響;
● 提高信息安全意識,某些信息即使加密,也有可能會造成信息安全問題。例如在病歷中,只有一個人患有某一種罕見的特殊疾病,如果我們知道這個人的出生日期及其出生時間,那么通過這些信息我們就很有可能推斷出患有此疾病的人是誰。
● 數據清洗之前進行數據加密。例如:在不同地區我們對用戶類別的叫法稍有不同,但它們實際是一類,在數據清洗的時候,你可以簡單的將那些叫法不同但含義相同的類進行合并,如果你先對數據進行了加密,那么這些叫法不同但含義相同的類將被徹底分為兩個不同的類,它們將會很難被合并。
以下事情不應該做:
不要給不需要加密的信息進行加密處理。加密盡管可以保留原始信息,但其卻會失去相關信息。舉個例子,如果你對Case ID進行加密,那么在服務臺你就無法查詢關于該Case ID的先關信息。如果你的團隊責任意識強、保密意識強,那么你還是可以考慮將原始數據向整個團隊公開的。
4 合作文化
在負責任的流程挖掘過程中,最重要的就是創建一種合作的文化。流程挖掘可以發現業務流程中的不足,并將這種不足以一種透明的形式展現在人們面前,因此,我們應鼓勵人們說“實話”,即說出業務流程中的不足。此外,我們還應該選擇一種恰當的方式將你的流程挖掘目標與相關人員進行溝通。這樣做的目的是為創造一種這樣的環境,即我們不是在責怪你(因為你使得業務流程出現問題),而是說與你一起努力,使我們的流程更加合理、完善。為了達到這個效果,你應該做如下事情:
確保數據質量,最好聘請相關領域專家對數據進行審查。數據質量足夠高,那么挖掘出來的信息才能讓人更加信服、更具有代表性。
使用迭代的方式進行挖掘,即將挖掘出的新信息做為下一次挖掘的已知條件。給人們解釋與提問的機會。這有助于提高你的挖掘效果。
跳出結論:永遠不要以為自己將流程看得很清、很透。進展慢的組可能解決了棘手的問題。人們可能因為一個充分而合理的理由而對原問題跑偏。討論的時候,將自己的觀察作為出發點,而不是結論,聽取別人的解釋,構建一種信任、協作的文化氛圍。
不要做的事情:
不要通過歪曲數據來證明自己的觀點,相反,密切注意過程挖掘中所采用的的數據與流程。對分析結果有任何疑問,我們都要進行相關回溯。例如,如果我們對挖掘出的結果有疑問,我們就應該立即分析,以確定到底是哪些數據過濾導致了這個觀點的產生。
via KDnuggets,雷鋒網編譯