近幾年,大數據風靡全球。大數據的研發與應用,已在商業、公共管理等領域取得好成績。雖然從績效層面來看,大數據產品堪稱“里程碑式發展”的案例并不多,但在不少人眼中,大數據即將帶來的,不是里程碑,而是顛覆。當下,各行各業熱炒大數據,我國法律領域亦不例外。
一、我國法律大數據正處于數據準備階段
大數據的研發與應用,一般需經5個階段:數據準備、數據存儲與管理、計算處理、數據分析和知識展現。數據準備是大數據應用的起點,是對數據進行清洗和整理的過程。主流觀點認為,數據準備和知識展現只是量上的積累,不需要根本性變革,當前和未來一段時間,大數據技術創新的焦點在于存儲、計算和分析等3個環節。但這并不說明,數據準備階段就可輕松拿下。以產銷速溶咖啡著稱的某跨國公司,其在中國的某一大數據研發計劃就流產于數據準備階段。
法律大數據的數據準備具體是,創建各類法律數據庫并共享,外接行政管理數據庫,甚至涵蓋互聯網、物聯網等,實現全方位、多角度的數據抓取。這是一個較為圓滿的數據準備狀態,短期內不可能全部實現,需分階段進行。但依據階段性的數據準備,同樣可嘗試數據處理與分析,這可視為一種“邊準備,邊分析”的發展模式。“邊準備,邊分析”,似乎是法律大數據發展的必然模式,一方面可及時研發、應用階段性成果,另一方面可為后續的研發與應用積累經驗。
當下,我國法律大數據主要處于數據準備階段。首先,公檢法三機關已依托各自的執法司法職能,成功地開發出信息化業務應用平臺,并在全國范圍內鋪開使用,這基本完成了系統內的數據準備工作。但目前,這些信息化平臺主要用于實現傳統事務型數據庫功能,比如增加、刪除、修改、查詢、統計等,尚未全面開展數據挖掘工作,而且基本處于閉鎖狀態,屬于一種自給自足的小農經濟模式。其次,依托裁判文書數據庫進行更為精準的案例檢索,是當下法律服務業正在攻克的主要課題。比如CaseShare、無訟案例、OpenLaw等。這與商業大數據的發展軌跡十分類似:“谷歌等公司率先建立了覆蓋數十億網頁的索引庫,開始提供較為精確的搜索服務,大大提升了人們使用互聯網的效率,這是大數據應用的起點。”值得一提,我國法律大數據已呈現出“邊準備,邊分析”的發展模式。比如,華宇軟件在司法專項大數據研發中,“持續研究文本挖掘技術和多媒體數據分析技術,逐步建立了司法領域法律文書智能化分析與數據挖掘方面的優勢地位”。比如,Rouse旗下的CIELA(China IP Litigation Analysis),可對我國主要法院的知識產權案件進行初步統計分析。
二、我國法律大數據的瓶頸在于數據分析階段
與其他領域數據結構不同,法律數據,尤其公檢法系統內數據,主要是結構化和半結構化數據。這對數據的存儲與管理、計算處理等方面提出的要求均不高,近階段,我國法律大數據的瓶頸在于數據分析階段。
數據分析是指,或通過人工構建數學模型,或建立人工智能系統,分析數據,挖掘隱藏在數據背后的隱性知識。數據分析是大數據研發應用中的關鍵一環,是大數據施展預測功能的實現方式。大數據之父維克托爾認為,大數據的核心是預測,而實現預測的途徑是通過挖掘不同變量間的相關關系,揭示數據背后的隱性知識。比如,沃爾瑪超市通過分析顧客的購物清單發現,購買啤酒的人通常還會購買尿不濕,颶風季節POP-Tarts蛋撻的銷量也隨之增加,所以,沃爾瑪將啤酒和尿不濕、颶風用品和蛋撻放在一起銷售,方便顧客,從而增加銷量。
法律大數據的數據分析具體是,通過分析法律相關數據,挖掘隱藏在數據背后的司法規律。比如,史宇航博士認為,通過對裁判文書中的“受理時間”和“落款時間”進行數據挖掘,“可以計算出來(某一類型)案件審理的時間”,“至少可以幫助評估訴訟的時間成本。”再比如,華宇軟件在“職務犯罪偵查信息化解決方案”中提出:“通過匯集、分析、研究和利用各種信息資料,幫助辦案人員了解和掌握犯罪動向、特點及規律,通過信息引導偵查,研判偵查方向和偵查重點,實現職務犯罪偵查引導,服務檢察機關的職務犯罪偵查辦案工作,有助于提高偵查效率,拓展偵查思路,提煉偵查方法,促進偵查模式‘由供到證’向‘由證到供’的轉變。實現工作創新、辦案服務與科學技術的深度融合。”
目前,數據分析主要有兩條技術路線:一是憑借人的先驗知識,人工建模來分析數據;二是建立人工智能系統,使用大量樣本數據進行訓練,讓機器獲得從數據中提取知識的能力。筆者認為,法律大數據遵循前一技術路線即可。雖然,通過機器學習實現人工智能誘惑力十足,而且近年來深度神經網絡卓有成效,但是,機器學習實現難度大,而且網絡層數較多時會導致輸出結果風險高,這與法律經濟性、穩定性、權威性等方面的要求均相沖突。實際上,法律大數據以結構化、半結構化數據居多,通過“先驗知識+人工建模”足可實現司法規律的充分挖掘。
憑借先驗知識人工建模,需要法律團隊和建模團隊的精誠合作,這并不容易。單從法律團隊方面來說:第一,法律團隊需掌握一定的司法規律,并能通俗表達,若無司法規律打底,建模團隊“難為無米之炊”;第二,法律團隊需掌握大數據的基本原理、主要技術路線、常用技術手段,這樣才能有的放矢,挖掘到更多的“弱相關數據”,為建模提供更多原料;第三,法律團隊要能對大數據的輸出結果進行科學合理的篩選,大數據重相關、輕因果,其輸出的司法規律是否科學、是否可行,均需法律團隊嚴格把關。
三、法律大數據的禁區在于個人隱私和因果推理
首先,“不能任由大數據運用在法外任性‘裸奔’,……涉及個人隱私的法律保護必須提上議程”,這已引起不少主流媒體的關注。大數據可能侵犯個人隱私,是因為大數據在處理大量碎片化、弱相關的數據時,會產生鑲嵌理論效應,即,“信息拼版的價值高于其組成部分各自價值的總和”。同于其他大數據,法律大數據不可侵犯個人隱私,這是法律大數據在價值層面上的禁區。
其次,止步于因果推理,應是法律大數據在技術層面上的禁區。大數據能呈現變量相關程度、預測事物發展趨勢,但這種“相關程度”不代表因果關系,只是一種或然的、間接的關聯;預測趨勢不代表必然走向,只是一種蓋然性的判斷。這與統計概率的局限如出一轍,后者同樣只能呈現相關關系、不能揭示因果關系。這一特性極大限制了法律大數據——乃至人工智能——在司法領域中的應用,比如,司法審判需謹慎使用大數據與人工智能。
最后,周濤教授在《大數據時代》的“譯者序”中引用了蘇珊·朗格的一段話,這值得每一個關注大數據的人深思:“某些觀念有時會以驚人的力量給知識狀況帶來巨大的沖擊。由于這些觀念能一下子解決許多問題,所以,它們似乎將有希望解決所有基本問題,澄清所有不明了的疑點。每個人都想迅速地抓住它們,作為進入某種新實證科學的法寶,作為可以用來建構一個綜合分析體系的概念軸心。這種‘宏達概念’突然流行起來,一時間把幾乎所有的東西都擠到了一邊。”