面對新技術,法律專業人士通常是最保守的人群之一,但大數據時代,律師和律師事務所要想脫穎而出,卓爾不群,盡快采用大數據技術是不二之選。
2008年金融危機以來,律師行業經歷了長期的低潮,越來越多的企業客戶無法負擔高昂的律師費用,導致律所裁員不斷,規模日漸萎縮。而那些行業領先的律所開始推崇“精益企業”,收費模式也從過去的固定費率調整為按需服務。
但是“精益律所”并非根本的解決方案,律師事務所還必須借助大數據大幅降低信息處理成本,提高數字競爭力。近日GigaOM專欄作者Derrick Harris撰文指出,律師事務所基于大數據進行流程優化時,需要重點考慮三個問題。
一、自動化造就“火眼金睛”
文檔檢索可能是大數據對法律工作影響最大的領域。律所通常存儲海量的非結構化電子文檔,包括電子郵件、Office文檔、PDF文檔等等,從數以TB計的數據中檢索案件相關文檔簡直就是律師的噩夢,費時、費力而且準確性差。通過大數據智能分析軟件,律所能夠大大提高文檔檢索效率。例如大數據創業公司Recommind開發的大數據軟件能通過機器學習算法進行“預測編碼”,大大提高法律文檔的檢索效率。另外一家值得關注的企業——PureDiscovery的語義分析技術也能大幅提高文檔檢索效率。
值得注意的是Recommind還在不斷開發新的產品Hypergraph(超級圖譜),例如幫助律師發現人、話題、時間線、非結構化數據之間關聯關系的功能(編者按:類似圖譜分析)。在這個領域Recommind面對的競爭對手包括Zylab、EMC和IBM。
二、一切皆可數字化
案件訴訟中會產生大量文檔,而這些文檔“蘊藏”的數據對后來的案件辯護和審理則具有很高的參考價值。
大數據創業公司Lex Machina 的目標客戶是知識產權律師 ,為他們提供決策支撐數據統計服務。 Lex machina將很多過去的較為模糊的定性數據都給量化了,例如“這位法官對被告很不利”、“這種索賠的案件通常都能贏”或“這位律師對此類技術的經驗值最高”等。Lex Machina的數據分析的數據源主要來自公開的PACER(聯邦法庭數據庫),PACER的數據一直在那,但是Lex Machina是第一家通過機器學習和自然語言處理等技術從中“淘寶”的公司。
值得注意的是,Lex Machina的前身是一個非盈利項目——斯坦福知識產權法律結算中心,公司還招募到了斯坦福大學的機器學習和自然語言處理專家Andrew Ng和Christopher Manning。IEEE Spectrum上有一篇對Lex Machina的報道非常精彩。
三、大數據應用的自助與創新
與其遙遙無期地坐等大數據廠商開發好用的律師工具,律師們需要自己動手,創造性地利用各種現成的大數據工具和數據源。例如律師可以使用類似ScraperWiki這樣的工具分析證人的Twitter聯系人網絡和活動記錄。
律師還可以使用類似etcML這樣的免費工具(對應的付費服務如AlchemyAPI)分析各種文本,包括推文和電子郵件,來發現關鍵觀念或進行傾向性判斷。零用import.io這樣的工具從網站抽取數據(例如房產價格歷史數據),并制作成圖表。
另外,律師還應當學習掌握目前比較流行的一些數據可視化工具。