隨著 5G 時代的到來,大數據分析和應用得到了各個行業的廣泛關注,各種新的應用也時刻產生巨量的非結構化數據,如何工具化、平臺化、規模化地使用這些非結構化數據,成為企業關注的焦點。
9 月 24-25 日,剛融資 6000 萬美元的向量數據庫公司 Zilliz 出品的 2022 首屆非結構化數據峰會成功舉行,本屆峰會以“矩陣革命——向量連接世界”為主題,Zilliz 核心產品和研發團隊攜手來自金融、人工智能、互聯網等多領域的專家,分享了以向量數據庫為代表的非結構化數據處理技術發展與應用實踐。
Zilliz Cloud:非向量數據庫產品家族新成員
作為向量數據庫包括非結構化數據領域的先行者,Zilliz 一直在探索如何管理、使用、快速價值化非結構化數據,從而賦能企業提效增益。
Zilliz 創始人兼首席執行官星爵表示,非結構化數據已經占數據總量的 80%以上,未來幾年增速將會超過結構化數據。但與此同時,非結構化數據的價值目前還遠未充分挖掘,Zilliz 會繼續深耕在向量數據處理領域的能力,包括數據的可觀測性、工作流管理、數據安全、數據隱私、數據應用等層面。如今,Zilliz 在非結構化數據處理的生態圈,已經貢獻了 Milvus 和 Towhee 兩個開源項目,在非結構化數據處理領域不斷提供創新解決方案。
星爵 Zilliz 創始人兼首席執行官
言出必行,Zilliz 隨即以此次峰會為契機,重磅發布了全新產品——Zilliz Cloud,為用戶提供了一個新的云選項。
談及推出 Zilliz Cloud 的初衷,Zilliz 合伙人和技術總監欒小凡這樣解釋:在非結構化數據領域,很多工具是散的,用戶只能把各種各樣的開源組件拼接起來使用,處理流程會比較繁瑣,并且在穩定性、易用性方面還會遇到各種問題。
Zilliz Cloud 正是為了解決這些痛點而生,它是基于 Milvus 構建的一個能夠托管的云服務,由最懂得做非結構化處理及向量檢索的團隊——Milvus 原班人馬打造。Zilliz Cloud 具備高可用、成本優化、擴展性強等特點,能夠打通數據之間的隔閡,完成數據的轉換、分析、遷移、可視化等管理動作,更重要的是,通過這一系列操作,非結構化數據將被轉化成可以檢索的向量數據,從而為業務提供更大的價值。
Zilliz 產品家族圖
面對新成員的華麗亮相,作為家族元老的 Milvus 和 Towhee 也不逞多讓。
Milvus 是一個開源的分布式向量數據庫,不但集成了業界成熟的向量相似度搜索技術,更在此基礎上對高性能計算框架進行了大幅度優化。在即將推出的 Milvus 2.2 版本中,增加了磁盤索引(DiskANN)這一選項,相比于傳統的純內存索引方案,DiskANN 可以把用戶的本地磁盤作為存儲索引,犧牲少量的查詢性能,但能換來成本的大幅降低,用戶可以使用更低成本的具備 SSD 且內存更小的機器進行數據庫部署。同時新版本還將增加數據批量導入、RBAC 權限控制、查詢 Pagination、限流與反壓等功能。
Towhee 是傳統 ETL 工具覆蓋能力的補充,相比傳統 ETL,非結構化數據的 ETL 在業務側的原始數據層更大、轉換過程更加面向深層次語義、過程會引入大量 AI 能力。通過使用 Towhee,任何用戶都能夠基于 Python 代碼一鍵構建面向生產的高性能非結構化數據處理流水線。未來,Towhee 將會持續得到優化和升級,比如在現有的 pipeline 定義接口上提供一個類似于 Spark、Flink 的流水線定義接口;同時將更加深入地集成類似英偉達這樣的技術生態,進一步提升整個流水線面向生產的執行效率;也會不斷努力滿足社區用戶的需求,解決中文模型的缺口。
眼花繚亂的非向量數據庫應用場景
非結構化數據的不斷增長,驅動著基于 AI 的非結構化數據分析與檢索技術的不斷發展。
據 Zilliz 合伙人和產品總監郭人通介紹,在應用生態層面,非結構化數據搜索在圖片搜索、視頻搜索、文本語義搜索、跨通道搜索、推薦/問答系統、版權保護、欺詐檢測、數據查重、網絡安全、藥物發掘、異常檢測等場景有著良好的應用前景;在行業生態層面,當前非結構化數據生態的基礎軟件和工具遠遠少于結構化數據生態,未來有著非常廣闊的增長空間。
技術的應用離不開不同行業的實踐,多位嘉賓從各自業務出發,通過實際問題剖析,闡述了如何有效地提取非結構化數據的語義信息,如何實現大規模、高精度、高吞吐的非結構化數據分析與檢索。
- 中國電信翼支付風控總監湯敏偉分享了翼支付如何利用 Milvus 構建更加智能的金融風控體系;
- 百度資深研發工程師方澤陽分享了 Milvus 語義索引庫如何幫助百度飛槳 PaddleNLP 提高語義檢索的精準性;
- 虎牙安全算法高級研究員黎官釗分享了 Milvus 如何幫助虎牙團隊快速進行敏感區域特征識別與檢索,提高視頻內容安全審查效率;
- 陌陌數據平臺資深專家孔云龍分享了 Milvus 如何幫助陌陌進行垃圾信息甄別、假照識別等。
金融支付、深度學習、視頻直播、社交……Milvus 在越來越多的領域實踐落地和發揮價值,這讓我們近距離感知到了非結構化數據和向量檢索的極大發展空間,也對于打破數據孤島,實現優質數據互聯互通更加有信心。
“單絲不成線,孤木不成林”,縱深挖掘非結構化數據潛能意義重大。2022 首屆非結構化數據峰會,給我們展示了一張非結構化數據處理技術進展與實踐成果的全景圖。面向未來,Zilliz 也發出倡議,希望借助本次峰會達成共識,經驗共享,創新共創,與更多的開發者、生態伙伴、創業公司一起探索,推動向量數據庫在各行各業的應用,共建非結構化數據的美好未來。