Categories
最新消息

海量數據中搜索精華價值:Milvus助力頭部企業打造前沿AI搜索


作者 | 王強

在今天這個大數據無處不在的時代,如何高效精確地對海量數據進行處理和分析,是擺在各行業頭部企業與軟體開發團隊面前的重大挑戰。傳統的結構化、半結構化數據領域有著較為成熟的解決方案和技術,相關數據尚可輕鬆應對;但在圖片、視頻、語音為代表的非結構化數據領域,業內曾長時間缺乏高效的處理和分類演算法技術,給這些領域的搜索業務實踐帶來了巨大的困難。

為了幫助企業和軟體開發人員應對海量非結構化數據檢索難題,Zilliz 於 2019 年底推出了開源向量搜索引擎 Milvus。Milvus 支持針對 TB 級向量的增刪改操作和近實時查詢,具有高度靈活、穩定可靠以及高速查詢等特點。它集成了 Faiss、NMSLIB、Annoy 等廣泛應用的向量索引庫,並提供了一整套簡單直觀的 API,支持過濾標量數據,可提供高效、準確的向量搜索能力。

目前,Milvus 已獲得全球數百家組織的採用,在電子商務、泛互聯網服務、智能產品設計、智慧城市建設、安防、生物製藥、醫療等領域都能見到 Milvus 的身影。Milvus 已成為大規模 AI 搜索技術領域的明星,將幫助越來越多的企業和組織挖掘海量非結構化數據中的精華價值。

10 月 17 日,在 Milvus 開源剛滿一周年之際,Zilliz 攜合作夥伴在北京舉辦了第一屆 Milvus Community Conf。本次大會上,Zilliz 創始人兼 CEO 星爵向大家分享了 Milvus 的發展藍圖和產品演化路線,瀾起科技、愛奇藝、貝殼找房、企查查和焦點科技等社區用戶與合作夥伴則分享了 Milvus 在各自組織中的一線落地實踐經驗。

1個Milvus 的現狀及未來圖景:開源基礎塑造搜索新星

大會開場,Zilliz 創始人兼 CEO 星爵登台,為大家介紹了 Milvus 當前的發展狀況和下一步的技術演進計劃。

自 2019 年 10 月 15 日開源以來,Milvus 僅僅用 9 個月時間就在全球獲得了超過 300 家組織的採用。Milvus 的應用領域非常廣泛,包括電商、互聯網服務、醫藥、智慧城市和安防、計算機軟硬體、廣告設計、智能製造等大類下數十個細分行業。一年以來,Milvus 經過了多個版本的技術迭代;本月 16 日,Milvus 0.11 版本正式發布,帶來了大量底層重構和屬性過濾、元數據快照兩大新功能。

接下來,Milvus 首先將完善開源社區合作體系,吸引更多組織進入社區管理委員會,並建立定期委員會會議制度。在產品端,Milvus 計劃實現廣泛的底層軟硬體架構支持,對 ARM、RISCV、華為鯤鵬、龍芯等平台提供全方位適配。2021 年,Milvus 還將發布 Milvus Cloud 產品,目標對接全球六大雲計算平台(AWS、Azure、GCP、阿里雲、騰訊雲、華為雲),使 Milvus 領先的 AI 搜索能力通過雲端惠及更多用戶。

2瀾起科技:異構硬體體系提升 Milvus 相似性搜索性能

在到會的 Milvus 合作夥伴中,來自上海瀾起科技的楊曄為大家介紹了瀾起科技利用異構硬體技術提升 Milvus 相似性搜索性能的實踐案例。

在推薦、搜索、機器人助手等實踐領域,相似性搜索是非常關鍵的一項底層能力。Milvus 搜索引擎提供的相似性搜索能力需要面對 10 億級的數據集,提供高達 99.99% 的準確率,並為在線服務儘可能縮短搜索延遲。為了儘可能提升 Milvus 的性能,傳統的方案主要利用 GPU 來提供算力增幅,而瀾起科技則提出了利用 FPGA 加速器進一步提升性能的方案。

瀾起科技基於 Xilinx U250 FPGA 打造了 Milvus 的專用 HSA 加速器,利用多達 64GB 的片上 DDR4 內存打破了常見 GPU 方案的 16-32GB 內存容量瓶頸。瀾起科技還專門研發了軟體端的 HSA 加速引擎來充分利用 FPGA 硬體的能力,最終實現了極大的性能提升。根據瀾起科技的評估結果,無數據拷貝條件下 HSA 加速器相比 GPU(Tesla P100)有著翻倍的搜索效率提升,而有數據拷貝條件下則實現了數量級的巨大飛躍:

海量數據中搜索精華價值:Milvus助力頭部企業打造前沿AI搜索

3Milvus 在愛奇藝視頻推薦領域的應用

來自愛奇藝的張吉介紹了愛奇藝在視頻推薦領域應用 Milvus 搜索引擎的落地經驗。

愛奇藝在開發大規模視頻推薦系統時,經過比較發現向量搜索演算法更適合視頻推薦應用,進而選擇了 Tensorflow Serving 和 Milvus 為基礎來打造整個系統的底層架構。其中,選擇 Milvus 的主要原因是看重了它豐富文檔、完善封裝和 RPC 特性。整套推薦系統的架構如下:

海量數據中搜索精華價值:Milvus助力頭部企業打造前沿AI搜索

在內部測試中,愛奇藝在一台 Intel Xeon 6248/4GB 機器上測試了 Milvus 的性能,在數百到上千 QPS 的場景下 Milvus 可提供 4-8ms 的平均延遲,整體表現較佳。最後,愛奇藝還嘗試實現了 Milvus 與 TF Serving 的結合。未來這套方案還可以擴展到語義搜索和以圖搜圖等新業務上,ANN 數據規模繼續增大后可以分片來應對。

4貝殼找房:Milvus 打造向量搜索平台

房地產中介平台貝殼找房在實踐中遇到的一個關鍵需求,就是通過房產戶型圖來查找相似房源。來自貝殼找房的孫要飛就介紹了貝殼找房利用 Milvus 打造向量搜索平台,解決此類需求的經驗。

向量搜索在處理戶型圖、用戶畫像、語音、長文本等數據時相比傳統搜索有著明顯優勢。貝殼找房在做向量搜索平台技術選型時,看中了 Milvus 的多開源庫支持、讀寫分離、高可用性、多屬性多索引、高性能、開放社區等優點,從而選擇 Milvus 作為搜索平台的核心引擎。

海量數據中搜索精華價值:Milvus助力頭部企業打造前沿AI搜索

5企查查:利用 Milvus 增強商標檢索

企查查是一款企業信用查詢工具,旨在提供快速查詢企業相關信息的服務。目前,企查查已收錄約 5000 萬個企業商標信息和圖片,如何在這些圖片中快速準確找到相似商標,是幫助企業用戶提升商標保護能力的關鍵。

為此,企查查基於海量數據擴展能力、高速響應和平衡成本三個需求維度,選擇了 Milvus 來實施商標圖片檢索項目。來自企查查的文安哲介紹了該項目的具體情況。

海量數據中搜索精華價值:Milvus助力頭部企業打造前沿AI搜索

在項目開發中,企查查團隊解決了數據存儲、檢索和干擾項排除等問題,最終實現了較好的檢索效果。在現場演示環節,該平台不僅能夠快速檢索出企查查資料庫中給定商標圖形的相似項目,還能對來自攝像頭等輸入的變形、低精度圖像進行高精確度查找,給終端用戶帶來了極大便利。

6焦點科技:Milvus 賦能智能搜索

焦點科技是國內頭部軟體企業,業務涉及電商、教育、雲計算等諸多領域。隨著業務的擴張,焦點科技希望能夠實現多個旗下平台的聚合圖片搜索,更好地滿足用戶 / 賣家推薦、同行 / 社區匹配的需求。來自焦點科技的黎陽介紹了相關細節。

海量數據中搜索精華價值:Milvus助力頭部企業打造前沿AI搜索

早期,焦點科技試圖自行研發向量搜索架構來搭建所需能力,但遇到了很大的困難。Milvus 發布之後,焦點科技就轉向利用 Milvus 嵌入原有搜索引擎中的技術路線。

海量數據中搜索精華價值:Milvus助力頭部企業打造前沿AI搜索

7大會總結

除上述合作夥伴外,來自 Facebook 的技術團隊還在大會上分享了 Facebook Faiss 相似性搜索庫的技術細節。

本屆 Milvus Community Conf 可謂群星閃耀,精彩紛呈。作為 Milvus 發展道路上的一個重大里程碑,本屆大會見證了 Milvus 開源一周年來取得的優異成績,向更多人展現了 Milvus 在向量搜索領域的深度價值與潛力。隨著非結構化數據搜索需求的飛速增長,Milvus 作為業內前沿的向量搜索開源項目,未來的前景會更加廣闊。更多組織和貢獻者的加入也將不斷強化 Milvus 開源社區的實力,在向量搜索領域塑造最有影響力的開源生態。當 Milvus Cloud 在 2021 年正式推出后,Milvus 將在向量搜索行業引領怎樣的風潮,值得我們期待。

點個在看少個 bug