treelistview 所有节点失去焦点_垃圾询盘过滤,焦点科技的 Milvus 实践

4cd70238c91364b3c6decb491b6a4406.png

文章作者:

黎阳,焦点科技软件开发工程师

李成龙,Zilliz 数据工程师

Milvus (https://milvus.io/) 向量搜索引擎开源半年以来,全球已经有数百家企业或组织用户。焦点科技是一家以 B2B 外贸交易为主营业务的科技公司,也是 Milvus 的用户。

| 应用场景

焦点科技旗下多条产品线的商品搜索服务均由搜索平台支撑。但在信息爆炸的背景下,越来越多的信息以非文本的形式出现,传统基于分词与规则匹配的搜索服务已经满足不了对大量非文本数据的搜索场景。为了拓展业务覆盖场景,提高流量,焦点科技开展了扩展向量搜索服务平台的项目。

在 B2B 电商网站中国制造网中,有效过滤掉重复的“广告式”询价、推销等垃圾询盘对提升询盘质量有很大帮助,垃圾询盘的过滤精度直接影响用户的口碑。而提升询盘质量就等于改善了用户体验,无论买家还是卖家都能获取更真实有效的交易信息,完成更多交易。

传统的垃圾询盘过滤很难通过文本匹配规则产生很好的效果,很长一段时间垃圾询盘过滤都需要靠人工完成,效率低下且耗费人力资源。焦点科技通过 Milvus 建立的向量搜索业务,对已知的垃圾询盘向量进行了底库的建立,每当有可疑询盘产生时就进入向量匹配阶段,根据结果和业务规定的临界值等规则进行判断,智能且自动化地完成垃圾询盘的过滤。

| 关键技术

MinHash

在过去通过人工过滤垃圾询盘的时代中,焦点科技累积下了一定数量的已知的垃圾询盘模板。由于功能需求是寻找与既往询盘以及询盘模板在语句和结构上相似的询盘邮件,不存在语义匹配的需求,因此考虑使用文本字符串相似度计算方法。两个集合的相似度可以使用 Jaccard 相似度进行计算,即两个集合的交并比,但在海量数据的情况下计算两两之间的交并比对计算资源要求很高。考虑到既往询盘量为千万级,对计算实时性要求较高,因此选择使用 MinHash 算法将询盘文本转换为哈希编码来进行最近邻检索。MinHash 算法的主要思想为:(1)一个文本从字符串的角度可以近似看做由字(词)或字(词)的 2-gram 构成的集合。

(2)用相同的随机方式从两个集合中抽取一个元素,两个元素相等的概率等同于 Jaccard 相似度。随机的哈希函数对两个集合中的所有元素进行哈希运算,取两个集合的最小哈希值判断是否相等,重复该操作多次即可近似评估最小哈希值相等的概率,这种方式就是随机抽取的一种实现。

(3)多种哈希函数所计算得到的最小哈希值构成的向量序列即为该集合的MinHash,可作为该集合的哈希编码。计算两个哈希编码之间的欧式距离作为源文本字符串的相似度。

MinHash 本质上是对文本对应的字(词)集合进行了降维,目标是降低 Jaccard 相似度计算的复杂度,并尽可能保持计算精度。

在本例中对询盘文本使用 jieba 工具(https://github.com/fxsjy/jieba)加载业务词表的方式进行分词,ngram 为 1 的方式构建文本对应词集合,采用 200 种不同的哈希编码构建长度为 200 的 MinHash 向量,在目前的业务场景中表现出了较好的近邻检索能力。

Milvus

Milvus 是一款开源的特征向量相似度搜索引擎,具有使用方便、实用可靠、易于扩展、稳定高效和搜索迅速等特点。Milvus 可以对接包括图片识别,视频处理,声音识别,自然语言处理等深度学习模型,为向量化后的非结构数据提供搜索分析服务。

Milvus 的数据处理流程通常有以下几个步骤:

  1. 通过深度学习模型或者其他算法将非结构化数据转化为特征向量;

  2. 将特征向量导入 Milvus 库进行存储并建立索引;

  3. 在 Milvus 中进行搜索,返回检索向量的相似结果。

5d0b880d61a151ba0014c76d1be9d70f.png

在垃圾询盘过滤的场景中,通过 MinHash 算法将已知的垃圾询盘数据向量化并导入 Milvus 库,Milvus 对向量进行存储并建立索引,再通过 Milvus 进行搜索即可返回相似向量的结果。另外,提供 Java SDK 和 Docker 部署方式的 Milvus 对开发十分友好,不仅搜索效率高,部署也十分简单。

| 系统实现

作为一个统一的服务接口平台,焦点科技在开发的时候尽量回避了向量搜索对业务的定制,将 Milvus 实例抽象成搜索服务节点,嵌入原有的搜索平台中,当有向量搜索业务场景需求时,则向这些节点建立业务。

在系统构建层面,焦点科技将 Milvus 实例与文本搜索实例放在了同一层级,通过一个业务控制器分别进行向量搜索结果的召回、文本信息回查等流程,上层通过路由分发器进行负载均衡与读写分离的处理。

5075e5d190a283d83a3f716cf3e53890.png

 整个业务流程中大致可以分为三个流程:

(1)向量化流程

在查询客户端中,将待判断的询盘利用 MinHash 算法转化为特征向量。

(2)向量查询流程

查询向量首先进入 Milvus 服务集群,通过在指定的节点上进行临近匹配,召回前 TopK 个向量与向量 ID;

(3)信息回查流程:

业务控制器控制 Milvus 的结果向量 ID 进入文本搜索服务集群中进行相关信息的收集(向量 ID 即相关信息的主键,通过自定义向量 ID 实现)。通过相关信息的分析,从发送地址、身份、是否标记为垃圾询盘模板等多个维度进行分析,如果出现以下两种情况,则可以确定该询盘为垃圾询盘:

  • 如果查询向量匹配到的结果向量多来自同一地址的不同身份或未认证身份;

  • 结果向量中多为已标记垃圾询盘的模板。

当然,此逻辑可被定制,根据不同业务的需求可以增加更多判断逻辑。

未来 Milvus 版本中会加入富文本和高级搜索,那么相关信息可以通过在 document 中带入,不需要回调文本搜索服务来获取,期待早日上线。

| 结语

对于程序员来说,头疼的手撕向量搜索问题迎来了救世主,经过多版本的迭代 Milvus 增加了越来越多的新功能,大大简化了对业务需求实现的难度。Milvus 正在以肉眼可见的速度茁壮成长,在开源的世界开辟自己的地盘,未来可期。

希望 Milvus 在非结构化数据处理的道路上走得更远,为企业带去更多的价值。同时也希望更多志同道合的伙伴加入 Milvus 开源社区,一起参与、见证 Milvus 的成长。

| 欢迎加入 Milvus 社区github.com/milvus-io/milvus | 源码milvus.io | 官网milvusio.slack.com | Slack 社区zhihu.com/org/zilliz-11/columns | 知乎zilliz.blog.csdn.net | CSDN 博客space.bilibili.com/478166626 | Bilibili2df29f171ee61ec62ea22200929ea9d4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/454171.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《操作系统》OS学习(四):计算机体系结构、内存层次和地址生成

计算机除了计算能力之外还有存储能力,存储能力即计算机拥有一系列的存储介质,我们可以在存储介质上存储我们的代码和数据。计算机体系结构中约定了哪些地方可以用来存储数据:CPU内的寄存器、内存和外存。不同的存储介质,容量、速度…

GCC中SIMD指令的应用方法

X86架构上的多媒体应用开发,如果能够使用SIMD指令进行优化, 性能将大大提高。目前,IA-32的SIMD指令包括MMX,SSE,SSE2等几级。 在GCC的开发环境中,有几种使用SIMD指令的方式,本文逐一介绍。X86的…

使用angular4和asp.net core 2 web api做个练习项目(二), 这部分都是angular

上一篇: http://www.cnblogs.com/cgzl/p/7755801.html 完成client.service.ts: import { Injectable } from angular/core; import { Http, Headers } from angular/http; import { Observable } from rxjs/Observable; import { ErrorHandler } from angular/core; import rxj…

leelen可视对讲怎么接线_楼宇对讲系统怎么布线 楼宇对讲系统布线方式【介绍】...

随着智能小区规模不断增加,楼宇可视对讲系统应用越来越广泛,因而视频信号的传输方式与布线设计显得越来越重要。视频信号与数据和音频信号不同,可行的一种传输方式为视频信号基带传输,下面小编就简要介绍一下这种传输方式和布线方…

路由汇总实例

5.2.2.2 路由汇总策略 之前提到过,在网络管理员计划好子网选择并进行预期地路由汇总时,手动路由汇总工作能取得最佳效果。例如,之前的例子设定好了一个考虑周全的计划,管理员只使用远离Yosemite路由器并以10.2开头的子网。这个规定…

《操作系统》OS学习(五):连续内存分配 内存碎片、动态分配、碎片整理、伙伴系统

内存碎片 在没有其他方式辅助的情况下,我们分配给一个进程的内存是连续的。在分配时候我们需要有动态分配与碎片处理。如何理解呢?就是每个进程需要一块内存,我们要选取合适的位置的内存分配给它。当有的进程先结束了内存还给操作系统&#…

世界之窗浏览器删除文本框信息_文本框——Excel里的便利贴

工作表里面的单元格应该是足够我们来记录数据和信息了。但是文本框这个功能在工作表中还是存在,可以理解为便利贴功能。插入文本框1.点击“插入”选项卡。2.然后点击“文本框”。3.在下拉菜单里面,有两种可供选择:横排文本框和垂直文本框。在…

RHEL 5服务篇—常用网络配置命令

常用网络配置命令 在“Linux系统管理”的文章中,大家已经学习了Linux系统的基本管理命令和技巧,为了进一步学习Linux网络服务打下了良好的基础。所以我作者以后将陆续推出Linux网络服务的相关文章。希望大家能给与我大大的支持。 今天我们就来学习一下…

清华大学《操作系统》(六):非连续内存分配 段式、页式、段页式存储管理

背景 连续内存分配给内存分配带来了很多不便,可能所有空闲片区大小都无法满足需求大小,这个分配就会失败。基于这种现状,就有了非连续内存分配的需求。非连续分配成功的几率更高,但也面对更多的问题,比如分配时是不是…

C语言第三次博客作业---单层循环结构

一、PTA实验作业。 题目1 1.实验代码 int n,i; double height1,height2;//1为输入身高&#xff0c;2为输出身高。 char sex; //1<height1<3; //N<1; scanf("%d",&n); while(n--){getchar();scanf("%c%lf",&sex,&height1);switch(sex)…

清华大学《操作系统》(七):虚拟存储、覆盖、交换

接下来几节都是对虚拟存储的讲解。虚拟存储是非连续存储管理的扩展。通过将内存中的数据暂存到外存的方式&#xff0c;为进程提供更大的内存空间。虚拟存储出现的主要原因是因为程序规模的增长速度远远大于存储器容量的增长速度&#xff0c;导致内存空间不够用。其实针对内存空…

遵义大数据中心项目工程概况_市委书记张新文到曹州云都大数据中心等项目现场调研建设情况...

4月25日&#xff0c;市委书记张新文到曹县调研重点项目建设情况&#xff0c;研究推进措施。市委常委、秘书长任仲义参加活动。张新文首先来到曹州云都大数据中心项目建设现场&#xff0c;查看项目推进情况。曹州云都大数据中心&#xff0c;是涵盖云计算区、研发办公区、公寓生活…

linux 可执行文件的分析(gcc GUN BUILEIN)

1、GCC The History of GCC 1984年&#xff0c;Richard Stallman发起了自由软件运动&#xff0c;GNU (Gnus Not Unix)项目应运而生&#xff0c;3年后&#xff0c;最初版的GCC横空出世&#xff0c;成为第一款可移植、可优化、支持ANSI C的开源C编译器。GCC最初的全名是GNU C Com…

Cassandra 的数据存储结构——本质是SortedMapRowKey, SortedMapColumnKey, ColumnValue

Cassandra 的数据存储结构 Cassandra 的数据模型是基于列族&#xff08;Column Family&#xff09;的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Googles BigTable 的数据结构和功能特点&#xff0c;采用 Memtable 和 SSTable 的方式进行存储。在 Cassandra 写入数据之前&a…

清华大学《操作系统》(八):置换算法

功能&#xff1a;置换算法是指当出现缺页异常时&#xff0c;需要调入新页面而内存已满时&#xff0c;置换算法选择被置换的物理页面。 设计目标&#xff1a; 尽可能减少页面的调入调出次数&#xff1b;把未来不再访问或短期内不访问的页面调出。 页面锁定&#xff1a; 了解具…

烂泥:通过vsphere给esxi添加本地硬盘

公司ESXi服务器的硬盘空间不够使用&#xff0c;现在新加了一块硬盘在ESxi服务器上。在服务器上添加完硬盘后&#xff0c;在Vsphere上是看不到新加硬盘的。 下面我们来通过虚拟机模拟该情况&#xff0c;先添加一块硬盘。如下图&#xff1a; 在Esxi添加完硬盘后&#xff0c;现在通…

清华大学《操作系统》(九):进程和线程

进程 定义&#xff1a; 进程是指一个具有一定独立功能的程序在一个数据集合上的一次动态执行的过程。 组成&#xff1a; 代码数据状态寄存器&#xff08;正在运行的一个程序的所有状态信息&#xff09;&#xff1a;CPU状态CP0、指令指针IP通用寄存器&#xff1a;AX、BX、CX…

开始Flask项目

1.新建Flask项目。2.设置调试模式。3.理解Flask项目主程序。4.使用装饰器&#xff0c;设置路径与函数之间的关系。5.使用Flask中render_template&#xff0c;用不同的路径&#xff0c;返回首页、登录员、注册页。6.用视图函数反转得到URL&#xff0c;{{url_for(‘login’)}}&am…

烂泥:mysql数据库使用的基本命令

1、连接数据库的格式 mysql -h IP -u用户名 -p密码; 1.1连接远程数据库 mysql -h 192.168.1.214 -uroot -p123456 也可写成&#xff1a; mysql -h 192.168.1.214 -u root -p 123456 1.2连接本地数据库 mysql -uroot -p123456 也可写成&#xff1a; mysql -u root -p 123456 2、…

《操作系统》OS学习(十):进程控制

进程切换&#xff08;上下文切换&#xff09;&#xff1a; 定义&#xff1a;暂停当前运行进程&#xff0c;从运行状态变成其他状态&#xff0c;调度另一个进程从就绪状态变成运行状态要求&#xff1a;切换前&#xff0c;保存进程上下文&#xff1b;切换后&#xff0c;恢复进程…