Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索

Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索

Similarities 相似度计算、语义匹配搜索工具包,实现了多种相似度计算、匹配搜索算法,支持文本、图像等。

1. 文本相似度计算(文本匹配)

  • 余弦相似(Cosine Similarity):两向量求余弦
  • 点积(Dot Product):两向量归一化后求内积
  • 汉明距离(Hamming Distance),编辑距离(Levenshtein Distance),欧氏距离(Euclidean Distance),曼哈顿距离(Manhattan Distance)等
  • 语义模型

    • CoSENT文本匹配模型【推荐】
    • BERT模型(文本向量表征)
    • SentenceBERT文本匹配模型
  • 字面模型

    • Word2Vec文本浅层语义表征【推荐】
    • 同义词词林
    • 知网Hownet义原匹配
    • BM25、RankBM25
    • TFIDF
    • SimHash

2.图像相似度计算(图像匹配)

  • 语义模型

    • CLIP(Contrastive Language-Image Pre-Training)
    • VGG(doing)
    • ResNet(doing)
  • 特征提取

    • pHash【推荐】, dHash, wHash, aHash
    • SIFT, Scale Invariant Feature Transform(SIFT)
    • SURF, Speeded Up Robust Features(SURF)(doing)

3.图文相似度计算

  • CLIP(Contrastive Language-Image Pre-Training)

4.匹配搜索

  • SemanticSearch:向量相似检索,使用Cosine
    Similarty + topk高效计算,比一对一暴力计算快一个数量级

6.Demo展示

Compute similarity score Demo: https://huggingface.co/spaces/shibing624/text2vec

Semantic Search Demo: https://huggingface.co/spaces/shibing624/similarities

6.1 中文文本匹配模型评测结果

ModelATECBQLCQMCPAWSXSTS-BAvgQPS
Word2Vec20.0031.4959.462.5755.7833.8610283
SBERT-multi18.4238.5263.9610.1478.9041.992371
Text2vec31.9342.6770.1617.2179.3048.252572

结果值使用spearman系数

Model:

  • Cilin
  • Hownet
  • SimHash
  • TFIDF
  • Install
pip3 install torch # conda install pytorch
pip3 install -U similarities

or

git clone https://github.com/shibing624/similarities.git
cd similarities
python3 setup.py install

7.使用场景推荐

7.1. 文本语义相似度计算

example: examples/text_similarity_demo.py

from similarities import Similaritym = Similarity()
r = m.similarity('如何更换花呗绑定银行卡', '花呗更改绑定银行卡')
print(f"similarity score: {float(r)}")  # similarity score: 0.855146050453186

Similarity的默认方法:

Similarity(corpus: Union[List[str], Dict[str, str]] = None, model_name_or_path="shibing624/text2vec-base-chinese",max_seq_length=128)
  • 返回值:余弦值score范围是[-1, 1],值越大越相似
  • corpus:搜索用的doc集,仅搜索时需要,输入格式:句子列表List[str]或者{corpus_id: sentence}的Dict[str, str]格式
  • model_name_or_path:模型名称或者模型路径,默认会从HF model hub下载并使用中文语义匹配模型shibing624/text2vec-base-chinese,如果是多语言景,可以替换为多语言匹配模型shibing624/text2vec-base-multilingual
  • max_seq_length:输入句子的最大长度,最大为匹配模型支持的最大长度,BERT系列是512

7.2. 文本语义匹配搜索

一般在文档候选集中找与query最相似的文本,常用于QA场景的问句相似匹配、文本相似检索等任务。

example: examples/text_semantic_search_demo.py

import syssys.path.append('..')
from similarities import Similarity#1.Compute cosine similarity between two sentences.
sentences = ['如何更换花呗绑定银行卡','花呗更改绑定银行卡']
corpus = ['花呗更改绑定银行卡','我什么时候开通了花呗','俄罗斯警告乌克兰反对欧盟协议','暴风雨掩埋了东北部;新泽西16英寸的降雪','中央情报局局长访问以色列叙利亚会谈','人在巴基斯坦基地的炸弹袭击中丧生',
]
model = Similarity(model_name_or_path="shibing624/text2vec-base-chinese")
print(model)
similarity_score = model.similarity(sentences[0], sentences[1])
print(f"{sentences[0]} vs {sentences[1]}, score: {float(similarity_score):.4f}")print('-' * 50 + '\n')
#2.Compute similarity between two list
similarity_scores = model.similarity(sentences, corpus)
print(similarity_scores.numpy())
for i in range(len(sentences)):for j in range(len(corpus)):print(f"{sentences[i]} vs {corpus[j]}, score: {similarity_scores.numpy()[i][j]:.4f}")print('-' * 50 + '\n')
#3.Semantic Search
model.add_corpus(corpus)
res = model.most_similar(queries=sentences, topn=3)
print(res)
for q_id, c in res.items():print('query:', sentences[q_id])print("search top 3:")for corpus_id, s in c.items():print(f'\t{model.corpus[corpus_id]}: {s:.4f}')

output:

如何更换花呗绑定银行卡 vs 花呗更改绑定银行卡, score: 0.8551
...如何更换花呗绑定银行卡 vs 花呗更改绑定银行卡, score: 0.8551
如何更换花呗绑定银行卡 vs 我什么时候开通了花呗, score: 0.7212
如何更换花呗绑定银行卡 vs 俄罗斯警告乌克兰反对欧盟协议, score: 0.1450
如何更换花呗绑定银行卡 vs 暴风雨掩埋了东北部;新泽西16英寸的降雪, score: 0.2167
如何更换花呗绑定银行卡 vs 中央情报局局长访问以色列叙利亚会谈, score: 0.2517
如何更换花呗绑定银行卡 vs 人在巴基斯坦基地的炸弹袭击中丧生, score: 0.0809
花呗更改绑定银行卡 vs 花呗更改绑定银行卡, score: 1.0000
花呗更改绑定银行卡 vs 我什么时候开通了花呗, score: 0.6807
花呗更改绑定银行卡 vs 俄罗斯警告乌克兰反对欧盟协议, score: 0.1714
花呗更改绑定银行卡 vs 暴风雨掩埋了东北部;新泽西16英寸的降雪, score: 0.2162
花呗更改绑定银行卡 vs 中央情报局局长访问以色列叙利亚会谈, score: 0.2728
花呗更改绑定银行卡 vs 人在巴基斯坦基地的炸弹袭击中丧生, score: 0.1279query: 如何更换花呗绑定银行卡
search top 3:花呗更改绑定银行卡: 0.8551我什么时候开通了花呗: 0.7212中央情报局局长访问以色列叙利亚会谈: 0.2517

余弦score的值范围[-1, 1],值越大,表示该query与corpus的文本越相似。

7.2.1 多语言文本语义相似度计算和匹配搜索

多语言:包括中、英、韩、日、德、意等多国语言

example: examples/text_semantic_search_multilingual_demo.py

7.3. 快速近似文本语义匹配搜索

支持Annoy、Hnswlib的近似语义匹配搜索,常用于百万数据集的匹配搜索任务。

example: examples/fast_text_semantic_search_demo.py

7.4. 基于字面的文本相似度计算和匹配搜索

支持同义词词林(Cilin)、知网Hownet、词向量(WordEmbedding)、Tfidf、SimHash、BM25等算法的相似度计算和字面匹配搜索,常用于文本匹配冷启动。

example: examples/literal_text_semantic_search_demo.py

from similarities import SimHashSimilarity, TfidfSimilarity, BM25Similarity, \WordEmbeddingSimilarity, CilinSimilarity, HownetSimilaritytext1 = "如何更换花呗绑定银行卡"
text2 = "花呗更改绑定银行卡"corpus = ['花呗更改绑定银行卡','我什么时候开通了花呗','俄罗斯警告乌克兰反对欧盟协议','暴风雨掩埋了东北部;新泽西16英寸的降雪','中央情报局局长访问以色列叙利亚会谈','人在巴基斯坦基地的炸弹袭击中丧生',
]queries = ['我的花呗开通了?','乌克兰被俄罗斯警告'
]
m = TfidfSimilarity()
print(text1, text2, ' sim score: ', m.similarity(text1, text2))m.add_corpus(corpus)
res = m.most_similar(queries, topn=3)
print('sim search: ', res)
for q_id, c in res.items():print('query:', queries[q_id])print("search top 3:")for corpus_id, s in c.items():print(f'\t{m.corpus[corpus_id]}: {s:.4f}')

output:

如何更换花呗绑定银行卡 花呗更改绑定银行卡  sim score:  0.8203384355246909sim search:  {0: {2: 0.9999999403953552, 1: 0.43930041790008545, 0: 0.0}, 1: {0: 0.7380483150482178, 1: 0.0, 2: 0.0}}
query: 我的花呗开通了?
search top 3:我什么时候开通了花呗: 1.0000花呗更改绑定银行卡: 0.4393俄罗斯警告乌克兰反对欧盟协议: 0.0000
...

7.5. 图像相似度计算和匹配搜索

支持CLIP、pHash、SIFT等算法的图像相似度计算和匹配搜索。

example: examples/image_semantic_search_demo.py

import sys
import glob
from PIL import Imagesys.path.append('..')
from similarities import ImageHashSimilarity, SiftSimilarity, ClipSimilaritydef sim_and_search(m):print(m)# similaritysim_scores = m.similarity(imgs1, imgs2)print('sim scores: ', sim_scores)for (idx, i), j in zip(enumerate(image_fps1), image_fps2):s = sim_scores[idx] if isinstance(sim_scores, list) else sim_scores[idx][idx]print(f"{i} vs {j}, score: {s:.4f}")# searchm.add_corpus(corpus_imgs)queries = imgs1res = m.most_similar(queries, topn=3)print('sim search: ', res)for q_id, c in res.items():print('query:', image_fps1[q_id])print("search top 3:")for corpus_id, s in c.items():print(f'\t{m.corpus[corpus_id].filename}: {s:.4f}')print('-' * 50 + '\n')image_fps1 = ['data/image1.png', 'data/image3.png']
image_fps2 = ['data/image12-like-image1.png', 'data/image10.png']
imgs1 = [Image.open(i) for i in image_fps1]
imgs2 = [Image.open(i) for i in image_fps2]
corpus_fps = glob.glob('data/*.jpg') + glob.glob('data/*.png')
corpus_imgs = [Image.open(i) for i in corpus_fps]#2.image and image similarity score
sim_and_search(ClipSimilarity())  # the best result
sim_and_search(ImageHashSimilarity(hash_function='phash'))
sim_and_search(SiftSimilarity())

output:

Similarity: ClipSimilarity, matching_model: CLIPModel
sim scores:  tensor([[0.9580, 0.8654],[0.6558, 0.6145]])data/image1.png vs data/image12-like-image1.png, score: 0.9580
data/image3.png vs data/image10.png, score: 0.6145sim search:  {0: {6: 0.9999999403953552, 0: 0.9579654932022095, 4: 0.9326782822608948}, 1: {8: 0.9999997615814209, 4: 0.6729235649108887, 0: 0.6558331847190857}}query: data/image1.png
search top 3:data/image1.png: 1.0000data/image12-like-image1.png: 0.9580data/image8-like-image1.png: 0.9327

7.6. 图文互搜

CLIP 模型不仅支持以图搜图,还支持中英文图文互搜:

import sys
import glob
from PIL import Image
sys.path.append('..')
from similarities import ImageHashSimilarity, SiftSimilarity, ClipSimilaritym = ClipSimilarity()
print(m)
#similarity score between text and image
image_fps = ['data/image3.png',  # yellow flower image'data/image1.png']  # tiger image
texts = ['a yellow flower', '老虎']
imgs = [Image.open(i) for i in image_fps]
sim_scores = m.similarity(imgs, texts)print('sim scores: ', sim_scores)
for (idx, i), j in zip(enumerate(image_fps), texts):s = sim_scores[idx][idx]print(f"{i} vs {j}, score: {s:.4f}")

output:

sim scores:  tensor([[0.3220, 0.2409],[0.1677, 0.2959]])
data/image3.png vs a yellow flower, score: 0.3220
data/image1.png vs 老虎, score: 0.2112

参考链接:https://github.com/shibing624/similarities

如果github进入不了也可进入 https://download.csdn.net/download/sinat_39620217/88205346 免费下载相关资料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/32997.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA之Debug调试

资料来源于韩老师视频 (一)初探debug 1、打断点的话:直接在该行前面单击左键,出现小红点就是断点了。 想要取消断点的话,再单击小红点即可。 运行debug时,右键选择"Debug…"而不是选“Run…”…

【C++】开源:spdlog跨平台日志库配置使用

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍spdlog日志库配置使用。 无专精则不能成,无涉猎则不能通。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注一下,下…

​LeetCode解法汇总1572. 矩阵对角线元素的和

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 描述: 给你一个正…

配置vscode

配置vscode 设置相关 网址:https://code.visualstudio.com/ 搜索不要用百度用这个:cn.bing.com 1.安装中文包 Chinese (Simplified) (简体中文) 2.安装 open in browser 3.安装主题 Atom One Dark Theme 4. 安装图标样式 VSCode Great Icons 5.安装 L…

yum 安装本地包 rpm

有时直接yum install 有几个包死活下不下来 根据网址,手动下载,下载后上传至 centos 然后运行 sudo yum localinstall xxx.rpm 即可安装 参考 https://blog.csdn.net/weiguang1017/article/details/52293244

MachineLearningWu_16/P72-P77_Diagnostic

x.1 导数,计算图,大型网络 计算图就是根据链式法则求取偏导,大型网络就是多层网络堆叠而成。 x.2 Diagnostic 在我们对深度学习有了一些认知后,最重要的就是模型的诊断,以带有L1正则化的线性回归为例,我…

SQL | 排序检索的数据

3-排序检索的数据 使用order by语句排序检索到的数据。 3.1-排序数据 使用SQL语句返回一个数据表的列。 select prod_id from products; --------------------- | prod_name | --------------------- | 8 inch teddy bear | | 12 inch teddy bear | | 18 inch teddy bear |…

泊松损坏图像的快速尺度间小波去噪研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

C#调用百度翻译API自动将中文转化为英文,按行转换

我们可以使用百度翻译API获取到翻译结果 翻译API地址: http://api.fanyi.baidu.com/api/trans/vip/translate 一、新建窗体应用程序TranslatorDemo,将默认的Form1重命名为FormTranslator。 窗体FormTranslator设计器如图: 窗体设计器源代码…

Qt通过QSS设置QPushButton的样式

同时设置QPushButton的文字样式和图标的方法 为了美化界面,有时候需要修改QPushButton的样式,让一个QPushButton上面既要显示图标,又要显示文字内容 起初我的做法是重写QPushButton,这样做可以实现,但是有几个问题 实现…

[JAVAee]多线程环境下:HashTable, HashMap, ConcurrentHashMap之间的区别

HashMap在多线程环境下是不安全的,只能在单线程下使用. 多线程下安全的只有: HashTableConcurrentHashMap HashTable HashTable在多线程环境下安全的原因是,给其的get与put方法都使用synchronized修饰了,被锁的对象是整个HashTable,只要有线程对此HashTable操作就上锁,其他…

Von Maur, Inc EDI 需求分析

Von Maur, Inc 是一家历史悠久的卖场,成立于19世纪,总部位于美国。作为一家知名的零售商,Von Maur 主要经营高端时装、家居用品和美妆产品。其使命是为顾客提供优质的产品和无与伦比的购物体验。多年来,Von Maur 凭借其卓越的服务…

【STM32RT-Thread零基础入门】 3. PIN设备(GPIO)的使用

硬件:STM32F103ZET6、ST-LINK、usb转串口工具、4个LED灯、1个蜂鸣器、4个1k电阻、2个按键、面包板、杜邦线 文章目录 前言一、PIN设备介绍1. 引脚编号获取2. 设置引脚的输入/输出模式3. 设置引脚的电平值4. 读取引脚的电平值5. 绑定引脚中断回调函数6. 脱离引脚中断…

大语言模型之二 GPT发展史简介

得益于数据、模型结构以及并行算力的发展,大语言模型应用现今呈井喷式发展态势,大语言神经网络模型成为了不可忽视的一项技术。 GPT在自然语言处理NLP任务上取得了突破性的进展,扩散模型已经拥有了成为下一代图像生成模型的代表的潜力&#x…

【Unity细节】Unity打包后UI面板消失是怎么回事

👨‍💻个人主页:元宇宙-秩沅 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 本文由 秩沅 原创 收录于专栏:unity细节和bug ⭐关于物体的动画碰到其他碰撞器后停止播放的问题⭐ 文章目录 ⭐关于物体的动画碰…

整数中1出现的次数(从1到n整数中1出现的次数)

解题思路1: 设定整数点(如1、10、100等等)作为位置点i(对应n的各位、十位、百位等等),分别对每个数位上有多少包含1的点进行分析。 第一步:对n进行分割,分为两部分:高位…

[git] git基础知识

git是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目 git易于学习,性能极快 什么是版本控制? 版本控制是一种记录文件内容变化,以便将来查阅特定版本修订情况,可以记录文件修改历史…

c语言——统计分类

我们将一个班的成绩进行分类&#xff0c; 成绩60分以下的为c、成绩61-89分的为b&#xff0c;90分以上的为A //统计分类 /*我们将一个班的成绩进行分类&#xff0c; 成绩60分以下的为c、成绩61-89分的为b&#xff0c;90分以上的为A */ #include<stdio.h> int main() …

云计算-知识点大纲

前言&#xff1a;云计算的基本概念学习&#xff0c;基础知识大纲梳理。 目录 云计算的概念 云计算的特征 部署模式 服务模式 云计算的发展 云计算的核心技术 虚拟化技术 常见的虚拟化技术 服务器虚拟化 裸金属型技术 服务器虚拟化技术的特点 存储虚拟化 CPU 内存…

C语言每日一题:16:数对。

思路一&#xff1a;基本思路 1.x,y均不大于n&#xff0c;就是小于等于n。 2.x%y大于等于k。 3.一般的思路使用双for循环去遍历每一对数。 代码实现&#xff1a; #include <stdio.h> int main() {int n 0;int k 0;//输入scanf("%d%d", &n, &k);int x…