Python字符串模糊匹配库FuzzyWuzzy
在计算机科学中,字符串模糊匹配(fuzzy string matching)是一种近似地(而不是精确地)查找与模式匹配的字符串的技术。换句话说,字符串模糊匹配是一种搜索,即使用户拼错单词或只输入部分单词进行搜索,也能够找到匹配项。因此,它也被称为字符串近似匹配。
字符串模糊搜索可用于各种应用程序,例如:
- 拼写检查和拼写错误纠正程序。例如,用户在Google中键入“Missisaga”,将返回文字为“Showing results for mississauga”的点击列表。也就是说,即使用户输入缺少字符、有多余的字符或者有其他类型的拼写错误,搜索查询也会返回结果。
- 重复记录检查。例如,由于名称拼写不同(例如Abigail Martin和Abigail Martinez)在数据库中被多次列出。
这篇文章将解释字符串模糊匹配及其用例,并使用Python中Fuzzywuzzy库给出示例。
使用FuzzyWuzzy合并酒店房型
每个酒店都有自己的命名方法来命名它的房间,在线旅行社(OTA)也是如此。例如,同一家酒店的一间客房Expedia将之称为“Studio, 1 King Bed with Sofa Bed, Corner”,Booking.com(缤客)则简单地将其显示为“Corner King Studio”。不能说有谁错了,但是当我们想要比较OTA之间的房价时,或者一个OTA希望确保另一个OTA遵循费率平价协议时(rate parity agreement),这可能会导致混乱。换句话说,为了能够比较价格,我们必须确保我们进行比较的东西是同一类型的。对于价格比较网站和应用程序来说,最令人头条的问题之一就是试图弄清楚两个项目(比如酒店房间)是否是同一事物。
Fuzzywuzzy是一个Python库,使用编辑距离(Levenshtein Distance)来计算序列之间的差异。为了演示,我创建了自己的数据集,也就是说,对于同一酒店物业,我从Expedia拿一个房间类型,比如说“Suite, 1 King Bed (Parlor)”,然后我将它与Booking.com中的同类型房间匹配,即“King Parlor Suite”。只要有一点经验,大多数人都会知道他们是一样的。按照这种方法,我创建了一个包含100多对房间类型的小数据集,可以访问Github下载。
我们使用这个数据集测试Fuzzywuzzy的做法。换句话说,我们使用Fuzzywuzzy来匹配两个数据源之间的记录。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478894.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!相关文章
论文浅尝 - ACL2020 | 用于关系三元组抽取的级联二进制标记框架
美团客户端响应式框架 EasyReact 开源啦
LeetCode 897. 递增顺序查找树(中序遍历)
谈谈怎样提高炼丹手速
论文浅尝 | 神经协同推理
在服务器上安装anaconda遇到的问题总结
LeetCode 693. 交替位二进制数(位运算)
全栈深度学习第6期: 模型测试和部署
开源开放 | 欧若科技通过 OpenKG 开放 Nebula Graph 图数据库
pkuseg-python的postag.zip在不能联网的服务器上的解决办法
数据库的方向 - 行vs列(转自: IBM i 中国开发团队)
Android自动化页面测速在美团的实践
NLP领域的首次Hard Label黑盒攻击!
论文浅尝 - ACL2020 | 利用知识库嵌入改进多跳 KGQA
MCI:移动持续集成在大众点评的实践
LeetCode 260. 只出现一次的数字 III(位运算)
没有什么多模态任务是一层Transformer解决不了的!
论文浅尝 - KDD2020 | 真实世界超图的结构模式和生成模型
LeetCode 1122. 数组的相对排序
- 当前热门文生图大模型介绍与优缺点分析
- C语言:链表排序与插入的实现
- Immutable设计 SimpleDateFormat DateTimeFormatter
- 基于UKF-IMM无迹卡尔曼滤波与交互式多模型的轨迹跟踪算法matlab仿真,对比EKF-IMM和UKF
- OpenAI发布最新推理模型o3-mini
- 【思维导图】mysql-索引
- AliOS Things声源定位应用演示
- Codeigniter 4.0-dev 版源码学习笔记之四——详细路由过程
- eclipse定制化配置调优、初始化配置指南、可以解决启动慢等问题
- ES6部分特性小结
- LinkedList中查询(contains)和删除(remove)源码分析
- React单元测试:Jest + Enzyme(二)