Python去除中文文本中的特殊字符

最近需要去除文本中的特殊字符,例如下面从pdf读取的文本,需要进行解析:

山东师范大学硕士学位论文\n13第三章基于粗-细粒度双层注意力的视频-文本跨模态检索\n3.1粗-细粒度并行注意力网络结构\n图3-1展示了粗-细粒度并行注意力(CFGPA)模型的总体架构。该架构包含视频特征处\n理网络、文本特征处理网络和多层次相似度度量模块。在视频特征处理网络中,不同的视\n频特征提取器提取视频中所包含的不同模态特征,然后,将时序特征嵌入到不同模态的特\n征中,生成视频的初始特征()vI。视频的初始特征()vI输入到粗-细粒度并行注意模块,生\n成视频的中间特征\ud835(\ud835),再经过视频特征融合模块生成视频的最终特征\ud835(\ud835);在文本特征\n处理网络,使用预训练的BERT模型和门嵌入模块,生成文本特征\ud835(\ud835)。最后,\ud835(\ud835)和\ud835(\ud835)\n通过相似度度量模块来度量视频与文本特征的相似性。\n图3-1粗-细粒度并行注意力(CFGPA)模型的总体架构\n3.1.1视频特征处理网络\n采用粗-细粒度并行注意机制和特征融合模块对视频的初始特征进行处理。粗-细粒度\n并行注意模块包含两部分,一部分是基于模块内加权部分聚合网络的粗粒度注意力机制,\n另一部分是基于图注意网络的细粒度注意力机制。这两部分并行连接组成粗-细粒度并行注\n意网络。模型的输入的是视频的初始特征\ud835(\ud835),输出的是视频的中间特征\ud835(\ud835)。使用特征\n融合模块来融合视频中间特征\ud835(\ud835),最终,产生视频中的不同模态特征\ud835(\ud835)。\n视频特征提取器和时序信息嵌入:视频中包含不同模态的特征,使用预训练的视频特\n征提取器从原始视频中提取视频的不同模态初始特征\ud835\ud835(\ud835)=[\ud8351\ud835,\ud8352\ud835,...,\ud835\ud835−1\ud835,\ud835\ud835\ud835]

解决方法

使用正则匹配的方法,其他的方法都不够work:

import re  
text = "生成视频的中间特征\ud835"  
cleaned_text = re.sub(r'[^\w\s]', '', text)  
print(cleaned_text)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/144881.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue 组件的全局注册与组件的jsx实现方法

大部分情况下我们都会使用template来创建html,开发体验会更好,但并不是每个时候使用它来创建 html 都是最佳的,所以官方提供了接近原生构建html的render()函数,让开发者能够依据自己的情况选择更好的构建方式。 有些同学会问&…

tcpdump wireshark简单使用

tcpdump工作原理 tcpdump 是 Linux 系统中非常有用的网络工具,运行在用户态,本质上是通过调用 libpcap 库的各种 api 来实现数据包的抓取功能,利用内核中的 AF_PACKET 套接字,抓取网络接口中传输的网络包。查 看 tcpdump 的 手册…

JVM实战-JVM之类加载时机

目录 JVM实战-JVM之类加载时机1 主动引用2 被动引用 JVM实战-JVM之类加载时机 Java虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型,这个过程被称作虚拟机的类加载机…

JS 读取excel文件内容 和 将json数据导出excel文件

一、实现将json数据导出为excel文件 1、通过原生js实现 核心方法: function JSONToExcelConvertor(JSONData, FileName, title, filter) {if (!JSONData)return;//转化json为objectvar arrData typeof JSONData ! object ? JSON.parse(JSONData) : JSONData;va…

STM32 LL库 TIM3定时器多通道捕获输入采集

为什么不用HAL库,使用HAL库捕获输入一个通道还尚可,多通道捕获由于HAL的回调函数不符合我的要求,干脆直接切换到LL库。网上找了许多,代码处理写的不符合我的要求,这里记录一下我的调试过程。 TIM2输出1路PWM信号&#…

Beautiful Soup爬取数据html xml

简介 Beautiful Soup是一个Python库,用于从HTML或XML文件中提取数据。 它提供了一种简单而灵活的方式来解析和遍历HTML或XML文档,并提供了一些有用的方法来提取所需的数据。 安装 pip install beautifulsoup4使用 导入库:在Python脚本的开…

数据同步到Redis消息队列,并实现消息发布/订阅

一、假设需求: 某系统在MySQL某表中操作了一条数据在其他系统中,实时获取最新被操作数据的数据库名、数据表名、操作类型、数据内容 应用场景: 按最近项目的一个需求来说: 1.当某子系统向报警表中新增了一条报警数据;…

4.4.2.1 内部类

内部类 成员内部类 定义 调用内部类 访问修饰符的影响 外部类的成员变量及成员方法在内部类的使用 内部类在外部类的使用 静态内部类 静态内部类调用非静态外部类 1

Java使用Redis的几种客户端介绍

Redis是一种高性能的内存数据库,可以提供快速的数据读写操作。在Java中使用Redis,需要使用Redis客户端。目前,Java中常用的Redis客户端有以下几种: Jedis Jedis是Java中最流行的Redis客户端之一,它提供了丰富的API和…

英飞凌Tc275使用记录:Can邮箱号确认与Busoff寄存器设置方法

目录 1、消息后处理 2、消息暂存 3、Tc275 Busoff的寄存器手动处理 1、消息后处理 消息对象成功接收或发送帧后,可以通知CPU对消息对象执行后处理。MultiCAN模块的后处理由两个部分组成: 消息中断触发后处理。消息挂起寄存器将挂起的消息中断收集到一个公共结构中…

centos 6.10 安装 boost 1.78.0

下载地址 找到对应的版本,下载源码,而不是二进制文件。 解压文件 cd boost_1_78_0 ./bootstrap.sh ./b2 install -perfix /usr/local/boost1.78.0/

【LeetCode】2656. K个元素的最大和

2656. K个元素的最大和 难度:简单 题目 给你一个下标从 0 开始的整数数组 nums 和一个整数 k 。你需要执行以下操作 恰好 k 次,最大化你的得分: 从 nums 中选择一个元素 m 。将选中的元素 m 从数组中删除。将新元素 m 1 添加到数组中。你…

C#创建并调用dll

文章目录 1.VS2019创建C#主程序2.编译主程序3.添加类库工程,并添加计算逻辑4.给主程序添加引用项5.重新编译主程序6.主程序添加测试逻辑 1.VS2019创建C#主程序 2.编译主程序 debug目录下生成exe: 3.添加类库工程,并添加计算逻辑 添加计算逻…

每日一题(LeetCode)----数组--长度最小的子数组

每日一题(LeetCode)----数组–长度最小的子数组 1.题目( 209.长度最小的子数组) 给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于 target 的长度最小的 连续子数组 [numsl, numsl1, ..., numsr-1, numsr] &…

国内领先的五大API接口供应商

API(Application Programming Interface)接口,现在很多应用系统中常用的开放接口,对接相应的系统、软件功能,简化专业化的程序开发。作者用过的国内比较稳定的API接口供应商有如下几家,大家可以参考选择&am…

矢量绘图软件 Sketch mac中文版介绍

Sketch mac是一款为用户提供设计和创建数字界面的矢量编辑工具。它主要用于UI/UX设计师、产品经理和开发人员,帮助他们快速设计和原型各种应用程序和网站。 Sketch具有简洁直观的界面,以及丰富的功能集,使得用户可以轻松地创建、编辑和共享精…

历年国自然标书申请 面上项目614份 2001-2019年 面上标书

这里列举几例 清华任丰原 哈尔滨 杨宝峰 # 关注微信:生信小博士,10元领取 关注微信之后, 点开付费合集即可领取

RabbitMQ-基础篇-黑马程序员

代码: 链接: https://pan.baidu.com/s/1nQBIgB_SbzoKu_XMWZ3JoA?pwdaeoe 提取码:aeoe 微服务一旦拆分,必然涉及到服务之间的相互调用,目前我们服务之间调用采用的都是基于OpenFeign的调用。这种调用中,调…

hash路由模式

hash模式 hash模式是一种把前端路由的路径用井号 # 拼接在浏览器 URL 后面的模式。 一个完整的 URL 包括:协议、域名、端口、虚拟目录、文件名、参数、锚。 https://www.wangyuegyq.top/utils/index.html?name123&phone123#home协议:https域名&am…

Windows 11 配置 ssh server 服务

Windows 11 配置 ssh server 服务 1. 安装 ssh server配置 ssh key 登陆设置默认使用 Powershell设置默认访问路径启动 sshd 和设置开机自动启动安装 vim (Powershell 中可以直接使用) 1. 安装 ssh server 打开 “设置” 》 “应用”,然后打开 “可选配置”&#x…