将\t\n
、\n
、多个\n\n\n...
转换为\n\n
。
import pandas as pd
import re
# 创建一个示例DataFrame
data = {'msgText': ['这是示例文本1,包含\t\n换行符','这是示例文本2,包含\n\n多个\n换行符','这是示例文本3,没有换行符']}
df = pd.DataFrame(data)
# 定义一个函数来进行转换
def transform_text(text):# 使用正则表达式将\t\n转换为\n\n,\n转换为\n\ntransformed_text = re.sub(r'\t\n', r'\n\n', text)# 使用正则表达式查找单个换行符,并在其后添加一个额外的换行符cleaned_text = re.sub(r'(\n+)', r'\n\n', transformed_text)return cleaned_text
# 在'msgText'列上应用函数来进行转换
df['msgText'] = df['msgText'].apply(transform_text)
# 打印处理后的DataFrame
print(df)