用beautifulsoup并不能将全部的去除得到剩余的txt,特别在兴趣段找关键字的时候。
使用re模块可以实现这个功能。
for a in a_d:em_name = str(a.find('em'))pattern = re.compile(r'<[^>]+>', re.S)result = pattern.sub('', em_name)result = result.strip('\n')name_value.append(result)
假设a_d是find_all得到的兴趣模块
循环进入后先使用find找到模块内层兴趣模块,比如<em>
使用pattern来查找其中带有<>的修饰词
用sub剔除这些修饰词得到result
剔除其中的回车符号,可选
最后将这些关键字append到list
该语法的关键是re模块匹配的正则表达式。