php获取html中文本框内容_小猿圈Python入门之批量获取html内body内容的方法

对于人工智能你了解有多少？你知道Python的使用吗？这个对于大部分初学者来说都是很难的，小猿圈Python讲师会每天为大家选择分享一个知识点，希望对你学习Python有所帮助，今天分享的就是批量获取html内body内容的方法。

现在有一批完整的关于介绍城市美食、景点等的html页面，需要将里面body的内容提取出来。

方法：利用python插件beautifulSoup获取htmlbody标签的内容，并批量处理。

# -*- coding:utf8 -*-

from bs4 import BeautifulSoup

import os

import os.path

import sys

reload(sys)

sys.setdefaultencoding('utf8')

def printPath(level,path):

global allFileNum

#所有文件夹，第一个字段是此目录的级别

dirList = []

#所有文件

fileList = []

#返回一个列表，其中包含在目录条目的名称

files = os.listdir(path)

#先添加目录级别

dirList.append(str(level))

for f in files:

if(os.path.isdir(path+'/'+f)):

#排除隐藏文件夹，因为隐藏文件夹过多

if(f[0] == '.'):

pass

else:

#添加隐藏文件夹

dirList.append(f)

if(os.path.isfile(path+'/'+f)):

#添加文件

fileList.append(f)

return (dirList,fileList)

#将文件html文件抓取并写入指定txt文件

def getAndInsert(rootdir,savepath,path):

global file_num

f_list = os.listdir(rootdir+'/'+path)

for i in f_list:

temp = os.path.splitext(i)[0]

for num in range(1,11):

if(i==str(num)+'.html'):

#print rootdir+'/'+path+'/'+i

objFile = open(rootdir+'/'+path+'/'+i)

soup = BeautifulSoup(objFile)

arr = []

for child in soup.body:

arr.append(child)

if os.path.exists(savepath+'/'+path):

pass

else:

os.makedirs(savepath+'/'+path)

f = open(savepath+'/'+path+'/'+temp+'.txt','w')

for k,v in enumerate(arr):

if k!=1:

f.write(str(v))

f.close()

print path+'/'+i+' is running'

file_num = file_num + 1

rootdir = '../zips2'

dirList,fileList = printPath(1,rootdir)

savepath = "../testC"

file_num = 0

for fn in dirList:

if(fn == '1'):

pass

else:

getAndInsert(rootdir,savepath,fn)

print fn+' is ending'

print '一共完成'+str(file_num)+'个城市的提取'

最后想要了解更多关于Python和人工智能方面内容的小伙伴，请关注小猿圈官网，IT职业在线学习教育平台为您提供Python开发环境搭建视频等等，希望在你自学python中帮助你指导方向，少走弯路。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/504789.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

php获取html中文本框内容_小猿圈Python入门之批量获取html内body内容的方法

相关文章

php改名下载,PHP如何给上传的文件改名

python 循环覆盖之前print内容_Python爬虫第二战---爬取500px图片

php字符串分割tp模板,ThinkPHP 模板substr的截取字符串函数详解

macyy_macyy进频道失败怎么办

tomcat.exe java home,tomcat.exe启动和startup.bat启动的不同

acc定义代码神经网络_神经网络的这几个坑，你都躲过了吗

java事件绑定,Java编程GUI中的事件绑定代码示例

python抽荣耀水晶_教你2种免费拿荣耀水晶的方法，获奖概率让人惊喜，一般人我不告诉他...

matlab中右三角形方向,《有限元基础教程》_【MATLAB算例】4.7.1(2) 基于3节点三角形单元的矩形薄板分析(Triangle2D3Node)...

uv转化率多少正常_浏览量(PV)和访客数(UV)和跳出率是什么意思?

vscode中如何创新建php文件,vscode如何创建代码模板

linux nginx postgresql php,常用Web环境架设手册PNP:Postgresql＋Nginx＋PHP

php 利用个人邮箱,利用 Composer 完善自己的 PHP 框架（二）——发送邮件

mysql安装被打断_MySQL安装未响应解决方法

启动马达接线实物图_东元伺服驱动马达

php fast cgi nginx,通过fast-cgi连接php-fpm和nginx之间的连接是持...

jsp工程防止外部注入_防止 jsp被sql注入的五种方法

wordpress是用php几开发的,php-WordPress多个开发人员设置

python分布式对象存储_推荐：一款分布式的对象存储服务

php如何检测键盘按键,js键盘事件，判断按下的是哪个键