php获取html中文本框内容_小猿圈Python入门之批量获取html内body内容的方法

对于人工智能你了解有多少?你知道Python的使用吗?这个对于大部分初学者来说都是很难的,小猿圈Python讲师会每天为大家选择分享一个知识点,希望对你学习Python有所帮助,今天分享的就是批量获取html内body内容的方法。

现在有一批完整的关于介绍城市美食、景点等的html页面,需要将里面body的内容提取出来。

方法:利用python插件beautifulSoup获取htmlbody标签的内容,并批量处理。

# -*- coding:utf8 -*-

from bs4 import BeautifulSoup

import os

import os.path

import sys

reload(sys)

sys.setdefaultencoding('utf8')

def printPath(level,path):

global allFileNum

#所有文件夹,第一个字段是此目录的级别

dirList = []

#所有文件

fileList = []

#返回一个列表,其中包含在目录条目的名称

files = os.listdir(path)

#先添加目录级别

dirList.append(str(level))

for f in files:

if(os.path.isdir(path+'/'+f)):

#排除隐藏文件夹,因为隐藏文件夹过多

if(f[0] == '.'):

pass

else:

#添加隐藏文件夹

dirList.append(f)

if(os.path.isfile(path+'/'+f)):

#添加文件

fileList.append(f)

return (dirList,fileList)

#将文件html文件抓取并写入指定txt文件

def getAndInsert(rootdir,savepath,path):

global file_num

f_list = os.listdir(rootdir+'/'+path)

for i in f_list:

temp = os.path.splitext(i)[0]

for num in range(1,11):

if(i==str(num)+'.html'):

#print rootdir+'/'+path+'/'+i

objFile = open(rootdir+'/'+path+'/'+i)

soup = BeautifulSoup(objFile)

arr = []

for child in soup.body:

arr.append(child)

if os.path.exists(savepath+'/'+path):

pass

else:

os.makedirs(savepath+'/'+path)

f = open(savepath+'/'+path+'/'+temp+'.txt','w')

for k,v in enumerate(arr):

if k!=1:

f.write(str(v))

f.close()

print path+'/'+i+' is running'

file_num = file_num + 1

rootdir = '../zips2'

dirList,fileList = printPath(1,rootdir)

savepath = "../testC"

file_num = 0

for fn in dirList:

if(fn == '1'):

pass

else:

getAndInsert(rootdir,savepath,fn)

print fn+' is ending'

print '一共完成'+str(file_num)+'个城市的提取'

最后想要了解更多关于Python和人工智能方面内容的小伙伴,请关注小猿圈官网,IT职业在线学习教育平台为您提供Python开发环境搭建视频等等,希望在你自学python中帮助你指导方向,少走弯路。

479d0eb5ea8c909d84583fbb2f1a6eab.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/504789.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php改名下载,PHP如何给上传的文件改名

PHP如何给上传的文件改名发布时间:2020-08-03 16:07:39来源:亿速云阅读:72作者:LeahPHP如何给上传的文件改名?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这…

python 循环 覆盖之前print内容_Python爬虫第二战---爬取500px图片

前言:如今的高速网络极大促进了信息的展示方式,高清图片,视频等成就了我们的视听盛宴。但是,我们获取到的图片或者视频可能是被压缩过的,所以总体上还是有点小瑕疵,今天呢,我给大家带来一篇使用…

php字符串分割tp模板,ThinkPHP 模板substr的截取字符串函数详解

ThinkPHP 模板substr的截取字符串函数在Common/function.php加上以下代码/**** 截取中文字符串**/function msubstr($str, $start0, $length, $charset"utf-8", $suffixtrue){if(function_exists("mb_substr")){$slice mb_substr($str, $start, $length, $…

macyy_macyy进频道失败怎么办

大家好,我是时间财富网智能客服时间君,上述问题将由我为大家进行解答。macyy进频道失败的解决方法:1、进入不了频道请先留意自己当地的网络状况是否良好,电脑上尽量不要开启占用网络资源的软件,如:下载工具…

tomcat.exe java home,tomcat.exe启动和startup.bat启动的不同

一、tomcat7.exe与startup.bat的区别:1、这两个都可以启动tomcat,但tomcat7.exe必须安装了服务才能启动,而startup.bat不需要2、另外一个区别是它们启动所使用的JAVA环境配置是分开的tomcat7.exe启动所使用JAVA配置与服务启动所使用的JAVA配置…

acc定义代码 神经网络_神经网络的这几个坑,你都躲过了吗

因为AI这两年的火爆,大家拿着锤子到处找钉子,锤子当然也砸到了我头上,有很多做业务的同事尝试通过AI的方法解决需要一些很复杂的业务逻辑算法,同时需要很多参数组合才能搞定的问题。但因为都是非科班出身也没有系统学习&#xff0…

java事件绑定,Java编程GUI中的事件绑定代码示例

程序绑定的概念:绑定指的是一个方法的调用与方法所在的类(方法主体)关联起来。对java来说,绑定分为静态绑定和动态绑定;或者叫做前期绑定和后期绑定静态绑定:在程序执行前方法已经被绑定,此时由编译器或其它连接程序实…

python抽荣耀水晶_教你2种免费拿荣耀水晶的方法,获奖概率让人惊喜,一般人我不告诉他...

在王者荣耀中荣耀水晶一直是许多玩家想要得到的,那一般来说想要获取一个荣耀水晶需要花费大约2000RMB的样子,但是可喜的是王者荣耀这个游戏就是这么的亲民,会时不时的上线一些免费赠送的活动,那今天就告诉大家最近2种获取荣耀水晶…

matlab中右三角形方向,《有限元基础教程》_【MATLAB算例】4.7.1(2) 基于3节点三角形单元的矩形薄板分析(Triangle2D3Node)...

【MATLAB 算例】4.7.1(2) 基于3节点三角形单元的矩形薄板分析(T riangle2D3Node)如图4-20所示为一矩形薄平板,在右端部受集中力100 000F N 作用,材料常数为:弹性模量7110E Pa ?,泊松比13μ,板的厚度0.1t m 。基于MA T…

uv转化率多少正常_浏览量(PV)和访客数(UV)和跳出率是什么意思?

1.什么是访客数(UV访客数就是指一天之内到底有多少不同的用户访问了网站。访客数要比IP数更能真实准确地反映用户数量。百度统计完全抛弃了IP这个指标,而启用了访客数这一指标,因为IP往往不能反映真实的用户数量。尤其对于一些流量较少的企业站来说&…

vscode中如何创新建php文件,vscode如何创建代码模板

选择菜单里的 文件 > 首选项 > 用户代码片段选择你需要自定义模板的文件,以vue为例配置对应文件json把代码片段写在json里。每个代码段都是在一个代码片段名称下定义的,并且有prefix、body和description。prefix是用来触发代码片段的。使用 $1&…

linux nginx postgresql php,常用Web环境架设手册PNP:Postgresql+Nginx+PHP

一 Postgresql1.1 installready:sudo apt-get updatesudo apt-get install libreadline6-devsudo apt-get install zlib1g zlib1g.devcd source./configuresudo make installsudo adduser postgressudo mkdir /usr/local/pgsql/datasudo chown postgres /usr/local/pgsql/data…

php 利用个人邮箱,利用 Composer 完善自己的 PHP 框架(二)——发送邮件

利用 Composer 完善自己的 PHP 框架(二)——发送邮件2014-10-18 / 阅读数:23506 / 分类: PHP回顾上一篇文章中,我们手工建造了一个简易的视图加载器,顺便引入了错误处理包,让我们的 MFFC 框架在 M、V、C 三个方面都达到…

mysql安装被打断_MySQL安装未响应解决方法

安装MySQL出示未响应,一般显示在安装MySQL程序最后一步的2,3项就不动了。这种情况一般是你以前安装过MySQL数据库服务项被占用了。解决方法:一种方法:你可以安装MySQL的时候在这一步时它默认的服务名是“MySQL” 只需要把这个名字…

启动马达接线实物图_东元伺服驱动马达

东元伺服驱动马达,我公司主营德国SEW,德国法勒VAHLE, 德国UNING,德国同驰Tschan,意大利威卡WESTCAR,德国久茂JUMO,瑞士ABB等几大世界品牌产品。东元伺服驱动马达, 工业机器人电动伺服系统的一般…

php fast cgi nginx,通过fast-cgi连接php-fpm和nginx之间的连接是持...

PHP-FPM是fastCGI协议的一种实现,因此它遵守所有fastCGI规范要求.The Web server controls the lifetime of transport connections. The Web server can close a connection when no requests are active. Or the Web server can delegate close authority to the application…

jsp工程防止外部注入_防止 jsp被sql注入的五种方法

一、SQL注入简介SQL注入是比较常见的网络攻击方式之一,它不是利用操作系统的BUG来实现攻击,而是针对程序员编程时的疏忽,通过SQL语句,实现无帐号登录,甚至篡改数据库。二、SQL注入攻击的总体思路1.寻找到SQL注入的位置…

wordpress是用php几开发的,php-WordPress多个开发人员设置

是否可以让一个以上的人通过测试站点来开发Wordpress应用程序,这是一个很好的选择.我遇到的最大障碍是在本地开发和集成到测试环境时的路径问题.是否有人拥有维护开发人员环境,保持工作内容和链接的良好流程,并且代码在源代码管理中维护?为了澄清起见,我想在本地开发…

python分布式对象存储_推荐:一款分布式的对象存储服务

最近公司在准备内部数据上云,并且内部数据库每天的数据量很大,需要采用大数据存储的方案。方案调研每个程序技术在实现之前,需要进行开源产品的调研,适合自己产品的技术方案才是最好的。需求我们需要处理是图像信息,大…

php如何检测键盘按键,js键盘事件,判断按下的是哪个键

在写页面的时候,尤其是桌面端的时候,我们有时候要知道用户按下了那个按键,对于这个问题我们可以使用js提供的keyCode属性来操作,如:document.onkeydown function (e) {alert(e.keyCode)}这时你在页面上随意按键盘的按…