小爬麦子学院教师

任务描述:将麦子学院指定网页下教师信息(姓名,职称,介绍信息)爬取下来并保存到数据库。

1.页面分析:

 

2.代码:

mydb.py:

#!/usr/bin/env/python
#coding:utf-8'''
操作数据库
'''
import MySQLdb as dbclass DBHelper():def __init__(self,tableName):self.tableName=tableNametry:self.conn=db.connect(host='localhost',port = 3306,user='root',passwd='root',db ='pythondb',charset='utf8')self.cursor=self.conn.cursor()except Exception as e:print(e)def createTable(self,pros,types):sql='create table '+self.tableName+'('for i in range(len(pros)):if i==0:sql+=pros[i]+' '+types[i]else:sql+=','+pros[i]+' '+types[i]sql+=')'self.cursor.execute(sql)def insert(self,sql):try:print(sql)self.cursor.execute(sql)print('insert successfully!')except Exception as e:print('insert failed!')self.conn.rollback()def delete(self,sql):try:print(sql)self.cursor.execute(sql)print('delete successfully!')except Exception as e:print('delete failed!')self.conn.rollback()def queryBySql(self,sql):return self.cursor.execute(sql)def queryAll(self):self.cursor.execute('select * from '+self.tableName)# 获取所有记录列表results = self.cursor.fetchall()return resultsdef close(self):self.cursor.close()self.conn.commit()self.conn.close()if __name__=='__main__':print('test mydb DBHelper')helper=DBHelper('teacher')# pros=['name','title','production']# types=['varchar(20)','varchar(50)','varchar(200)']# dbhelper.createTable(pros,types)sql='insert into teacher values("李希","成都莫比乌斯科技创始人","精通Windows及Linux系统平台的运维、大型分布式架构网站的部署和管理,具有15年资深IT从业经验。")'helper.insert(sql)for x in helper.queryAll():print(x)helper.close()

mymodel.py:

#!/usr/bin/env/python
#coding:utf-8class Teacher():def __init__(self,name,title,production):self._name=nameself._title=titleself._production=productiondef get_name(self):return self._namedef set_name(self,value):self._name=valuedef get_title(self):return self._titledef set_title(self,value):self._title=valuedef get_production(self):return self._productiondef set_production(self,value):self._production=valuedef __str__(self):return 'name ='+self.name+',title ='+self.title+',production ='+self.productionname=property(get_name,set_name)title=property(get_title,set_title)production=property(get_production,set_production)if __name__=='__main__':print('test mymodel Teacher')p=Teacher('a','t','p')print(p)p.name='aa'p.title='tt'p.production='pp'print(p)

main.py:

#!/usr/bin/env/python
#coding:utf-8
import mydb,mymodel
import urllib
from urllib import request
import re
class SpiderMan:def __init__(self,url):self.url=urlself.dbhelper=mydb.DBHelper('teacher')def crawl(self):#patternpattern_div=r"<div class='sliderPlay' id='sliderPlay'>[\s\S]*div id='btnBox' class='btnBox'>"pattern_name=r'<p class="first">\s*(.+)\s*</p>'pattern_title=r'<p class="second">\s*(.+)\s*</p>'pattern_production=r'<p class="third">\s*(.+)\s*</p>'#requestheaders={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36",'Host':'www.maiziedu.com','Referer':'www.maiziedu.com'}req=request.Request(self.url,headers=headers)#responseresp=request.urlopen(req)html=resp.read().decode('utf-8')#analysishtml_div=re.search(pattern_div,html).group()name_list=re.findall(pattern_name,html_div)title_list=re.findall(pattern_title,html_div)production_list=re.findall(pattern_production,html_div)# print("name_list:")# print(name_list)# print("title_list:")# print(title_list)# print("production_list:")# print(production_list)#savefor i in range(len(name_list)):name=name_list[i]title=title_list[i]production=production_list[i]sql='insert into '+self.dbhelper.tableName+' values('sql+='"'+name+'"'+','+'"'+title+'"'+','+'"'+production+'"'sql+=')'self.dbhelper.insert(sql)#closeself.dbhelper.close()if __name__=='__main__':url='http://www.maiziedu.com/line/python/'spider=SpiderMan(url)spider.crawl()

3.运行结果:

 

转载于:https://www.cnblogs.com/jasonhaven/p/7420023.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/369559.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MongoDB:使用Spring数据添加计数器

在我的博客应用程序中&#xff0c;您可以查看任何用户的个人资料&#xff0c;例如&#xff0c;我的个人资料页面将为http://www.jiwhiz.com/profile/user1&#xff0c;“user1”是我在系统中的用户ID。 在MongoDB中&#xff0c;每个文档对象都会有一个唯一的标识符&#xff0c;…

vue2+node+mysql demo总结

1.App.vue中&#xff1a; 2.在main.js中的new vueRouter里设置mode:history或者hash &#xff1b;设置{path:/,redirect:home}默认进入的路径&#xff1b;设置linkActiveClass改变路由激活时的class名&#xff1b;也定义全局基本样式和全局过滤器等&#xff0c;例如&#xff1a…

常见文本样式及标签

本文设计到常见对文档的处理样式&#xff0c;和块&#xff0c;行标签的特点。 没用什么重要内容&#xff0c;只是自己的一些知识点的回忆&#xff0c;对以前知识的一个梳理过程&#xff0c;望某懒虫加油&#xff01;&#xff01;&#xff01; <!DOCTYPE html> <html l…

寻找内存泄漏:一个案例研究

一周前&#xff0c;我被要求修复一个有内存泄漏问题的webapp。 考虑到过去两年左右的时间里我已经看到并修复了数百个泄漏&#xff0c;我想这有多难。 但是事实证明这是一个挑战。 12小时后&#xff0c;我发现该应用程序中不少于5个漏洞&#xff0c;并设法修复了其中4个漏洞。…

matlab中求积函数,MATLAB软件及高斯勒让德求积公式MATLAB软件及高斯勒让德求积公式.doc...

MATLAB软件及高斯勒让德求积公式MATLAB软件及高斯勒让德求积公式数 值 分 析 课 程 实 验 报 告2012—2013学年度 第二学期系别&#xff1a;数学与计算机科学学院实验课程数值分析班 级10级数学与应用数学2班学 号05姓 名杜宁峰指导教师陈耀庚实验题目学习编写高斯-勒让德计算程…

[HNOI2015] 落忆枫音

题目描述 「恒逸&#xff0c;你相信灵魂的存在吗&#xff1f;」 郭恒逸和姚枫茜漫步在枫音乡的街道上。望着漫天飞舞的红枫&#xff0c;枫茜突然问出这样一个问题。 「相信吧。不然我们是什么&#xff0c;一团肉吗&#xff1f;要不是有灵魂......我们也不可能再见到你姐姐吧。」…

border,padding,margin盒模型理解

安静的敲着键盘&#xff0c;已势不可挡的姿势逼近php&#xff0c;我想我是一个幸福的人&#xff0c;未来不可期&#xff0c;做好现在&#xff0c;偶尔写着自己能看懂的API,慢慢悠悠的回味一下前端基础知识。 本文盒模型理解。 <!DOCTYPE html> <html lang"en&qu…

我的Java自定义线程池执行器

ThreadPoolExecutor是Java并发api添加的一项功能&#xff0c;可以有效地维护和重用线程&#xff0c;因此我们的程序不必担心创建和销毁线程&#xff0c;而将精力放在核心功能上。 我创建了一个自定义线程池执行程序&#xff0c;以更好地了解线程池执行程序的工作方式。 功能性…

php中mysqlstat函数,PHP函数mysql_stat介绍

&#xfeff;定义和用法mysql_stat() 函数返回 MySQL 服务器的当前系统状态。如果成功&#xff0c;则该函数返回状态。如果失败&#xff0c;则返回 false。语法mysql_stat(connection)提示和注释注释&#xff1a;mysql_stat() 目前只返回 uptime、threads、queries、open table…

全选、全部选、反选、提交

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Document</title> </head> <body><form><input type"checkbox" name"items" value"足球"&…

Java中的模板方法设计模式

模板方法模式是一种行为设计模式&#xff0c;它为算法提供了基础方法&#xff0c;称为模板方法&#xff0c;该方法将其某些步骤推迟到子类中&#xff0c;因此算法结构相同&#xff0c;但某些步骤可以由子类根据上下文重新定义。 模板是指预设格式&#xff0c;例如HTML模板&…

android adb源码分析(1)

ADB是Android debug bridge的缩写&#xff0c;它使用PC机可以通过USB或网络与android设备通讯。 adb的源码位于system/core/adb目录下&#xff0c;先来看下编译脚本Android.mk&#xff1a; [plain] view plaincopy# Copyright 2005 The Android Open Source Project # # Andr…

matlab二次二阶距,用Matlab改进一次二阶矩法程序.doc

用Matlab编的计算结构可靠指标的改进一次二阶矩法程序(验算点法)题目&#xff1a;编制改进一次二阶矩法计算可靠指标的程序&#xff0c;并给出算例&#xff0c;要求提供源程序选取的算例为&#xff1a;zg(x,y)x*y-1140&#xff0c;其中x,y服从正态分布&#xff0c;μx38,Vx0.1,…

winform中的数据绑定

1. 简单的数据绑定 例1 using (SqlConnection conn new SqlConnection(ConfigurationManager.ConnectionStrings["connStr"].ToString())) { SqlDataAdapter sda new SqlDataAdapter("Select * From T_Class Where F_TypeProduct order by F_RootID,F_Order…

jQuery数据表和Java集成

jQuery DataTables是一个开放源代码插件&#xff0c;用于在浏览器中创建表。 它具有许多功能&#xff0c;例如排序&#xff0c;服务器端处理&#xff0c; JQUERY UI主题滚动。 该插件的下载链接&#xff1a; http://www.datatables.net/download/ 在本演示中&#xff0c;我…

CSS 属性 - 伪类和伪元素的区别

伪元素和伪类之所以这么容易混淆&#xff0c;是因为他们的效果类似而且写法相仿&#xff0c;但实际上 css3 为了区分两者&#xff0c;已经明确规定了伪类用一个冒号来表示&#xff0c;而伪元素则用两个冒号来表示。 :Pseudo-classes ::Pseudo-elements 但因为兼容性的问题&…

class-感知机Perception

1 感知机模型1.1 模型定义2 感知机学习策略2.1 数据的线性可分性2.2 学习策略3 学习算法3.1 算法原始形式3.2 收敛性3 学习算法的对偶形式1 感知机模型 感知机perceptron是二类分类问题的线性分类模型&#xff0c;输入为实例的特征向量&#xff0c;输出为实例的类别&#xff08…

图片资源 php,php URL图片资源传参生成对应尺寸图片

最近项目中需要上传大图&#xff0c;然后不同设备请求不同大小的图片&#xff0c;之前有用过一个通过URL参数来获取不同大小的图片的接口感觉设计方式请不错&#xff0c;于是就百度看看类似是如何实现的&#xff0c;找了几天找个两个功能类似的记录下。1、图片服务器 imagemagi…

Java中的方法调用有多昂贵

我们都去过那儿。 在查看设计不良的代码的同时&#xff0c;听听作者对人们永远不应该牺牲性能而不是设计的解释。 而且&#xff0c;您不能说服作者摆脱其500行方法&#xff0c;因为链接方法调用会破坏性能。 好吧&#xff0c;这可能在1996年左右是正确的。 但是自那时以来&…

UVa-116 Unidirectional TSP 单向旅行商

题目 https://vjudge.net/problem/uva-116 分析 设d[i][j]为从(i,j)到最后一列的最小开销&#xff0c;则d[i][j]a[i][j]max(d[i1][j1],d[i-1][j1]) 参考数字三角形,用逆推的方法,先确定最后一列d[i][n-1]a[i][n-1],再确定n-2列,此时d[i][n-2] a[i][n-2]min(d[i][n-1],d[i-1][n…