python实现抓取网页上的内容并发送到邮箱

要达到的目的:
从特定网页中抓取信息,排版后发送到邮箱中

 

关键点:
下载网页,从网页里抓取出需要的信息
HTML排版
发送到指定邮箱

 

实现:
1.python下载网页
直接用库函数就可以实现
from urllib import urlretrieve
from urllib import urlopen
doc = urlopen("http://roll.tech.sina.com.cn/tele/2012-05-01.shtml").read()
以获取新浪网5.1电信滚动新闻为例
doc就是整个网页的内容

 

2.用正则表达式提取新闻标题和url

def extract_url(info):    #reg get url&titlerege = "<li><a href=\"(.*)\" target=_blank>"url = re.findall(rege,info)return urldef extract_title(info):    pat = "\" target=_blank>(.*)</a><span class="title = re.findall(pat,info)return title

就可以得到新闻的URL和标题,以列表形式返回

 

 

3.排版
整理获得的信息,把信息排版成适合网页浏览的形式
我是把这些信息放到一个表格里

mail_context = ""
mail_context += "<table width=\"700\" border=\"1\" align=\"left\" face=\"宋体\">"
for i in range(0,n):mail_context += "<tr><td><font size=\"2\">"mail_context += "<span class="line1"><a href=\""mail_context += url[i]mail_context += "\" target=_blank>"mail_context += title[i]mail_context += "</a></span>"mail_context += "</font></td>"
mail_context += "</table>"

 

 

4.获取excel中的邮件列表

def get_email_list():path = os.getcwd()wb = open_workbook(path+"\\email_list.xls")sheet=wb.sheet_by_name("email")first_column = sheet.col_values(0) return first_column

 

 

5.发送邮件
用自带的模块来发送,先登录到一个邮箱的服务器上,然后通过该邮箱向目的邮箱发送邮件

import smtplib
from email.mime.text import MIMEText
from email.MIMEMultipart import MIMEMultipart
from email.Header import Headerdef sendsimplemail (text,dest):msg = MIMEText(text,'html','gb2312')#html formatmsg['Subject'] = Header('title', 'gb2312')msg['From'] = 'sourcedest'msg['To'] = str(dest)try:#login mail serversmtp = smtplib.SMTP()smtp.connect(r'smtp.*******')#mail serversmtp.login('username', 'password')#send mailsmtp.sendmail('sender', dest, msg.as_string())smtp.close()except Exception, e:print e

 

 

6.设置为开机自启动
以下是转的http://apps.hi.baidu.com/share/detail/22013974
下载python的win32支持。我使用的是:pywin32-202.win32-py2.3.exe安装好后就可以来写我们的服务了。
我们先来建立一个空的服务,建立test1.py这个文件,并写入如下代码:

# -*- coding: cp936 -*- 
import win32serviceutil 
import win32service 
import win32event class test1(win32serviceutil.ServiceFramework): _svc_name_ = "test_python" _svc_display_name_ = "test_python" def __init__(self, args): win32serviceutil.ServiceFramework.__init__(self, args) #把需要的操作都放在这里
self.hWaitStop = win32event.CreateEvent(None, 0, 0, None) def SvcStop(self): # 先告诉SCM停止这个过程 
         self.ReportServiceStatus(win32service.SERVICE_STOP_PENDING) # 设置事件 
         win32event.SetEvent(self.hWaitStop) def SvcDoRun(self): # 等待服务被停止 
         win32event.WaitForSingleObject(self.hWaitStop, win32event.INFINITE) if __name__=='__main__': win32serviceutil.HandleCommandLine(test1)

 

 

这里注意,如果你需要更改文件名,比如将win32serviceutil.HandleCommandLine(test1)中的test1更改为你的文件名,同时class也需要和你的文件名一致,否则会出现服务不能启动的问题。
在命令窗口执行,test1.py可以看到帮助提示

C:\>test1.py
Usage: 'test1.py [options] install|update|remove|start [...]|stop|restart [...]|
debug [...]'
Options for 'install' and 'update' commands only:
--username domain\username : The Username the service is to run under
--password password : The password for the username
--startup [manual|auto|disabled] : How the service starts, default = manual
--interactive : Allow the service to interact with the desktop. (for my auto_desktop.py, this option is needed)

C:\>

安装我们的服务

[code:1:05b7353f1c]C:\>test1.py install
Installing service test_python to Python class C:\test1.test1
Service installed

C:\>

我们就可以用命令或者在控制面板-》管理工具-》服务中管理我们的服务了。在服务里面可以看到test_python这个服务。

这样每次开机之后都可以收到一封邮件了

 

转载于:https://www.cnblogs.com/w0w0/archive/2012/05/02/2478639.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/409875.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Thinkphp 配置不用输入index.php

版权声明&#xff1a;本文为博主原创文章&#xff0c;遵循 CC 4.0 BY-SA 版权协议&#xff0c;转载请附上原文出处链接和本声明。 本文链接&#xff1a;https://blog.csdn.net/u011186019/article/details/78495461由&#xff1a;http://127.0.0.1/thinkphp/index.php/index/in…

ue4导入倾斜摄影_倾斜摄影建模干货|还怕搞不定CC空三?这里只要5分钟……

关注公众号"三维前沿"&#xff0c;持续获取更多操作技巧干货&#xff01;01Q&#xff1a;空三刚开始就失败&#xff1f;A&#xff1a;考虑以下4种情况&#xff1a;考虑ContextCapture Engine 是否打开&#xff0c;尝试关闭后重新打开&#xff1b;考虑相片数量是否过多…

[html] 如何禁止移动端的左右划动手势?

[html] 如何禁止移动端的左右划动手势&#xff1f; html{touch-action:none;touch-action:pan-y;}个人简介 我是歌谣&#xff0c;欢迎和大家一起交流前后端知识。放弃很容易&#xff0c; 但坚持一定很酷。欢迎大家一起讨论 主目录 与歌谣一起通关前端面试题

python自增_python mysql自增字段AUTO_INCREMENT值的修改方式

在之前得文章中我们说过&#xff0c;如果使用delete对数据库中得表进行删除&#xff0c;那么只是把记录删除掉&#xff0c;并且id的值还会保持上次的状态。 即删除之前如果有四条数据&#xff0c;删除之后&#xff0c;再添加新的数据&#xff0c;id怎会从5开始。 但是我们显示想…

Python工具

1. sourcetree https://www.cnblogs.com/hoobey/p/7100593.html 2.pycharm 3. anaconda 转载于:https://www.cnblogs.com/ericazy/p/11498959.html

graphpad两组t检验_GraphPad prism -- t检验操作步骤解析~

ZSCIt检验&#xff0c;主要用于样本含量较小(例如 n<30)&#xff0c;总体标准差 σ 未知的正态分布资料&#xff0c;其中又将其分为了配对t检验和成组t检验&#xff0c;那如何利用GraphPad prism进行t检验呢&#xff1f;一、原理及意义配对t检验&#xff1a;又称配对样本均数…

[html] 在两个iframe之间传递参数的方法有哪些?

[html] 在两个iframe之间传递参数的方法有哪些&#xff1f; 通过postMessage与父级通过&#xff0c;父级传递消息通过websocket通信如果是同一个域名下可用stroage&#xff0c;监听storageChange事件通信通过web worker也可通信个人简介 我是歌谣&#xff0c;欢迎和大家一起交…

Java官方操纵byte数组的方式

java官方提供了一种操作字节数组的方法——内存流&#xff08;字节数组流&#xff09;ByteArrayInputStream、ByteArrayOutputStream ByteArrayOutputStream——byte数组合并 /*** 将所有的字节数组全部写入内存中&#xff0c;之后将其转化为字节数组*/public static void main…

python js返回 json_[python爬虫]把js转化成json

有一个优秀的库可以使用————demjson目标链接请求上面链接&#xff0c;会得到如下图的一个js文件我们需要把这个js文件转成为dict&#xff0c;方便提取其中需要的字段(这在爬虫任务中非常常见)失败的方法传统方法通常转js文件为dict的过程&#xff1a;1.先通过切片掐头去尾&…

springboot security 权限不足_springBoot整合springSecurity(零一)

整体结构》》》1&#xff0c;springboot2.0整合springSecurity5.1.12&#xff0c;mysql--->>InnoDB3&#xff0c;持久层我用的是用MybatiysPlus(这里就不写关于这个的了,基本是查)4&#xff0c;web服务不是jar服务5&#xff0c;数据库表》账户表/角色表/权限表/账户角色关…

聊聊PowerJob的OmsLogHandler

序 本文主要研究一下PowerJob的OmsLogHandler OmsLogHandler tech/powerjob/worker/background/OmsLogHandler.java Slf4j public class OmsLogHandler {private final String workerAddress;private final Transporter transporter;private final ServerDiscoveryService …

[html] 为什么移动端页面的设计稿一般是750px/640px呢?

[html] 为什么移动端页面的设计稿一般是750px/640px呢&#xff1f; 750px 代表iphone6或inphone6s 设备的像素(宽) 640px 代表inpone3Gs&#xff0c;inpone4/4s iphone5系列 设备的像素(宽) 其他手机大多数时这两种规格 750px/640px 代表的逻辑像素是 375px/320px&#xff0c;…

m文件中函数的执行顺序

当进行多个GUI协同工作时&#xff0c;要用到uiwait和uiresume函数。此时&#xff0c;理解函数的执行顺序此时是很关键的。 首先理解uiwait和uiresume函数的作用。 uiwait函数&#xff1a;阻塞m文件的执行&#xff0c;直到uiresume解除这种阻塞&#xff1b; uiresume函数&#x…

Java从string数组创建临时文件

//从string数组创建临时文件 private static File createSampleFile(String[] strs) throws IOException {File file File.createTempFile("aws-java-sdk-", ".txt");file.deleteOnExit();Writer writer new OutputStreamWriter(new FileOutputStream(fi…

关刀机器人_小学机器人活动总结

页眉内容开展青少年机器人创新实践活动情况个人总结为进一步推动我校机器人活动的普及与发展&#xff0c;培养学生对科技制作的兴趣&#xff0c;促进学生整体素质的提高&#xff0c;同时培养学生动手实践的能力&#xff0c;我校于2016年3月开展了机器人创新实践活动。在学校领导…

[html] iframe可以使用父页面中的资源吗(如:css、js等)?

[html] iframe可以使用父页面中的资源吗&#xff08;如&#xff1a;css、js等&#xff09;&#xff1f; iframe 属于一个单独的文档不能直接使用父页面的资源&#xff0c;css的层叠不会影响iframeiframe如果和父页面同域则可以在iframe中使用parent对象来使用父页的js对象个人简…

error LNK2001:unresolved external symbol __imp__@ 解决方法

我在程序Lan中使用了winsock函数&#xff0c;出现如下错误&#xff1a;Lan.obj&#xff1a;error LNK2001: unresolved external symbol __imp__listen8 Lan.obj : error LNK2001: unresolved external symbol __imp__bind12 Lan.obj : error LN…

[html] 怎么去除img之间存在的间隔缝隙?

[html] 怎么去除img之间存在的间隔缝隙&#xff1f; 1.修改display:block/flex&#xff0c; 2.父级设置font-size:0个人简介 我是歌谣&#xff0c;欢迎和大家一起交流前后端知识。放弃很容易&#xff0c; 但坚持一定很酷。欢迎大家一起讨论 主目录 与歌谣一起通关前端面试题…

zabbix基础之环境搭建

zabbix入门 环境部署 安装mysql #安装MySQL&#xff0c;官方的MySQL的repo源地址&#xff1a;http://repo.mysql.com/ #选择指定的MySQL版本&#xff0c;我这里选mysql5.7的版本,复制对应版本的链接地址。 wget http://repo.mysql.com/mysql57-community-release-el7-10.noarch…

wordpress函数手册_WordPress主题开发手册

functions.php文件是您为 WordPress 主题添加功能的唯一位置。您可以在其中把自定义功能挂载到 WordPress 的核心功能上&#xff0c;使您的主题更加模块化、更具扩展性、功能更加丰富。什么是functions.php&#xff1f;functions.php文件的行为类似于 WordPress 插件&#xff0…