一些线上化刚刚起步的部门,并不是所有的数据都是直接推送到服务器的数据库中,有些数据往往是数据中心通过邮件形式推送的,如果每天接收邮件--下载附件--解压--合并文件--导入数据库,对于数据工程师来说,这无疑是琐碎且没有技术含量的工作,任谁都不愿意在这种工作上面浪费时间。对于这样的工作,最适合用代码自动完成了。
下面就是用 Python 完成下载邮箱附件并解压的代码了,如果还需要合并文件,可以查看博客该分类下的另一篇文章。
# coding: utf-8
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import poplib
import email
import datetime
import time # import re
from email.parser import Parser
from email.header import decode_header
from email.utils import parseaddr
import zipfile
import chardetpoplib._MAXLINE=204800 # 输入邮件地址, 口令和POP3服务器地址:
email = '***************@163.com'#此处填写邮箱账号
password = '**********'#此处填写邮箱密码
pop3_server = 'pop.163.com'
today=datetime.datetime.now()
gap=datetime.timedelta(days=1)
date=today-gap
str_date=date.strftime('%m%d')
str_date2=today.strftime('%m%d')
file1="回盘业绩"
file2="_8月预催收业绩"
file3="全量账户报表"
filename2=[file1,file2,file3]def decode_str(s):#字符编码转换 value, charset = decode_header(s)[0] if charset: value = value.decode(charset) return value def get_att(msg,filename2): import email attachment_files1= [] attachment_files2= [] for part in msg.walk(): file_name = part.get_filename()#获取附件名称类型 contType = part.get_content_type() if file_name: h = email.header.Header(file_name) dh = email.header.decode_header(h)#对附件名称进行解码 filename = dh[0][0] if dh[0][1]: filename = decode_str(str(filename,dh[0][1]))#将附件名称可读化 print(filename) #filename = filename.encode("utf-8")if (filename[3:7] in filename2) or (filename[7:11] in filename2):data = part.get_payload(decode=True)#下载附件 att_file = open(R'E:\\邮件下载\\' + "回盘业绩.xlsx", 'wb')attachment_files1.append(filename) att_file.write(data)#保存附件 att_file.close()elif filename[:6] ==filename2[2]:data = part.get_payload(decode=True)#下载附件 att_file = open(R'E:\\邮件下载\\' + filename, 'wb')attachment_files2.append(filename) att_file.write(data)#保存附件 att_file.close()return attachment_files2 # 连接到POP3服务器,有些邮箱服务器需要ssl加密,对于不需要加密的服务器可以使用poplib.POP3()
server = poplib.POP3_SSL(pop3_server)
server.set_debuglevel(1)
# 打印POP3服务器的欢迎文字:
print(server.getwelcome().decode('utf-8'))
# 身份认证:
server.user(email)
server.pass_(password)
# 返回邮件数量和占用空间:
print('Messages: %s. Size: %s' % server.stat())
# list()返回所有邮件的编号:
resp, mails, octets = server.list()
# 可以查看返回的列表类似[b'1 82923', b'2 2184', ...]
print(mails)
index = len(mails) f_list2=[]
for i in range(index,0,-1):
#倒序遍历邮件 resp, lines, octets = server.retr(i) # lines存储了邮件的原始文本的每一行, #邮件的原始文本: result=chardet.detect(lines[0])print(result)msg_content = b'\r\n'.join(lines).decode("utf-8","ignore")#"ignore"#解析邮件: msg = Parser().parsestr(msg_content) #获取邮件时间 date1 = time.strptime(msg.get("Date")[0:24],'%a, %d %b %Y %H:%M:%S') #格式化收件时间 date2 = time.strftime("%m%d", date1)#邮件时间格式转换 if date2==str_date2: f_list = get_att(msg,filename2)#获取附件f_list2.append(f_list)elif date2<str_date2:break
print(f_list2) for i in f_list2:if len(i)!=0:f = zipfile.ZipFile(R'E:\\邮件下载\\' + i[0],'r')for file in f.namelist():f.extract(file,R'E:\\邮件下载\\excel\\') f.close()else:continue#print_info(msg)
server.quit()