之前写的都是针对爬虫过程中遇到问题的解决方案,没怎么涉及到实际案例。这次,就以博客园为主题,写一个自动私信博客下的评论人员(在本篇留下的评论的同学也会被自动私信,如果不想被私信,同时又有问题,请私信我)。
1).确定监控的博客,这里以http://www.cnblogs.com/hearzeus/p/5226546.html为例,后面会更改为本篇博客的博客地址。
2).获取博客下的评论人员。
打开浏览器控制台-网络面板,可以看到如下信息:
分析可知,获取评论人员的请求为:
http://www.cnblogs.com/mvc/blog/GetComments.aspx?postId=5226546&blogApp=hearzeus&pageIndex=0&anchorCommentId=0&_=1456989055561
python代码如下:
defgetCommentsHtml(index):
url= "http://www.cnblogs.com/mvc/blog/GetComments.aspx"params={"postId":"5226546","blogApp":"hearzeus","pageIndex":`index`,'anchorCommentId':`0`,'_=':'1456908852216'}
url_params=urllib.urlencode(params)return json.loads(urllib2.urlopen(url,data=url_params).read())['commentsHtml']
可以通过index来遍历所有的评论人员。如果,评论人员只有1页,但是,我把index设为2,这个时候就取不到数据。分析有无数据的返回值,可以通过关键特征告诉爬虫,已经遍历结束了。我用的特征代码如下:
if(html.count(u"comment_date")<1):print "遍历结束:"+`i`
即提取返回值中是否有"comment_date"关键字来判断是否遍历结束
我们将这个链接,直接放在浏览器里面打开,可以看到请求结果,如下图所示:
放在json处理工具里面(http://www.bejson.com/jsonviewernew/),可以看到如下:
从图中可以看出,有效信息为commentsHtml 字段,同时可以发现,返回的用户列表形式为html,所以还要对返回值进行解析。
经过一步步的分析,我发现解析代码:
#parseHtml.py#encoding=utf8
from bs4 importBeautifulSoupdefparse(html):
soup= BeautifulSoup(html,"html.parser")
acount= len(soup.find_all("div","post"))
name_list=[]#print acount
for i inrange(acount):
name_list.append(soup.find_all("div","posthead")[i].find_all("a")[2].string)return name_list
3).保存用户名,以保证不重复给一个人发送私信。代码如下:
#FileOperation.py
#encoding=utf8
importsys
reload(sys)
sys.setdefaultencoding("utf-8")defcheckName(name):
file= open("../src/comments")
contents= file.read().split("\n")for i inrange(len(contents)):if(contents[i].count(name)>0):
file.close()returnTruedefwirteName(name):
file= open("../src/comments","a")
file.write(name+"\n")
file.close()return True
checkName函数,是用来检查该用户是否已经被发送过私信
writeName函数,是将发送私信成功后的用户写入文本
4).发送私信(这个接口可以自己在博客园发送私信截取到,方法同上),代码如下
#sendMessage.py
#encoding=utf8
importurllibimporturllib2defsend(name,content):
url= "http://msg.cnblogs.com/ajax/msg/send"header={"Cookie":"**********"}#print `name`
params ={"incept":name,"title":"脚本私信","content":`content`
}
url_param=urllib.urlencode(params)request= urllib2.Request(url=url,headers=header,data=url_param)print urllib2.urlopen(request).read()
a).其中header里面的cookie,需要登录博客园之后获取,如下图马赛克部分,
b).params通过名称可以看到每个参数的作用。
5).定时器
python定时器,代码示例:
importthreadingdefsayhello():print "hello world"t= threading.Timer(2.0, sayhello)
t.start()returnsayhello()
附录——完整代码
#spider.py#encoding=utf8
importurllib2importurllibimportjsonimportparseHtmlimportsendMessageimportFileOperationimportthreading
defgetCommentsHtml(index):
url= "http://www.cnblogs.com/mvc/blog/GetComments.aspx"params={"postId":"5226546",#不要监控我的"blogApp":"hearzeus",#不要监控我的"pageIndex":`index`,'anchorCommentId':`0`,'_=':'1456908852216'}
url_params=urllib.urlencode(params)return json.loads(urllib2.urlopen(url,data=url_params).read())['commentsHtml']defgetCommentsUser(html):returnparseHtml.parse(html)defsendHello(name):#for i in range(len(list_name)):
sendMessage.send(name,"脚本私信。如有打扰,还望海涵")#print("hello:"+name)
defmain():for i in range(10):
html=getCommentsHtml(i)if(html.count(u"comment_date")<1):print "遍历结束:"+`i`
t= threading.Timer(10.0, main)
t.start()returnlist_name=getCommentsUser(html)for i inrange(len(list_name)):if(FileOperation.checkName(list_name[i])!=True):
sendHello(list_name[i])
FileOperation.wirteName(list_name[i])
main()
其他三个py在上面都给出了
注意,
监控的博客页面一定要改,不要监控我的!!!!
监控的博客页面一定要改,不要监控我的!!!!
监控的博客页面一定要改,不要监控我的!!!!
我说了三遍!!!!!!
以上
a).代码仅供学习交流
b).如有错误,多多指教
c).转载请注明出处
2016/3/4 10:36最新更新
估计用不了多久,我就会被封了。
2016/3/4 10:42更新
有部分同学测试自动回复,这里更新下自动回复的代码:
#encoding=utf8
importurllibimporturllib2defsendLetter(name,content):#自动私信
url= "http://msg.cnblogs.com/ajax/msg/send"header={"Cookie":""}
params={"incept":name,"title":"脚本私信","content":content
}
url_param=urllib.urlencode(params)
request= urllib2.Request(url=url,headers=header,data=url_param)printurllib2.urlopen(request).read()defsendComments(parentid,contents):#自动回复
url= "http://www.cnblogs.com/mvc/PostComment/Add.aspx"header={"Cookie":""}
params={"blogApp":"hearzeus","postId":"5238867","body":contents,"parentCommentId":parentid
}
url_param=urllib.urlencode(params)printurl_param
request= urllib2.Request(url=url,headers=header,data=url_param)printurllib2.urlopen(request).read()
2016/3/4 11:01更新
已经被封
2016/3/4 11:34更新
自动回复过快也会失败,所以,就不打算部署了。
说在最后:
这篇博文只是一个简单的示例,理解就行。不用继续测试了,我已经在服务器关了这些功能
注意,Cookie 在sendMessage.py里面改成自己的
https://yunpan.cn/cYy5a9aJ3wLaW 提取码 f746