爬取校园新闻首页的新闻

1. 用requests库和BeautifulSoup库，爬取校园新闻首页新闻的标题、链接、正文。

import requests  
from bs4 import BeautifulSoup url = requests.get("http://news.gzcc.cn/html/xiaoyuanxinwen/")url.encoding = "utf-8"
soup = BeautifulSoup(url.text,'html.parser')#print(soup.head.title.text)
for news in soup.select('li'):if len(news.select('.news-list-title'))>0:#print(news.select('.news-list-title'))                          #print(news.select('.news-list-title')[0])      #print(news.select('.news-list-title')[0].text) time = news.select('.news-list-info')[0].contents[0].text title = news.select('.news-list-title')[0].text           href = news.select('a')[0]['href']                     href_text = requests.get(href)                            href_text.encoding = "utf-8"href_soup = BeautifulSoup(href_text.text,'html.parser')href_text_body = href_soup.select('.show-content')[0].textprint(time,title,href,href_text_body)

　　2. 分析字符串，获取每篇新闻的发布时间，作者，来源，摄影等信息。

# print(news)
def analyseNewsArticle(href):print('**' * 5 + '详情页信息' + '**' * 10)res1 = requests.get(href)res1.encoding = 'UTF-8'soup1 = BeautifulSoup(res1.text, 'html.parser')news_info = soup1.select('.show-info')[0].textinfo_list = ['来源', '发布时间', '点击', '作者', '审核', '摄影']  # 需要解析的字段news_info_set = set(news_info.split('\xa0')) - {' ', ''}  # 网页中的 获取后会解析成\xa0，所以可以使用\xa0作为分隔符# 循环打印文章信息for n_i in news_info_set:for info_flag in info_list:if n_i.find(info_flag) != -1:  # 因为时间的冒号采用了英文符所以要进行判断if info_flag == '发布时间':print(info_flag + ':' + n_i[n_i.index(':') + 1:])elif info_flag == '点击':  # 点击次数是通过文章id访问php后使用js写入，所以这里单独处理click_num_url = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'res2 = requests.get(click_num_url.format(href[href.rindex('/') + 1:href.index('.html')]))res2.encoding = 'UTF-8'print(info_flag + ':' + res2.text[res2.text.rindex("('") + 2:res2.text.rindex("')")])else:print(info_flag + ':' + n_i[n_i.index('：') + 1:])news_content = soup1.select('#content')[0].textprint(news_content)  # 文章内容print('————' * 40)for n in news:# print(n)print('**' * 5 + '列表页信息' + '**' * 10)print('新闻链接：' + n.a.attrs['href'])print('新闻标题：' + n.select('.news-list-title')[0].text)print('新闻描述：' + n.a.select('.news-list-description')[0].text)print('新闻时间：' + n.a.select('.news-list-info > span')[0].text)print('新闻来源：' + n.a.select('.news-list-info > span')[1].text)analyseNewsArticle(n.a.attrs['href'])

3. 将其中的发布时间由str转换成datetime类型。

form datetime import datetime， timedeltaimport timestart_date = datetime.strptime("2018-04-03", "%Y-%m-%d")

　　4. 将完整的代码及运行结果截图发布在作业上。

转载于:https://www.cnblogs.com/tyx123/p/8710871.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/267320.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

爬取校园新闻首页的新闻

相关文章

php服务划分,云计算提供的服务分为哪三个层次

如何做个人职业规划和年度计划

centos 7 快速安装nginx

matlab colorbar采用对数,matlab colorbar的使用 | 學步園

BFS简单搜索--POJ 2243

python_cookies

php拖拽原理,JS拖拽效果及原理解析

jqGrid细节备注—pager文字的设置，更改默认的提交方式

浅谈拓扑排序

iOS开发笔记[18/50]：在Mac OS X Lion系统中访问~/Library目录都需要点技巧

makemid+matlab,《MATLAB基础》双语课

素数对猜想之python3实现

java 获取六个月账期,应收帐龄分析里面账期分析能不能改为0-30天？

ribbon源码(1) 概述

Linux软件安装解决方案

php获取页面的可视内容高度,网页制作技巧:获取页面可视区域的高度_css

axios和ajax的区别

矩阵学习摘记，欢迎指正

安装与配置-以前的某个程序安装已在安装计算机上创建挂起的文件操作......

拦截器和过滤器的区别