【大数据】获取一篇新闻的全部信息

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894

给定一篇新闻的链接newsUrl,获取该新闻的全部信息

标题、作者、发布单位、审核、来源

发布时间:转换成datetime类型

点击:

  • newsUrl
  • newsId(使用正则表达式re)
  • clickUrl(str.format(newsId))
  • requests.get(clickUrl)
  • newClick(用字符串处理,或正则表达式)
  • int()

整个过程包装成一个简单清晰的函数。

尝试去爬取一个你感兴趣的网页。

# 获取一篇新闻的全部信息
import re
import requests
from bs4 import BeautifulSoup
from datetime import datetime# 获取新闻id
def newsnum(url):newsid = re.match('http://news.gzcc.cn/html/2019/meitishijie_0321/(.*).html', url).group(1)return newsid# 发布时间:datetime类型
def newstime(soup):newsdate = soup.select('.show-info')[0].text.split()[0].split(':')[1]newstime = soup.select('.show-info')[0].text.split()[1]time = newsdate + ' ' + newstimetime = datetime.strptime(time, '%Y-%m-%d %H:%M:%S')return time# 获取点击次数
def click(url):id = re.findall('(\d{1,5})', url)[-1]clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(id)res = requests.get(clickUrl)click = res.text.split('.html')[-1].lstrip("('").rstrip("');")return click# 主函数
def main(url):res = requests.get(url)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')#print(soup.select('.show-info')[0].text.split());print("新闻编号:" + newsnum(url));                       # 新闻编号idprint("标题:" + soup.select('.show-title')[0].text);     # 标题print("发布时间:" + str(newstime(soup)));                # 发布时间print(soup.select('.show-info')[0].text.split()[2]);     # 作者print(soup.select('.show-info')[0].text.split()[3]);     # 审核print(soup.select('.show-info')[0].text.split()[4]);     # 来源print("内容:" + soup.select('.show-content p')[0].text); # 内容returnurl = "http://news.gzcc.cn/html/2019/meitishijie_0321/11033.html"
main(url)

 

转载于:https://www.cnblogs.com/Richard-V/p/10649085.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/425194.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[密码学基础][每个信息安全博士生应该知道的52件事][Bristol Cryptography][第14篇]什么是基于线性对的密码学

这是最新的一期密码学52件事.我们基于前几周介绍一种"对"的概念. 对的定义 给定三个循环群G1,G2,G3,它们的基为q,生成器分别为g1,g2,g3.我们说一个函数e:G1G2→G3是一个密码对如果下面的等式都成立. [双线性]∀A,B∈G1,C,D∈G2:e(AB,C)e(A,C)⋅e(B,C),同时e(A,CD)…

第十五期:真相了,中台到底“出路”还是“末路”?

从 2015 年开始,到 2019 年现在为止,各大公司都在吹捧中台理念。 从 2015 年开始,到 2019 年现在为止,各大公司都在吹捧中台理念。 仿佛中台是业务复杂性的救世主,是某些架构师和 PM 的新出路,各种割韭菜的…

蓝桥杯 2017 国赛B组C/C++【对局匹配】

题意就是给我们一串数 让我们尽可能地取 约束条件是a[i] 和a[i]k不能同时出现 所有元素之间相差k的元素都不能同时出现 让我们求所能取到的最大的数的和是多少分析: dp思路,这个和树形dp有点相似 就是枚举0~k 然后在每个这个元素上迭代加k 每个元素保存…

架构师成长之路:如何保证消息队列的高可用

问题一:描述一下 JVM 的内存区域    程序计数器(PC,Program Counter Register)。在 JVM 规范中,每个线程都有它自己的程序计数器,并且任何时间一个线程都只有一个方法在执行,也就是所谓的当…

[密码学基础][每个信息安全博士生应该知道的52件事][Bristol Cryptography][第27篇]什么是对称密码加密的AEAD安全定义?

这是一系列博客文章中最新的一篇,该文章列举了“每个博士生在做密码学时应该知道的52件事”:一系列问题的汇编是为了让博士生们在第一年结束时知道些什么。这篇文章将从“安全定义和证明”一节开始,对认证加密进行简要概述。 AEAD Luke在最近的一篇文章…

dell的boot设置

1.开机后不久会有屏幕提示,然后按提示按F2就可以进入BIOS的界面了。也可以按F12后选择在菜单中选择"BIOS SETUP”进入。 2.设置BIOS时间:进入BIOS后,用左右箭头移动到“MAIN”选项,一般进入默认就是它,然后用上下箭头移动到System Time…

[转帖]Docker 清理占用的磁盘空间

Docker(二十七)-Docker 清理占用的磁盘空间 https://www.cnblogs.com/zhuochong/p/10076599.htmldocker system docker network一系列的docker 命令 感觉挺有裨益的 去年的时候还用过 一段时间不用 忘记的干干净净了. 1. docker system命令 docker system df命令,类…

2017蓝桥杯决赛-发现环 数据结构|搜索

问题描述小明的实验室有N台电脑,编号1~N。原本这N台电脑之间有N-1条数据链接相连,恰好构成一个树形网络。在树形网络上,任意两台电脑之间有唯一的路径相连。不过在最近一次维护网络时,管理员误操作使得某两台电脑之间增加了一条数…

第十七期:详解大数据处理中的Lambda架构和Kappa架构

在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。 典型互联网大数据平台架构 首先我…

[密码学基础][每个信息安全博士生应该知道的52件事][Bristol Cryptography][第28篇]什么是公钥密码学的IND-CCA安全定义?

这是一系列博客文章中最新的一篇,该文章列举了“每个博士生在做密码学时应该知道的52件事”:一系列问题的汇编是为了让博士生们在第一年结束时知道些什么。讨论了用于公钥加密的IND-CCA安全性。 IND-CCA安全代表选择明文的不可伪造性。这样的安全方案的思想就是给定…

玩转oracle 11g(51):select t.*,t.rowid

select t.*,t.rowid from wii_device_master t; ‘ 点开解锁 复制ctrlc crtl v加入新的值 很简单,sql语句后面加上for update即可: 但是今天遇到一种情况,无法对该表进行修改,因为这样会锁表的 下面这样写比较好,也…

[小技巧][Markdown]上标 /下标 上下角标

标签写法效果上标2 10 上标2 10下标H2O下标H2O //上标 2<sup> 10 </sup> 2 ^10^ //下标 H<sub>2</sub>O H~2~O//上标 2 10 2 10 //下标 H2O H2O [总结] 1.上标 sup标签 &#xff1a; <sup> 内容 </sup> ^ : ^内容^2.下标 sub标…

第十八期:专家认为对“人工智能+教育”应持审慎态度

随着人工智能不断发展,人脸识别技术被越来越多地应用于校园中。据了解,一所知名大学2019级新生“刷脸”就能瞬间完成报到程序,系统是这所学校的学生研发的,学生对着摄像头,人脸识别系统就开始进行比对,眨眼间就能完成扫描,整个报到注册手续几乎不到一秒钟。 制图/李晓军 ● 人…

文字排版 - bootStrap4常用CSS笔记

【文字常用标签】 <h1>、<h2>、<h3>、<h4>、<h5>、<h6>标题类标签&#xff0c;h1字体最大以次类推<small>更小、颜色更浅的字号。<mark>黄色背景及有一定的内边距的文本<abbr>简要标签, 结合title使用,示例: <abbr t…

图论中的基础概念总结

总结下图论中的各种基础概念 所以有部分定义直接搬运了度娘啦~ 子图设为两个图&#xff08;同为无向图或同为有向图&#xff09;&#xff0c;若且&#xff0c;则称G是G的子图&#xff0c;G是G‘的母图&#xff0c;记作&#xff0c;又若且&#xff0c;则G称是G的真子图&#xff…

[Leetcode][第312题][JAVA][戳气球][动态规划][记忆化搜索]

【问题描述】[困难] 【解答思路】 1. 记忆化搜索 时间复杂度&#xff1a;O(n^3) 空间复杂度&#xff1a;O(n^2) class Solution {public int[][] rec;public int[] val;public int maxCoins(int[] nums) {int n nums.length;val new int[n 2];for (int i 1; i < n; i)…

第十九期:CIO不懂老板数字化转型的目的,因为老板也不知道自己想要什么

既然不知道数字化转型的目的是什么&#xff0c;那么为什么老板会花大价钱进行数字化转型呢&#xff1f;CIO应该找到老板真正想要什么&#xff0c;一切的目的都在业务上。 据传有份权威机构说全球企业数字化转型的失败率将近80%。 但是到处都搜不到这句话的出处。我敢肯定这个数…

POJ-1236 Network of Schools 缩点

题意&#xff1a;就是给我们一个网络 让我们求 1 选择最少的点传信 能够使得这个信息传遍整个网络 2 求加的最少的边 使得 加上这些边后整个图任取一个点信息就可以传到网络中任何一个店分析&#xff1a; 对于1问 可以用tarjan缩点 把所有的强联通分量缩成一个点 去考虑 然后求…

selenium+python自动化80-文件下载(不弹询问框)

前言 上一篇是点弹出框上的按钮去保存文件&#xff0c;本篇介绍一种更加优雅的方法&#xff0c;加载Firefox和Chrome的配置文件&#xff0c;不弹出询问框后台下载。 一、FirefoxProfile 1.点下载的时候&#xff0c;如下图&#xff0c;如果不想让它弹出这个询问框&#xff0c;可…

第二十期:想吃透监控系统,就这一篇够不够?

经济高速发展的今天&#xff0c;我们处于信息大爆炸的时代。随着经济发展&#xff0c;信息借助互联网的力量在全球自由地流动&#xff0c;于是就催生了各种各样的服务平台和软件系统。 经济高速发展的今天&#xff0c;我们处于信息大爆炸的时代。随着经济发展&#xff0c;信息借…