【大数据】获取一篇新闻的全部信息

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894

给定一篇新闻的链接newsUrl,获取该新闻的全部信息

标题、作者、发布单位、审核、来源

发布时间:转换成datetime类型

点击:

  • newsUrl
  • newsId(使用正则表达式re)
  • clickUrl(str.format(newsId))
  • requests.get(clickUrl)
  • newClick(用字符串处理,或正则表达式)
  • int()

整个过程包装成一个简单清晰的函数。

尝试去爬取一个你感兴趣的网页。

# 获取一篇新闻的全部信息
import re
import requests
from bs4 import BeautifulSoup
from datetime import datetime# 获取新闻id
def newsnum(url):newsid = re.match('http://news.gzcc.cn/html/2019/meitishijie_0321/(.*).html', url).group(1)return newsid# 发布时间:datetime类型
def newstime(soup):newsdate = soup.select('.show-info')[0].text.split()[0].split(':')[1]newstime = soup.select('.show-info')[0].text.split()[1]time = newsdate + ' ' + newstimetime = datetime.strptime(time, '%Y-%m-%d %H:%M:%S')return time# 获取点击次数
def click(url):id = re.findall('(\d{1,5})', url)[-1]clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(id)res = requests.get(clickUrl)click = res.text.split('.html')[-1].lstrip("('").rstrip("');")return click# 主函数
def main(url):res = requests.get(url)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')#print(soup.select('.show-info')[0].text.split());print("新闻编号:" + newsnum(url));                       # 新闻编号idprint("标题:" + soup.select('.show-title')[0].text);     # 标题print("发布时间:" + str(newstime(soup)));                # 发布时间print(soup.select('.show-info')[0].text.split()[2]);     # 作者print(soup.select('.show-info')[0].text.split()[3]);     # 审核print(soup.select('.show-info')[0].text.split()[4]);     # 来源print("内容:" + soup.select('.show-content p')[0].text); # 内容returnurl = "http://news.gzcc.cn/html/2019/meitishijie_0321/11033.html"
main(url)

 

转载于:https://www.cnblogs.com/Richard-V/p/10649085.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/425194.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第十五期:真相了,中台到底“出路”还是“末路”?

从 2015 年开始,到 2019 年现在为止,各大公司都在吹捧中台理念。 从 2015 年开始,到 2019 年现在为止,各大公司都在吹捧中台理念。 仿佛中台是业务复杂性的救世主,是某些架构师和 PM 的新出路,各种割韭菜的…

[密码学基础][每个信息安全博士生应该知道的52件事][Bristol Cryptography][第27篇]什么是对称密码加密的AEAD安全定义?

这是一系列博客文章中最新的一篇,该文章列举了“每个博士生在做密码学时应该知道的52件事”:一系列问题的汇编是为了让博士生们在第一年结束时知道些什么。这篇文章将从“安全定义和证明”一节开始,对认证加密进行简要概述。 AEAD Luke在最近的一篇文章…

第十七期:详解大数据处理中的Lambda架构和Kappa架构

在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。 典型互联网大数据平台架构 首先我…

[密码学基础][每个信息安全博士生应该知道的52件事][Bristol Cryptography][第28篇]什么是公钥密码学的IND-CCA安全定义?

这是一系列博客文章中最新的一篇,该文章列举了“每个博士生在做密码学时应该知道的52件事”:一系列问题的汇编是为了让博士生们在第一年结束时知道些什么。讨论了用于公钥加密的IND-CCA安全性。 IND-CCA安全代表选择明文的不可伪造性。这样的安全方案的思想就是给定…

玩转oracle 11g(51):select t.*,t.rowid

select t.*,t.rowid from wii_device_master t; ‘ 点开解锁 复制ctrlc crtl v加入新的值 很简单,sql语句后面加上for update即可: 但是今天遇到一种情况,无法对该表进行修改,因为这样会锁表的 下面这样写比较好,也…

[小技巧][Markdown]上标 /下标 上下角标

标签写法效果上标2 10 上标2 10下标H2O下标H2O //上标 2<sup> 10 </sup> 2 ^10^ //下标 H<sub>2</sub>O H~2~O//上标 2 10 2 10 //下标 H2O H2O [总结] 1.上标 sup标签 &#xff1a; <sup> 内容 </sup> ^ : ^内容^2.下标 sub标…

第十八期:专家认为对“人工智能+教育”应持审慎态度

随着人工智能不断发展,人脸识别技术被越来越多地应用于校园中。据了解,一所知名大学2019级新生“刷脸”就能瞬间完成报到程序,系统是这所学校的学生研发的,学生对着摄像头,人脸识别系统就开始进行比对,眨眼间就能完成扫描,整个报到注册手续几乎不到一秒钟。 制图/李晓军 ● 人…

图论中的基础概念总结

总结下图论中的各种基础概念 所以有部分定义直接搬运了度娘啦~ 子图设为两个图&#xff08;同为无向图或同为有向图&#xff09;&#xff0c;若且&#xff0c;则称G是G的子图&#xff0c;G是G‘的母图&#xff0c;记作&#xff0c;又若且&#xff0c;则G称是G的真子图&#xff…

[Leetcode][第312题][JAVA][戳气球][动态规划][记忆化搜索]

【问题描述】[困难] 【解答思路】 1. 记忆化搜索 时间复杂度&#xff1a;O(n^3) 空间复杂度&#xff1a;O(n^2) class Solution {public int[][] rec;public int[] val;public int maxCoins(int[] nums) {int n nums.length;val new int[n 2];for (int i 1; i < n; i)…

第十九期:CIO不懂老板数字化转型的目的,因为老板也不知道自己想要什么

既然不知道数字化转型的目的是什么&#xff0c;那么为什么老板会花大价钱进行数字化转型呢&#xff1f;CIO应该找到老板真正想要什么&#xff0c;一切的目的都在业务上。 据传有份权威机构说全球企业数字化转型的失败率将近80%。 但是到处都搜不到这句话的出处。我敢肯定这个数…

selenium+python自动化80-文件下载(不弹询问框)

前言 上一篇是点弹出框上的按钮去保存文件&#xff0c;本篇介绍一种更加优雅的方法&#xff0c;加载Firefox和Chrome的配置文件&#xff0c;不弹出询问框后台下载。 一、FirefoxProfile 1.点下载的时候&#xff0c;如下图&#xff0c;如果不想让它弹出这个询问框&#xff0c;可…

第二十期:想吃透监控系统,就这一篇够不够?

经济高速发展的今天&#xff0c;我们处于信息大爆炸的时代。随着经济发展&#xff0c;信息借助互联网的力量在全球自由地流动&#xff0c;于是就催生了各种各样的服务平台和软件系统。 经济高速发展的今天&#xff0c;我们处于信息大爆炸的时代。随着经济发展&#xff0c;信息借…

[Leetcode][第95题][JAVA][不同的二叉搜索树 II][递归]

【问题描述】[中等] 【解答思路】 1. 递归 复杂度 class Solution {public List<TreeNode> generateTrees(int n) {if (n 0) {return new LinkedList<TreeNode>();}return generateTrees(1, n);}public List<TreeNode> generateTrees(int start, int end…

EXEJ4 生成的java exe文件更换电脑后出现闪退情况解决办法

用命令行打开exe程序后检查调试信息发现如果是The JAVA_HOME environment variable does notpoint to a working 32-bit JDK or JRE.表示本电脑上没有对应的32位jdk或者jre运行环境&#xff0c;jdk版本不对解决办法&#xff1a;如果没有java运行环境需要提前配置好&#xff0c;…

2018-2019-2 网络对抗技术 20165303 Exp4 恶意代码分析

实践目标 1.1是监控你自己系统的运行状态&#xff0c;看有没有可疑的程序在运行。 1.2是分析一个恶意软件&#xff0c;就分析Exp2或Exp3中生成后门软件&#xff1b;分析工具尽量使用原生指令或sysinternals,systracer套件。 1.3假定将来工作中你觉得自己的主机有问题&#xff0…

第二十一期:老大难的GC原理及调优,这全说清楚了

本文介绍 GC 基础原理和理论&#xff0c;GC 调优方法思路和方法&#xff0c;基于 Hotspot jdk1.8&#xff0c;学习之后你将了解如何对生产系统出现的 GC 问题进行排查解决。 本文介绍 GC 基础原理和理论&#xff0c;GC 调优方法思路和方法&#xff0c;基于 Hotspot jdk1.8&…

[剑指offer]面试题第[47]题[JAVA][礼物的最大价值][动态规划]

【问题描述】[中等] 【解答思路】 1动态规划 动态规划流程 第 1 步&#xff1a;设计状态 f(i, j)f(i,j) 为从棋盘左上角走至单元格 (i ,j)(i,j) 的礼物最大累计价值 第 2 步&#xff1a;状态转移方程 f(i,j)max[f(i,j−1),f(i−1,j)]grid(i,j) 第 3 步&#xff1a;考虑初始化…

第二十四期:揭秘:为什么电脑越用越卡 大型破案现场

今天谈一个大家都好奇地问题&#xff0c;为什么电脑越来越卡&#xff0c;相信大家都深有体会&#xff0c;好好的电脑刚买的时候像火箭&#xff0c;现在怎么就支棱不起来了呢&#xff0c;是老了么? 今天谈一个大家都好奇地问题&#xff0c;为什么电脑越来越卡&#xff0c;相信大…

[Leetcode]第[43]题[JAVA][字符串相乘][字符串相加]

【问题描述】[中等] 【解答思路】 1. 普通竖式 **复杂度&#xff1a;O(N^2) ** class Solution {/*** 计算形式* num1* x num2* ------* result*/public String multiply(String num1, String num2) {if (num1.equals("0") || num2.equals("0")) …

第七期:详解JavaScript运行机制(Event Loop)

在浏览器中,每个渲染进程都有一个主线程,主线程非常繁忙&#xff0c;既要处理DOM&#xff0c;又要计算样式&#xff0c;还要处理布局&#xff0c;同时还需要处理JavaScript任务以及各种输入事件。此时我们就需要一个系统来统筹调度这么多不同类型的任务在主线程中有条不紊地执行…