70行Python代码,获取中国数据库大会(DTCC)全部PPT

大家好,我是明月十四桥!

擅长领域:python黑科技、大数据后端研发、数据仓库

今日重点

   ① 学会使用python 获取各种网站的ppt,可见即可爬;

   ② 中国数据库大会一年一届,门票昂贵,干货满满,文末资料包值得深入学习。

呕心沥血,白天工作,晚上写文,建议收藏+实操!!!有问题欢迎评论,或加微信咨询

 

【中国数据库大会】

中国数据库大会秉承一贯的干货分享和实践指导原则,历经十年的积累与沉淀,如今的DTCC已然成为国内数据库领域的技术风向标,见证了整个行业的发展与演变

2020年12月21日~12月23日,由 IT168 旗下 ITPUB 企业社区平台主办的第十一届中国数据库技术大会(DTCC2020),将在北京隆重召开。大会以“架构革新 高效可控”为主题,设置2大主会场,20+技术专场,将邀请超百位行业专家,重点围绕数据架构、AI大数据、传统企业数据库实践和国产开源数据库等内容展开分享和探讨,为广大数据领域从业人士提供一场年度盛会和交流平台。

 

【小编动机】

官方只提供了预览的方式,无法完美的欣赏这么干货满满、制作精良的ppt。

对于求知欲强烈的桥哥来说简直太难受了,于是便写了个程序,一键获取所有ppt,并送给可爱的粉丝们。

 

中国数据库大会链接:http://dtcc.it168.com/

涉及技术:数据架构、大数据、数据库、云、数据治理

【下载代码

软件环境:python 3

# encoding: utf-8
from bs4 import BeautifulSoup
import requests
from urllib.request import urlopen
import re
import jsondef visit(url):headers = {"User-Agent": "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)","accept": "application/json, text/javascript, */*; q=0.01","accept-encoding": "gzip, deflate, br","accept-language": "zh-CN,zh;q=0.9","content-type": "application/x-www-form-urlencoded; charset=UTF-8","cookie": "",  -- 填自己的"referer": "","sec-fetch-dest": "document","sec-fetch-mode": "navigate","sec-fetch-site": "same-origin",}res = requests.get(url,headers=headers)bsObj = BeautifulSoup(res.text, "html.parser")return bsObjdef visit_homepage(url):bsObj = visit(url)content = bsObj.find('div', class_="content")content_list = content.select("p")category = []for i in range(4,len(content_list)):try:urls = content_list[i].a['href']name = content_list[i].get_text("|").split("|")[0].replace(' ','').replace('\xa0','')category.append([name,urls])except:passprint(category)return categorydef download_pdf(conf,path):category_name = conf[0]category_url = conf[1]bsObj = visit(category_url)res = re.search(r'(.*)token:(.*?),',str(bsObj) ,re.M|re.I)token = res.group(2).replace('"','').replace(' ','')arts = re.findall(r'(.*)li data-docinfo=(.*?)}',str(bsObj) ,re.M|re.I)for art in arts:art_str = "{"+str(art).split('{')[1].replace("')","}")art_dic = json.loads(art_str)id = art_dic['id']name = art_dic['name']download_url = "https://api.z.itpub.net/download/file?st-usertoken=%s&id=%s"%(token,str(id))print(download_url)data = urlopen(download_url).read()with open(path+category_name+'__'+name, 'wb') as f:f.write(data)print("finish download  ")if __name__ == '__main__':homepage = "https://z.itpub.net/article/detail/5260C494873379BAA63BAB7C5CBD7A95"path = "/Users/xxx/Downloads/DTCC/"# downloadcategory = visit_homepage(homepage)for i in category:download_pdf(i,path)

 

【效果展示】

 

【下载方法】

桥哥为大家提供了两种获取ppt的方式:

1、python爬虫获取

需进行这两步操作:

(1)cookie换成自己的

          获取cookie办法:打开开发者模式(windows F12,mac opt+command+i) 打开开发者模式,访问:homepage,network里面有cookie。

(2)修改path为自己的目录

ps.注意不要频繁访问该网站,给对方网站造成压力!!

 

2、网盘下载

桥哥也把ppt放在了csdn网盘,下载链接:

链接:  https://download.csdn.net/download/weixin_39032019/19147554

 

我是桥哥,专注分享大数据知识体系 & Python黑科技。

求点赞、求评论、求收藏!!

 


CSDN官方学习推荐 ↓ ↓ ↓

为了帮助更多小白从零进阶,从CSDN官方那边搞来了一套 《Python 工程师学习成长知识图谱》,尺寸 870mm x 560mm,展开后有一张办公桌大小,也可以折叠成一本书的尺寸,有兴趣的小伙伴可以了解一下,当然,不管怎样博主的文章一直都是免费的~

 


【推荐阅读】

数据仓库专栏:数仓方法论、实战经验、面试真题 >> https://blog.csdn.net/weixin_39032019/category_8871528.html

Python专栏:Python黑科技:爬虫、算法、小工具 >> https://blog.csdn.net/weixin_39032019/category_8974792.html

大数据集锦专栏:面试真题、开发经验、调优策略  >> https://blog.csdn.net/weixin_39032019/category_11048805.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/494220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

半导体产业格局:行稳而致远,强者将恒强

来源:华泰证券▌中国半导体产业链渐趋完善,产业生态体系逐步成形目前我国垂直分工模式的芯片产业链初步搭建成形,产业上中下游已然打通,涌现出一批实力较强的代表性本土企业。集成电路是基础性、先导性产业,涉及国家信…

Struts2之Crud综合实例

本文是Struts2的综合实例,主要包含以下功能 添加,删除,修改,查询用户上传,下载图片 拦截器实现登陆功能 验证器检查输入 下载图片功能以前没有实现过,步骤如下 在类中增加两个属性 //文件下载private…

教你用python爬英雄联盟官网:①掌握爬虫技术;②Python数据可视化

大家好,我是明月十四桥!! 擅长领域:python黑科技、大数据后端研发、数据仓库 今日重点: ① 掌握爬虫技术,体会python爬虫流程,可见即可爬; ② 学会使用python数据可视化。 有问题的…

7套干货,Python常用技术学习知识图谱!!(史上最全,建议收藏)

大家好,我是明月十四桥! 你要偷偷努力,然后惊艳所有人~ 给大家推荐 7 个宝藏级教程,视频课是永久有效的,可以随时学习,有几门课程还有CSDN官方学习答疑群,课程右边扫码入群,讲师在群…

权威发布 |《科学美国人》:2018全球十大新兴技术

来源:世界经济论坛摘要:尽管这些技术仍处于发展早期,但它们吸引了众多研究团队的关注,并且广受投资者青睐。在未来3~5年间,它们可能会对社会与经济产生重要影响。9月19日,《科学美国人》与世界经济论坛&…

23篇大数据系列(一)java基础知识全集(2万字干货,建议收藏)

大数据系列爽文,从技术能力、业务基础、分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer; ❖ 掌握大数据的基础知识,与其他同事沟通无障碍; …

Hibernate基础知识

本文主要包括以下内容 对象的状态 一对多的单向关联一对多的双向关联多对多关联 一对一关联 对象状态的变化 对象的状态 临时状态 new 持久化状态 get,save,update脱管状态 clear close evict 一对多单向操作,以班级表与学生表为例 Classes.java package …

从概念到应用,腾讯视角深入“解剖”AI平台和语音技术

来源:AI科技大本营摘要:9 月 15 日,以“破局人工智能:AI平台及智能语音应用解析”为题的沙龙在上海举办,本次活动由 CSDN、腾讯云联合主办。近年来,人工智能技术快速发展,与其他行业的结合也成为…

23篇大数据系列(二)scala基础知识全集(史上最全,建议收藏)

作者简介: 蓝桥签约作者、大数据&Python领域优质创作者。管理多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 大数据系列文章,…

为什么 AI 芯片时代必然到来——从TPU开始的几十倍性能之旅

作者:刘肉酱摩尔定律的终结将使服务于特定领域的架构成为计算的未来。一个开创性的例子就是谷歌在 2015 年推出的张量处理单元(TPU),目前已经在为超过十亿人提供服务。TPU 使深度神经网络(DNN)的计算速度提…

java学习笔记之数组

数组是一种效率最高的存储和随机访问对象引用序列的方式,一旦初始化完成,数组长度将不能变,但可以改变其引用,如: int a[]{1,2}; int b[]{1,2,3,4,5}; ab; 如果输出,将得到: b.length5;a.length5; java数组…

《爬虫写得好,铁窗关到老》教你把握爬虫的法律边界!㊫

作者简介 蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 最近的IT公司违法案件越来越多,…

23篇大数据系列(三)sql基础知识(史上最全,建议收藏)

作者简介 蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 大数据系列文章,从技术能力、…

脑机交互研究及标准化实践

来源: 人机与认知实验室摘要:本文介绍脑机交互的概念及标准化的必要性,讨论近年来脑机交互的发展状况,重点阐述国内外植入式脑机接口的研究历程,并从脑机交互系统角度提出了脑机交互标准化的思考,同时介绍在…

C#反射的特性

如果您现在对反射还不太了解的话,那么可以先看看这篇博文,来粗略的了解一下反射吧。什么是反射 反射特性(Attribute)  1. C#内置特性介绍  特性是一个对象,它可以加载到程序集及程序集的对象中,这些对象…

拥抱人工智能报告:中国未来就业的挑战与应对

来源: 199IT互联网数据中心近日,中国发展研究基金会联合红杉资本中国基金,对外发布了一份名为《投资人力资本,拥抱人工智能:中国未来就业的挑战与应对》的研究报告。在这篇报告中,研究课题组对比中外、调研…

《Python 快速入门》C站最全Python标准库总结

点赞 ➕ 评论 ➕ 收藏 养成三连好习惯 🍅 联系作者: 不吃西红柿 🍅 作者简介:CSDN 博客专家丨全站 Top 10🏆、HDZ 核心组成员、信息技术智库公号号主 🍅 简历模板、PPT 模板、学习资料、技术互助。关注…

工业4.0进行时:未来协作方式的变革

来源:资本实验室协作是将人类智力发挥至极致的方式,也是推动人类社会进步的重要手段。随着各种新技术的发展与应用,人类之间的协作方式也在随着技术的进步而进步。从面对面交流,到电话与传真、电子邮件与OA系统,再到在…

java之代理设计模式

代理模式是常用的java设计模式,他的特征是代理类与委托类有同样的接口,代理类主要负责为委托类预处理消息、过滤消息、把消息转发给委托类,以及事后处理消息等。代理类与委托类之间通常会存在关联关系,一个代理类的对象与一个委托…

lisp中的*,**,***

在lisp中“*”除了乘法的作用外,还被用来保存REPL(read-eval-print-loop)中的返回值。其中 * -> 保存最后一次返回值。 ** -> *的上一次值。 *** -> **的上一次值。 例子如下: 而且  * (car /) ** …