获取公募基金持仓【数据分析系列博文】

摘要

从指定网址获取公募基金持仓数据,快速解析并存储数据。
(该博文针对自由学习者获取数据;而在投顾、基金、证券等公司,通常有Wind、聚源、通联等厂商采购的数据)

1. 导入必要的库:
pandas 用于数据处理和操作。
requests 用于发送 HTTP 请求并获取响应。
re 用于正则表达式的匹配,用来从网页源代码中提取所需数据。
sqlalchemy 用于数据库操作。
pymysql 用于连接 MySQL 数据库。

2. 定义请求头部信息:
包括 Accept、Accept-Encoding、Accept-Language、Cache-Control、Connection、Cookie、Host、Referer 和 User-Agent。这些信息模拟了浏览器向服务器发送请求的情况,以防止被服务器拒绝或误认为是爬虫。

3. 主程序逻辑:
使用 requests.get() 方法发送 HTTP GET 请求获取网页源代码。 使用
response.raise_for_status() 检查请求是否成功,若出现 HTTP 错误则抛出异常。
使用正则表达式从网页源代码中提取股票名称、代码、占比、持股数和持股市值等信息,并将其保存到 DataFrame 中。 对于
DataFrame 中的数据,去除其中的逗号并将其转换为浮点数类型。 在 DataFrame 中插入基金代码和日期信息。 将处理后的
DataFrame 数据写入 MySQL 数据库中。
4. 异常处理:
捕获 requests.exceptions.RequestException 异常,以处理可能的网络请求异常。

源码

import pandas as pd
import requests
import re
import sqlalchemy
import pymysql"""desc: 采集公募基金十大重仓author: xiong
"""headers = {"Accept": "*/*","Accept-Encoding": "gzip, deflate, br, zstd","Accept-Language": "zh-CN,zh;q=0.9","Cache-Control": "no-cache","Connection": "keep-alive","Cookie": "st_si=58097080196087; st_asi=delete; qgqp_b_id=7443897b6898879ff2ccc867c516cf28; EMFUND1=null; EMFUND2=null; EMFUND3=null; EMFUND4=null; EMFUND5=null; EMFUND6=null; EMFUND7=null; ASP.NET_SessionId=ara523stptbsluodcwpalkrv; searchbar_code=001323; EMFUND0=null; EMFUND8=04-17%2000%3A04%3A19@%23%24%u4E1C%u5434%u79FB%u52A8%u4E92%u8054%u6DF7%u5408C@%23%24002170; EMFUND9=04-17 00:05:09@#$%u4E1C%u5434%u79FB%u52A8%u4E92%u8054%u6DF7%u5408A@%23%24001323; st_pvi=04007721649495; st_sp=2022-12-16%2010%3A38%3A55; st_inirUrl=https%3A%2F%2Fwww.1234567.com.cn%2F; st_sn=81; st_psi=2024041722594817-112200305283-3132686277","Host": "fundf10.eastmoney.com","Referer": "https://fundf10.eastmoney.com/ccmx_002170.html","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}if __name__ == '__main__':print(f'-------------------------开始爬取基金十大重仓股-----------------------')fund_code = "002170"year = 2024month = 1url = f'https://fundf10.eastmoney.com/FundArchivesDatas.aspx?type=jjcc&code={fund_code}&topline=10&year={year}&' \f'month={month}&rt=0.5428172332180803' \try:# 1. 爬取数据response = requests.get(url=url, headers=headers)response.raise_for_status()  # Raises an exception for HTTP errorsprint(f'-------------------------1. 成功爬取数据-----------------------')# 使用正则表达式提取股票名称、代码、占比、持股数、持股市值matches = re.findall(r'href=.*?>(\d+)</a></td><td class=\'tol\'><a.*?>(.*?)</a></td><td class=\'tor\'><span.*?></span></td>'r'<td class=\'tor\'><span.*?></span></td><td class=\'xglj\'><a.*?>.*?</a><a.*?>.*?</a><a.*?>.*?</a></td>'r'<td class=\'tor\'>(.*?)</td><td class=\'tor\'>(.*?)</td><td class=\'tor\'>(.*?)</td></tr>',response.text)fund_top_ten_df = pd.DataFrame(matches, columns=['GPDM', 'GPMC', 'CCZB', 'CCS', 'CCSZ'])# 数据包含了逗号,去掉逗号并转换为浮点数fund_top_ten_df['CCS'] = fund_top_ten_df['CCS'].str.replace(',', '').astype(float)fund_top_ten_df['CCSZ'] = fund_top_ten_df['CCSZ'].str.replace(',', '').astype(float)fund_top_ten_df.insert(0, 'FCODE', fund_code)fund_top_ten_df.insert(6, 'TDATE', str(year)+'-'+str(month))print(fund_top_ten_df)print(f'-------------------------2. 完成解析数据-----------------------')# 3. 数据入库pymysql.install_as_MySQLdb()engine: sqlalchemy.engine.Engine = sqlalchemy.create_engine('mysql://root:282013@localhost/xjjjj?charset=utf8', pool_size=50, pool_recycle=200)fund_top_ten_df.to_sql('fund_top_ten', con=engine, if_exists='append', index=False)print(f'-------------------------3. 完成数据入库-----------------------')except requests.exceptions.RequestException as e:print(f"Error fetching data: {e}")

数据库

-- ----------------------------
-- Table structure for fund_top_ten
-- ----------------------------
DROP TABLE IF EXISTS `fund_top_ten`;
CREATE TABLE `fund_top_ten`  (`FCODE` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL COMMENT '基金代码',`GPDM` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL DEFAULT '' COMMENT '股票代码',`GPMC` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '股票名称',`CCZB` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '持仓占比',`CCS` double(16, 8) DEFAULT NULL COMMENT '持仓数(万股)',`CCSZ` double(16, 8) DEFAULT NULL COMMENT '持仓市值(万元)',`TDATE` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '状态日期'
) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;SET FOREIGN_KEY_CHECKS = 1;

结果

执行情况
入库情况

预告

下一期:待定

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/825073.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java中类装载的执行过程

类装载的执行过程 类从加载到虚拟机中开始&#xff0c;直到卸载为止&#xff0c;它的整个生命周期包括了&#xff1a;加载、验证、准备、解析、初始化、使用和卸载这7个阶段。其中&#xff0c;验证、准备和解析这三个部分统称为连接&#xff08;linking&#xff09;。 1.加载 …

第一天学C++(C++入门)

一、HelloWorld &#xff08;第一个C入门程序&#xff09; 1.1代码 #include<iostream> using namespace std; // 1.单行注释// 2. 多行注释 /* main 是一个程序的入口 每个程序都必须有这么一个函数 有且仅有一个 */ int main() {// 第九行代码的含义就是在屏幕中输出…

果园系统养殖游戏喂养偷菜种植浇水养成小程序

装扮 通过购买装扮场景切换不同的农场风格 土地升级 通过特定的材料对土地和房屋进行升级 日志 记录道具的使用数量及金币农作物的收入情况 幸运转盘 可用金币进行抽奖 宝箱开启 获得宝箱后可以通过金币开启 每日签到 每日签到获得奖励 系统公告 可以第一时间知道游戏的更新和…

【安全】查杀linux挖矿病毒 kswapd0

中毒现象 高cpu占用&#xff0c;使用top命令查看cpu使用率长时间50%以上&#xff0c;cpu占用异常的进程八成就是挖矿病毒进程 此病毒隐藏了自己&#xff0c;top命令无法查看到挖矿病毒进程&#xff0c;可通过sysdig命令找到隐藏进程 安装sysdig curl -s https://s3.amazonaw…

2024年软件开发行业的薪资水平在下滑的原因?

下降的原因主要包括&#xff1a; 科技行业竞争加剧&#xff1a;随着科技行业竞争的加剧&#xff0c;企业为了压缩成本&#xff0c;开始降低程序员的薪资水平。 人才供应过剩&#xff1a;在计算机成为热门学科的同时&#xff0c;社会上出现了对IT业泡沫和虚假繁荣的质疑。大量…

vue-textarea光标位置插入指定元素

vue-textarea光标位置插入指定元素 需求 点击插入关键字的时候把内容插入到光标所在的位置 效果图 实现 html <div class"temlate-container"><div class"template-content"><el-inputref"modelContent"v-model"mould.m…

嵌入式学习56-ARM5(linux驱动启动程序)

知识零碎&#xff1a; bootm&#xff1a; 启动内核同时给内核传参 …

怎么给一个字典进行按值或key来排序?

字典是具有指定数字或键的特定数据集或组。在 Python 以外的编程语言中&#xff0c;它们也被称为哈希映射或关联数组。 一般来说&#xff0c;它是键值对的形式&#xff0c;就像现实世界的字典一样。 要创建字典&#xff0c;请从左括号开始&#xff0c;添加键并键入一个冒号。…

Leetcode86_分隔链表

1.leetcode原题链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 2.题目描述 给你一个链表的头节点 head 和一个特定值 x &#xff0c;请你对链表进行分隔&#xff0c;使得所有 小于 x 的节点都出现在 大于或等于 x 的节点之前。 你应当 保留 两个分区中每个节点的…

回文链表leecode

回文链表 偶数情况奇数情况 回文链表leecode 偶数情况 public boolean isPalindrome(ListNode head) {if (head null) {return true;}ListNode fast head;ListNode slow head;while (fast ! null && fast.next ! null) {fast fast.next.next;slow slow.next;}//反…

【spring】@Resource注解学习

Resource介绍 在Spring框架中&#xff0c;Resource 注解是一个JSR-250标准注解&#xff0c;用于自动装配&#xff08;autowiring&#xff09;Spring容器中的bean。Resource 注解可以用于字段、方法和方法参数上&#xff0c;以声明依赖注入。 Resource源码 Target({TYPE, FIE…

Python相关性分析

分析连续变量之间线性相关程度的强弱&#xff0c;并用适当的统计指标表示出来的过程称为相关分析。 可以直接绘制散点图&#xff0c;或者绘制散点图矩阵&#xff0c;或者计算相关系数来进行相关分析。 相关系数的计算如下所示&#xff1a; 示例数据&#xff1a; 计算百合酱蒸…

HarmonyOS Next 视频弹幕功能

视频弹幕功能 介绍 本示例介绍如何使用ohos.danmakuflamemaster和ohos.gsyvideoplayer开发支持视频弹幕的播放器。可以自定义弹幕样式、占据屏幕宽度&#xff0c;发送弹幕&#xff0c;开关弹幕视图。 效果图预览 使用说明 点击播放按钮&#xff0c;进行视频播放&#xff0c…

【C语言】qsort()函数排序及其模拟实现,万物皆可排!

&#x1f525;博客主页&#x1f525;&#xff1a;【 坊钰_CSDN博客 】 欢迎各位点赞&#x1f44d;评论✍收藏⭐ 目录 1. 函数介绍 2. qsort举例排列整型变量 3. qsort举例排列结构型变量 3.1 按名字排序 3.1.1 srtcmp函数 3.2 按年龄排序 4. qsort函数模拟实现(采用冒泡的…

[Python]可视化地展示出表格中某一列同一数据的出现次数

前言 Matplotlib画图工具的官网地址是 http://matplotlib.org/ Python环境下实现Matlab制图功能的第三方库&#xff0c;需要numpy库的支持&#xff0c;支持用户方便设计出二维、三维数据的图形显示&#xff0c;制作的图形达到出版级的标准。 pandas 是 Python 编程语言中一个…

PHP 使用 PHPMailer 发送电子邮件

1. PHPMailer 介绍 phpMailer 是一个非常强大的 php 发送邮件扩展包&#xff0c;可以设定发送邮件地址、回复地址、邮件主题、html邮件内容和上传附件等&#xff0c;使用起来非常方便。它目前有着有近 4 千万的下载量&#xff0c;是 PHP 开发者实现邮件发送功能的首选扩展包 它…

12.基础乐理-半音、全音

音是有高有底的&#xff0c;音的震动频率越高、音的赫兹越高&#xff0c;我们就说这个音越高&#xff0c;钢琴从左到右&#xff0c;音是逐渐变高的&#xff0c;因变高&#xff0c;它的频率&#xff0c;Hz数是在增加的&#xff0c;如下图&#xff1a; 但是赫兹它动不动就是几百几…

NPL预训练模型-GPT-3

简介及特点 GPT-3是一个由OpenAI开发的自然语言处理&#xff08;NLP&#xff09;预训练模型&#xff0c;它是生成式预训练变换器&#xff08;Generative Pretrained Transformer&#xff09;系列的第三代模型。GPT-3以其巨大的规模和强大的语言处理能力而闻名&#xff0c;具有…

爬虫 | 基于 Python 实现有道翻译工具

Hi&#xff0c;大家好&#xff0c;我是半亩花海。本项目旨在利用 Python 语言实现一个简单的有道翻译工具。有道翻译是一款常用的在线翻译服务&#xff0c;能够实现多种语言的互译&#xff0c;提供高质量的翻译结果。 目录 一、项目功能 二、注意事项 三、代码解析 1. 导入…

DC-9渗透测试复现

DC-9渗透测试复现 目的&#xff1a; 获取最高权限以及flag 过程&#xff1a; 信息打点--sql注入- 文件包含漏洞-Knockd开门开启ssh连接-hyjra爆破-sudo提权(文件追加) 环境&#xff1a; 攻击机&#xff1a;kali(192.168.85.137) 靶机&#xff1a;DC_3(192.168.85.141) …