获取公募基金持仓【数据分析系列博文】

摘要

从指定网址获取公募基金持仓数据,快速解析并存储数据。
(该博文针对自由学习者获取数据;而在投顾、基金、证券等公司,通常有Wind、聚源、通联等厂商采购的数据)

1. 导入必要的库:
pandas 用于数据处理和操作。
requests 用于发送 HTTP 请求并获取响应。
re 用于正则表达式的匹配,用来从网页源代码中提取所需数据。
sqlalchemy 用于数据库操作。
pymysql 用于连接 MySQL 数据库。

2. 定义请求头部信息:
包括 Accept、Accept-Encoding、Accept-Language、Cache-Control、Connection、Cookie、Host、Referer 和 User-Agent。这些信息模拟了浏览器向服务器发送请求的情况,以防止被服务器拒绝或误认为是爬虫。

3. 主程序逻辑:
使用 requests.get() 方法发送 HTTP GET 请求获取网页源代码。 使用
response.raise_for_status() 检查请求是否成功,若出现 HTTP 错误则抛出异常。
使用正则表达式从网页源代码中提取股票名称、代码、占比、持股数和持股市值等信息,并将其保存到 DataFrame 中。 对于
DataFrame 中的数据,去除其中的逗号并将其转换为浮点数类型。 在 DataFrame 中插入基金代码和日期信息。 将处理后的
DataFrame 数据写入 MySQL 数据库中。
4. 异常处理:
捕获 requests.exceptions.RequestException 异常,以处理可能的网络请求异常。

源码

import pandas as pd
import requests
import re
import sqlalchemy
import pymysql"""desc: 采集公募基金十大重仓author: xiong
"""headers = {"Accept": "*/*","Accept-Encoding": "gzip, deflate, br, zstd","Accept-Language": "zh-CN,zh;q=0.9","Cache-Control": "no-cache","Connection": "keep-alive","Cookie": "st_si=58097080196087; st_asi=delete; qgqp_b_id=7443897b6898879ff2ccc867c516cf28; EMFUND1=null; EMFUND2=null; EMFUND3=null; EMFUND4=null; EMFUND5=null; EMFUND6=null; EMFUND7=null; ASP.NET_SessionId=ara523stptbsluodcwpalkrv; searchbar_code=001323; EMFUND0=null; EMFUND8=04-17%2000%3A04%3A19@%23%24%u4E1C%u5434%u79FB%u52A8%u4E92%u8054%u6DF7%u5408C@%23%24002170; EMFUND9=04-17 00:05:09@#$%u4E1C%u5434%u79FB%u52A8%u4E92%u8054%u6DF7%u5408A@%23%24001323; st_pvi=04007721649495; st_sp=2022-12-16%2010%3A38%3A55; st_inirUrl=https%3A%2F%2Fwww.1234567.com.cn%2F; st_sn=81; st_psi=2024041722594817-112200305283-3132686277","Host": "fundf10.eastmoney.com","Referer": "https://fundf10.eastmoney.com/ccmx_002170.html","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}if __name__ == '__main__':print(f'-------------------------开始爬取基金十大重仓股-----------------------')fund_code = "002170"year = 2024month = 1url = f'https://fundf10.eastmoney.com/FundArchivesDatas.aspx?type=jjcc&code={fund_code}&topline=10&year={year}&' \f'month={month}&rt=0.5428172332180803' \try:# 1. 爬取数据response = requests.get(url=url, headers=headers)response.raise_for_status()  # Raises an exception for HTTP errorsprint(f'-------------------------1. 成功爬取数据-----------------------')# 使用正则表达式提取股票名称、代码、占比、持股数、持股市值matches = re.findall(r'href=.*?>(\d+)</a></td><td class=\'tol\'><a.*?>(.*?)</a></td><td class=\'tor\'><span.*?></span></td>'r'<td class=\'tor\'><span.*?></span></td><td class=\'xglj\'><a.*?>.*?</a><a.*?>.*?</a><a.*?>.*?</a></td>'r'<td class=\'tor\'>(.*?)</td><td class=\'tor\'>(.*?)</td><td class=\'tor\'>(.*?)</td></tr>',response.text)fund_top_ten_df = pd.DataFrame(matches, columns=['GPDM', 'GPMC', 'CCZB', 'CCS', 'CCSZ'])# 数据包含了逗号,去掉逗号并转换为浮点数fund_top_ten_df['CCS'] = fund_top_ten_df['CCS'].str.replace(',', '').astype(float)fund_top_ten_df['CCSZ'] = fund_top_ten_df['CCSZ'].str.replace(',', '').astype(float)fund_top_ten_df.insert(0, 'FCODE', fund_code)fund_top_ten_df.insert(6, 'TDATE', str(year)+'-'+str(month))print(fund_top_ten_df)print(f'-------------------------2. 完成解析数据-----------------------')# 3. 数据入库pymysql.install_as_MySQLdb()engine: sqlalchemy.engine.Engine = sqlalchemy.create_engine('mysql://root:282013@localhost/xjjjj?charset=utf8', pool_size=50, pool_recycle=200)fund_top_ten_df.to_sql('fund_top_ten', con=engine, if_exists='append', index=False)print(f'-------------------------3. 完成数据入库-----------------------')except requests.exceptions.RequestException as e:print(f"Error fetching data: {e}")

数据库

-- ----------------------------
-- Table structure for fund_top_ten
-- ----------------------------
DROP TABLE IF EXISTS `fund_top_ten`;
CREATE TABLE `fund_top_ten`  (`FCODE` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL COMMENT '基金代码',`GPDM` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL DEFAULT '' COMMENT '股票代码',`GPMC` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '股票名称',`CCZB` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '持仓占比',`CCS` double(16, 8) DEFAULT NULL COMMENT '持仓数(万股)',`CCSZ` double(16, 8) DEFAULT NULL COMMENT '持仓市值(万元)',`TDATE` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '状态日期'
) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;SET FOREIGN_KEY_CHECKS = 1;

结果

执行情况
入库情况

预告

下一期:待定

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/825073.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

本地存储、自定义事件、全局事件总线

Vue 1.1 浏览器的本地存储 存储内容大小一般支持5MB左右&#xff08;不同浏览器可能还不一样&#xff09; 浏览器通过 Window.sessionStorage 和 Window.localStorage 属性来实现本地存储机制 相关API: &#xff08;1&#xff09;xxxxStorage.setItem(key, value); 该方法接受一…

Java中类装载的执行过程

类装载的执行过程 类从加载到虚拟机中开始&#xff0c;直到卸载为止&#xff0c;它的整个生命周期包括了&#xff1a;加载、验证、准备、解析、初始化、使用和卸载这7个阶段。其中&#xff0c;验证、准备和解析这三个部分统称为连接&#xff08;linking&#xff09;。 1.加载 …

第一天学C++(C++入门)

一、HelloWorld &#xff08;第一个C入门程序&#xff09; 1.1代码 #include<iostream> using namespace std; // 1.单行注释// 2. 多行注释 /* main 是一个程序的入口 每个程序都必须有这么一个函数 有且仅有一个 */ int main() {// 第九行代码的含义就是在屏幕中输出…

果园系统养殖游戏喂养偷菜种植浇水养成小程序

装扮 通过购买装扮场景切换不同的农场风格 土地升级 通过特定的材料对土地和房屋进行升级 日志 记录道具的使用数量及金币农作物的收入情况 幸运转盘 可用金币进行抽奖 宝箱开启 获得宝箱后可以通过金币开启 每日签到 每日签到获得奖励 系统公告 可以第一时间知道游戏的更新和…

【安全】查杀linux挖矿病毒 kswapd0

中毒现象 高cpu占用&#xff0c;使用top命令查看cpu使用率长时间50%以上&#xff0c;cpu占用异常的进程八成就是挖矿病毒进程 此病毒隐藏了自己&#xff0c;top命令无法查看到挖矿病毒进程&#xff0c;可通过sysdig命令找到隐藏进程 安装sysdig curl -s https://s3.amazonaw…

2024年软件开发行业的薪资水平在下滑的原因?

下降的原因主要包括&#xff1a; 科技行业竞争加剧&#xff1a;随着科技行业竞争的加剧&#xff0c;企业为了压缩成本&#xff0c;开始降低程序员的薪资水平。 人才供应过剩&#xff1a;在计算机成为热门学科的同时&#xff0c;社会上出现了对IT业泡沫和虚假繁荣的质疑。大量…

go实现执行协成执行多个任务

大家对go语言陌生吗&#xff1f;大家有没有了解过关于go的协成呢&#xff0c;这里没有废话&#xff0c;直接上 使用go get 可以设置这个变量go env -w GOPROXYhttps://goproxy.io,direct 会使go get 更加快 package test_2import ("fmt""testing" )func w…

汉译英早操练-(十三)

hello大家好&#xff0c;这里是总想让你开心的hyssop。今天我们学点儿英语&#xff0c;填充下内心的空虚哈哈~ 不知道你拿起来一句话翻译的思路是什么&#xff0c;是应该用主动语态直抒胸臆&#xff0c;还是用被动语态强调部分&#xff1f;今天我们就来看看翻译大师李长栓老师对…

Redis数据库持久化方案

Redis数据库的持久化方案 Redis提供了两种主要的持久化方案&#xff0c;分别是RDB&#xff08;Redis DataBase&#xff09;和AOF&#xff08;Append Only File&#xff09;。 RDB&#xff08;Redis DataBase&#xff09; RDB是Redis默认的持久化方式&#xff0c;它按照一定的…

vue-textarea光标位置插入指定元素

vue-textarea光标位置插入指定元素 需求 点击插入关键字的时候把内容插入到光标所在的位置 效果图 实现 html <div class"temlate-container"><div class"template-content"><el-inputref"modelContent"v-model"mould.m…

(六)PostgreSQL的组织结构(1)-角色、数据库、schema

PostgreSQL的组织结构(1)-角色、数据库、schema 在 PostgreSQL 中&#xff0c;用户、数据库和 schema 是数据库管理和组织结构中非常基础且重要的概念。它们在定义数据库的访问权限、组织数据以及在多用户环境中管理数据方面起着核心作用。以下是每个概念的简要说明&#xff1…

全栈外包接单/远程工作(TS, React, Vue, Java, 移动端)

个人介绍 我毕业于中国某一本院校计算机专业&#xff0c;曾在北京大型软件公司从事Java开发多年&#xff0c;主要服务于全国各大头部985/211院校。后来为扩宽职业路径&#xff0c;转向了Ts全栈&#xff0c;现专注于远程外包接单工作&#xff0c;致力于打造一个能为客户带来优质…

windows命令行安装工具/包/软件后,命令行命令找不到(npm示例)

问题描述 在命令行安装工具&#xff0c;比如npm install, 或者windows自带的包管理工具&#xff0c;如Chocolatey&#xff0c;Scoop&#xff0c;WinGet等&#xff0c;安装软件后&#xff0c;然后直接在命令行运行上面安装的指令会提示命令找不到。这让经常使用linux&#xff0…

嵌入式学习56-ARM5(linux驱动启动程序)

知识零碎&#xff1a; bootm&#xff1a; 启动内核同时给内核传参 …

Ceph学习 -10.认证管理-秘钥管理

文章目录 1.秘钥管理1.1 基础知识1.2 简单实践1.3 小结 1.秘钥管理 学习目标&#xff1a;这一节&#xff0c;我们从 基础知识、简单实践、小结 三个方面来学习。 1.1 基础知识 keyring 密钥环文件是“存储机密、密码、密钥、证书并使它们可用于应用程序的组件的集合”。 密钥…

hashcode与equals

如果两个对象相等,则hashcode一定也是相同的. 两个对象相等,两个对象分别调用equals方法都返回true 两个对象有相同的hashcode值,他们也不一定相等 因此,equals方法被覆盖后,则hashcode方法也必须被覆盖.

怎么给一个字典进行按值或key来排序?

字典是具有指定数字或键的特定数据集或组。在 Python 以外的编程语言中&#xff0c;它们也被称为哈希映射或关联数组。 一般来说&#xff0c;它是键值对的形式&#xff0c;就像现实世界的字典一样。 要创建字典&#xff0c;请从左括号开始&#xff0c;添加键并键入一个冒号。…

Leetcode86_分隔链表

1.leetcode原题链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 2.题目描述 给你一个链表的头节点 head 和一个特定值 x &#xff0c;请你对链表进行分隔&#xff0c;使得所有 小于 x 的节点都出现在 大于或等于 x 的节点之前。 你应当 保留 两个分区中每个节点的…

回文链表leecode

回文链表 偶数情况奇数情况 回文链表leecode 偶数情况 public boolean isPalindrome(ListNode head) {if (head null) {return true;}ListNode fast head;ListNode slow head;while (fast ! null && fast.next ! null) {fast fast.next.next;slow slow.next;}//反…

【spring】@Resource注解学习

Resource介绍 在Spring框架中&#xff0c;Resource 注解是一个JSR-250标准注解&#xff0c;用于自动装配&#xff08;autowiring&#xff09;Spring容器中的bean。Resource 注解可以用于字段、方法和方法参数上&#xff0c;以声明依赖注入。 Resource源码 Target({TYPE, FIE…