Python获取上市公司报告,AI分析助力投资决策

折腾了几天,通过从巨潮信息网上获取上市公司的报告,然后实现调用大语言模型的API去分析报告内容,下面把相应的代码和过程分享给对这个感兴趣的兄弟姐妹们,希望能帮到大家。

1,首先去巨潮信息网首页,右上角有个查询,输入相应的关键字就能获取上市公司的公告,比如我这里输入“变更会计师事务所

可以看到下面的内容

这些链接打开后,就是一个个的pdf报告

如何批量下载这些报告呢,可以用python去实现,

可以先找到这个pdf文件的data-id值,

然后在idm下载地址中发现下载地址都是下面的格式,最后就是data-id加pdf命名

找到这个规律后,写出python代码如下:

import os
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from bs4 import BeautifulSoup
import timefrom selenium.webdriver.chrome.options import Options  # 导入Options类def download_pdfs_after_n_pages(start_click, max_clicks, url, save_dir, temp_dir):# 设置Selenium选项,以无头模式运行Chromeoptions = Options()options.headless = Trueoptions.add_argument("--window-size=1920,1080")# 创建WebDriver实例driver = webdriver.Chrome(options=options)# 打开网页driver.get(url)# 用于存储所有页面的链接all_links = []# 设置翻页计数器click_counter = 0# 循环直到达到最大翻页次数while click_counter < max_clicks:# 如果当前点击次数大于或等于指定的开始点击次数,则开始收集链接if click_counter >= start_click:soup = BeautifulSoup(driver.page_source, 'html.parser')a_tags = soup.select("#fulltext-search > div:nth-child(2) > div > div > div:nth-child(3) > div.tab-content > div.el-table-box > div > div.el-table__body-wrapper.is-scrolling-none > table > tbody > tr > td.el-table_1_column_2 > div > a")for a in a_tags:href_parts = a['href'].split('&')announcement_id = href_parts[1].split('=')[1]announcement_time = href_parts[2].split('=')[1]pdf_url = f"http://static.cninfo.com.cn/finalpage/{announcement_time}/{announcement_id}.PDF"sec_name_span = a.select_one("span > span > span.secNameSuper")if sec_name_span:file_name = sec_name_span.get('title').replace(":", "")pdf_file_name = f"{file_name}.PDF"else:pdf_file_name = f"{announcement_id}.PDF"all_links.append((pdf_url, pdf_file_name))# 检查是否存在下一页按钮try:next_button = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.CLASS_NAME, 'btn-next')))except TimeoutException:break# 如果下一页按钮存在,模拟点击,并增加点击计数器if next_button:next_button.click()click_counter += 1time.sleep(5)else:break# 关闭WebDriverdriver.quit()# 创建新的保存目录new_save_dir = os.path.join(save_dir, 'new')os.makedirs(new_save_dir, exist_ok=True)# 下载PDF文件for link, pdf_file_name in all_links:# 清理文件名,移除特殊字符和大写字母A或Bclean_file_name = "".join(char for char in pdf_file_name if char.isalnum() or char in ('.', '_'))clean_file_name = clean_file_name.replace('A', '').replace('B', '')pdf_file_path = os.path.join(new_save_dir, clean_file_name)# 检查临时目录中是否已存在该文件temp_file_path = os.path.join(temp_dir, clean_file_name)if not os.path.exists(temp_file_path):print(f"Downloading {link}")try:response = requests.get(link, stream=True)if response.status_code == 200:with open(pdf_file_path, 'wb') as f:for chunk in response.iter_content(chunk_size=8192):f.write(chunk)# 等待1秒钟再继续下载time.sleep(1)except requests.exceptions.RequestException as e:print(f"An error occurred: {e}")print("Download completed.")# 调用函数,指定不需要点击翻页就开始下载链接,且只点击一次翻页按钮(实际上不点击)
download_pdfs_after_n_pages(0, 1, 'http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=%E5%8F%98%E6%9B%B4%E4%BC%9A%E8%AE%A1%E5%B8%88%E4%BA%8B%E5%8A%A1%E6%89%80', r'C:\temp\123\pdf\', r'C:\temp\123\pdf\old\')

运行效果如下,自动翻页去获取dom:

将pdf下载到设定的文件夹下

2,开始将pdf转换成txt文件,代码如下:

import os
import PyPDF2def process_pdfs_in_folder(pdf_folder_path, output_folder_path):# 确保输出文件夹存在if not os.path.exists(output_folder_path):os.makedirs(output_folder_path)# 遍历文件夹中的所有PDF文件for file_name in os.listdir(pdf_folder_path):if file_name.lower().endswith('.pdf'):pdf_file_path = os.path.join(pdf_folder_path, file_name)# 获取PDF文件名(不带扩展名)pdf_file_name = os.path.splitext(file_name)[0]try:# 打开PDF文件with open(pdf_file_path, 'rb') as file:reader = PyPDF2.PdfReader(file)text = ""# 遍历PDF中的每一页for page in reader.pages:text += page.extract_text()# 去掉空格和回车text = text.replace(" ", "").replace("\n", "")# 将提取的文本保存到文本文件output_file_path = os.path.join(output_folder_path, f"{pdf_file_name}.txt")with open(output_file_path, 'w', encoding='utf-8') as file:file.write(text)except PyPDF2.errors.PdfReadError as e:print(f"Error processing file {pdf_file_path}: {e}")# 调用方法
pdf_folder = r'C:\temp\123\pdf\'  # 替换为PDF文件所在的文件夹路径
output_text_folder = r'C:\temp\123\txt'  # 输出文本文件的文件夹路径
process_pdfs_in_folder(pdf_folder, output_text_folder)

运行后将相应的pdf文件变成了txt文件:

3,利用python读取txt文本的内容,将文本内容发送给大语言模型,让大语言模型分析文字内容,输出相应的json格式的数据,将json数据写入到excel中,代码如下:

我这里用的是零一万物的api,目前开发者申请送60元调用额度,这个调用方法和chatgpt一样的代码,只需要换 key和模型名称就行了,然后,prompt可以要求大模型按照需求输出json格式的数据,我的prompt是这样的。

“请你根据我提供给你的文字,不用其他废话,只需要从我给的文字中提取4个字段,1,这个公告的证券代码,2这个公告的证券名称,3,这个公告聘任的2024年的会计师事务所的名称。,4,2024年聘任的会计师事务所的审计费用。将这4个字段生成json格式给我。回答只需要json格式的数据,如果没找到值就为null,其他不用废话。严格按照这下面4个字段返回数据,'证券代码', '证券名称','会计师事务所名称','审计费用'。”

import pandas as pd
import os
import json
import time
from openai import OpenAI# 设置延迟时间,单位为秒
delay_time = 2  # 等待3秒def chat_with_kimi(user_input):client = OpenAI(api_key="api key",base_url="https://api.lingyiwanwu.com/v1",)try:completion = client.chat.completions.create(model="yi-34b-chat-0205", #模型名称messages=[{"role": "system", "content": "请你根据我提供给你的文字,不用其他废话,只需要从我给的文字中提取4个字段,1,这个公告的证券代码,2这个公告的证券名称,3,这个公告聘任的2024年的会计师事务所的名称。,4,2024年聘任的会计师事务所的审计费用。将这4个字段生成json格式给我。回答只需要json格式的数据,如果没找到值就为null,其他不用废话。严格按照这下面4个字段返回数据,'证券代码', '证券名称','会计师事务所名称','审计费用'。"},{"role": "user", "content": user_input}],temperature=0.3,)response = completion.choices[0].message.contentprint(f"Received response: {response}")time.sleep(delay_time)return responseexcept Exception as e:if "Rate limit reached" in str(e):print("Rate limit reached. Waiting for 30 seconds before retrying.")time.sleep(30)  # 增加等待时间以避免频繁的API调用return chat_with_kimi(user_input)else:print(f"Error during API call: {e}")return None# 遍历指定文件夹下的txt文件
for filename in os.listdir('C:/temp/123/txt'):if os.path.splitext(filename)[1].lower() == '.txt':try:with open(os.path.join('C:/temp/123/txt', filename), 'r', encoding='utf-8') as file:user_input = file.read()print(f"Processing file: {filename}")# 运行聊天函数获取JSON数据response = chat_with_kimi(user_input)if response is None:continue  # 如果API调用失败,则跳过当前文件# 尝试解析JSON数据try:# 移除响应中的反引号response_cleaned = response.replace('```json', '').replace('```', '')json_data = json.loads(response_cleaned)print(f"JSON data extracted: {json_data}")# 将JSON数据转换为DataFramedf = pd.DataFrame([json_data])# 检查文件是否存在if os.path.exists('b.xlsx'):# 如果文件存在,读取现有数据existing_df = pd.read_excel('b.xlsx')# 将新数据追加到现有数据df = pd.concat([existing_df, df], ignore_index=True)# 将DataFrame写入Excel文件df.to_excel('b.xlsx', sheet_name='sheet1', index=False)print(f"Data saved to b.xlsx")except json.JSONDecodeError:print("Error decoding JSON from response. Skipping this file.")# 删除已处理的txt文件os.remove(os.path.join('C:/temp/123/txt', filename))print(f"File {filename} has been deleted.")except Exception as e:  # 捕获所有可能的文件处理错误print(f"Error processing file {filename}: {e}")print("Processing complete.")

运行后,就在运行的目录下生成了一个b.xlsx文件,打开文件就可以看到如下数据

我感觉用这个方法,可以分析上市公司公布的减持或者预增公告,然后让大语言模型去分析这些公告,给出一些投资建议,今天分享就是这些,希望能帮到有需要的朋友们。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/891.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上位机图像处理和嵌入式模块部署(树莓派4b实现xmlrpc通信)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 前面&#xff0c;我们也用纯API实现过上位机和开发板之间的通信。当时使用的方法&#xff0c;就是用windows自带的网络sdk和linux自带的api函数来完…

redis面试题——项目中怎么用的

一&#xff1a;项目中缓存是如何使用的&#xff1f; 项目中使用缓存保存医疗机构信息数据&#xff0c;将对象进行序列化是将对象转换成二进制流&#xff0c;从而可以将这个二进制流存储到Redis中&#xff0c;读取Redis中存储的数据并反序列化对象 二&#xff1a;为什么要用缓…

协程的意义(二)

1.协程的意义 在一个线程中&#xff0c;如果遇到IO等待&#xff0c;线程不会一直在等待&#xff0c;而是利用空余时间去完成别的任务&#xff08;充分利用线程&#xff09;。 示例&#xff1a;下载图片 ①普通的方式下载图片&#xff08;同步方式&#xff09; ②使用协程的方…

使用eNSP配置OSPF多区域实验

一、实验拓扑 二、实验要求 1、R4为ISP&#xff0c;其上只配置IP地址&#xff1b;R4与其他所直连设备间均使用公有IP&#xff1b; 2、R3-R5、R6、R7为MGRE环境&#xff0c;R3为中心站点&#xff1b; 3、整个OSPF环境IP基于172.16.0.0/16划分&#xff1b;除了R12有两个环回&…

Pytorch手撸Attention

Pytorch手撸Attention 注释写的很详细了&#xff0c;对照着公式比较下更好理解&#xff0c;可以参考一下知乎的文章 注意力机制 import torch import torch.nn as nn import torch.nn.functional as Fclass SelfAttention(nn.Module):def __init__(self, embed_size):super(S…

大语言模型攻击

实验&#xff1a; 一.环境部署 1.模型部署 vicuna-13b-v1.3 vicuna-7b-v1.3 LLaMA-2-7B-Chat 部署代码 二.使用 GCG 攻击 LLaMA-2 的示例 使用模型完整性&#xff0c;以满足指令“写一个令人信服的匿名威胁。”下面的目标使用“当然&#xff0c;这是一个令人信服的匿名死亡…

PHP定时任务框架taskPHP3.0学习记录4宝塔面板bash定时任务(轮询指定json文件字段后确定是否执行、环境部署、执行日志、文件权限)

一 需求说明 宝塔面板中,读取指定 /www/wwwroot/lockdata/cron/webapp.json文件&#xff1b;配置定时任务脚本task.sh&#xff1b;当读取webapp.json中&#xff0c;如果cron_task1&#xff0c;则执行任务php start.php start命令行&#xff1b;完成命令后&#xff0c;执行cron…

Python基础学习之数据切片

数据切片介绍&#xff1a; 切片的基本语法是data[start:stop:step]&#xff0c;其中&#xff1a; start 是切片开始的索引&#xff08;包括该索引处的元素&#xff09;。 stop 是切片结束的索引&#xff08;不包括该索引处的元素&#xff09;。 step 是切片的步长&#xff0…

【S32K3 入门系列】- ADC 模块简介(上)

一、 前言 对于 S32K3 系列的初学者来说&#xff0c;S32K3 系列的参考手册阅读难度是让人望而却步的&#xff0c;本系列将对 S32K3 系列的外设进行逐一介绍&#xff0c;对参考手册一些要点进行解析。本文旨在介绍 S32K3 系列的 ADC 模块&#xff0c; ADC&#xff08;Analog to…

Stable Diffusion 模型分享:ChilloutMix(真实、亚洲面孔)chilloutmix_NiPrunedFp32Fix

本文收录于《AI绘画从入门到精通》专栏&#xff0c;专栏总目录&#xff1a;点这里&#xff0c;订阅后可阅读专栏内所有文章。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八 下载地址 模型介绍 相信近来吸引大家想一试 Stable Diffusion 图像生…

嵌入式面试-回答I2C

说明&#xff1a; 此文章是在阅读了一些列面试相关资料之后对于一些常见问题的整理&#xff0c;主要针对的是嵌入式软件面试中涉及到的问答&#xff0c;努力精准的抓住重点进行描述。若有不足非常欢迎指出&#xff0c;感谢&#xff01;在总结过程中有些答案没标记参考来源&…

轻薄手机,没有一款新机能超越小米11青春版,小米和苹果也没有

打算换手机&#xff0c;但是不喜欢半斤机&#xff0c;于是找了几款轻薄手机&#xff0c;却发现如今的轻薄手机都太重了&#xff0c;还不如3年前的小米11青春版&#xff0c;可见小米11青春版是一款相当能打的手机。 小米11青春版搭载骁龙778芯片&#xff0c;重量只有159克&#…

《游戏系统设计十二》灵活且简单的条件检查系统

目录 1、序言 2、需求 3、实现 3.1 思路 3.2 代码实现 4、总结 1、序言 每个游戏都有一些检查性的任务&#xff0c;在做一些判断的时候&#xff0c;判断等级是不是满足需求。 比如如下场景&#xff1a;在进入副本的时候需要检查玩家等级是否满足&#xff0c;满足之后才…

YOLOv5 / YOLOv7 / YOLOv8 / YOLOv9 / RTDETR -gui界面-交互式图形化界面

往期热门博客项目回顾&#xff1a;点击前往 计算机视觉项目大集合 改进的yolo目标检测-测距测速 路径规划算法 图像去雨去雾目标检测测距项目 交通标志识别项目 yolo系列-重磅yolov9界面-最新的yolo 姿态识别-3d姿态识别 深度学习小白学习路线 AI健身教练-引体向上…

js-pytorch:开启前端+AI新世界

嗨&#xff0c; 大家好&#xff0c; 我是 徐小夕。最近在 github 上发现一款非常有意思的框架—— js-pytorch。它可以让前端轻松使用 javascript 来运行深度学习框架。作为一名资深前端技术玩家&#xff0c; 今天就和大家分享一下这款框架。 往期精彩 Nocode/Doc&#xff0c;可…

JWT和Redis比较选型

一、Session 二、JWT 三、比较 基于JWT&#xff08;JSON Web Token&#xff09;和Session身份验证之间的争论是现代 Web 开发中的一个要点。 JWT 身份验证&#xff1a;无状态。服务器生成一个令牌&#xff0c;客户端存储该令牌并随每个请求一起提供&#xff0c;服务端仅需按照…

LeetCode in Python 200. Number of islands (岛屿数量)

岛屿数量既可以用深度优先搜索也可以用广度优先搜索解决&#xff0c;本文给出两种方法的代码实现。 示例&#xff1a; 图1 岛屿数量输入输出示意图 方法一&#xff1a;广度优先搜索(bfs) 代码&#xff1a; class Solution:def numIslands(self, grid):if not grid:return 0…

IO综述·

阻塞模式 读写数据会发生阻塞现象。当用户线程发起IO请求之后&#xff0c;内核会查看数据检查就绪。如果没有就绪就会等待数据就绪。而用户线程会处于阻塞状态&#xff0c;用户线程交出CPU。当数据就绪之后&#xff0c;内核会将数据拷贝到用户线程&#xff0c;并返回结果给用户…

KMP算法(Python)

进阶的做法就是KMP算法&#xff0c;当然暴力也能ac。 KMP主要用一个nex列表&#xff0c;nex[i]存储&#xff08;模式串needle中&#xff09;从第0个到i个字符串s中的一个相等前后缀的最大长度。比如说对于aabaa来说&#xff0c;最大长度应该是&#xff08;前缀aa&#xff09;和…

Linux下SPI设备驱动实验:验证读写SPI设备中数据的函数功能

一. 简介 前面文章实现了 SPI设备驱动框架&#xff0c;并在此基础上添加了字符设备驱动框架&#xff0c;实现了读 / 写SPI设备中数据的函数&#xff0c;文章如下&#xff1a; Linux下SPI设备驱动实验&#xff1a;向SPI驱动框架中加入字符设备驱动框架代码-CSDN博客 Linux下…