数据清洗,筛选

本人在私募,负责数据收集以及清洗,就是包括收集数据,按照领导要求,选出满足条件的数据,用于校验策略是否正确。
现在就在这进行代码上传,即用于自己总结整理,也用于供大家学习了解,实习生到底干什么事。
数据收集:
#期权数据收集
import akshare as ak
import pandas as pd
import numpy as np
import datetime
import time
#用于将千分位数字改为常规数字
from  locale import atof
# 显示所有列
pd.set_option('display.max_columns', None)
# 显示所有行
pd.set_option('display.max_rows', None)
#收集数据,铁矿石期权的全部数据
start = '2019-02-09'
#获得全部的交易日数据
dates  = ak.tool_trade_date_hist_sina() 
today = time.strftime("%Y-%m-%d")
#筛选符合条件的日期
dates = dates.loc[(dates['trade_date']>start)&(dates['trade_date']<today)] 
#创建储存数据的DF
last = pd.DataFrame()
last_2 = pd.DataFrame()
#循环获取数据
for i in range(len(dates)):date = dates.iloc[i, 0]#print(date)# 获取当天所有合约part_1, part_2 = ak.get_dce_option_daily(trade_date= i, symbol="铁矿石期权")#print(part_1.head())#print(part_2.head())#增加日期,cp,年份,月份,行权价,part_1['date'] = datepart_1['cp'] = part_1['合约名称'].apply(lambda x: x[6:7])part_1['year'] = part_1['合约名称'].apply(lambda x: x[1:3])part_1['o_month'] = part_1['合约名称'].apply(lambda x: x[3:5])part_1['xqj'] = part_1['合约名称'].apply(lambda x: x[8:]) part_1['合约系列'] = part_1['合约名称'].apply(lambda x: x[0:5])#以日期作为indexpart_1.set_index('date',inplace=True)last = last.append(part_1)part_2.columns = [['合约系列','IV']]#增加日期,年份,月份part_2['date'] = datepart_2.set_index('date')part_2['year'] = part_2['合约系列'].apply(lambda x: x[1:3])part_2['month'] = part_2['合约系列'].apply(lambda x: x[3:])last_2 = last_2.append(part_2)
#保存数据,为方便读者复现,使用csv。(真实情况,直接存入sql数据库,各种报错,各种坑,数据缺失,格式不正确............)
last.to_csv('i.csv')
last_2.to_csv('i2.csv')

数据处理:

df = pd.read_csv('i.csv')
#默认期权持仓量为1,999这种千分位数字格式。
setlocale(LC_NUMERIC, 'English_US')
df['持仓量'] = df['持仓量'].apply(lambda x:atof(x))#根据每天的主力合约数据信息,筛选最虚值合约,分为C,P两块,且持仓量最大。
#举例:今天c端最虚c5800,持仓量1w,为c端最大持仓量,则符合条件保留。
def select_xu(df):df_c = df.loc[df['cp'] == 'C']#根据行权价排序,获得最虚值,C端取最大值。dfc = df_c.sort_values(by='xqj',ascending=True).tail(1)
#     print(df_c)
#     print(dfc)
#     print('-'*20)df_p = df.loc[df['cp']=='P']#根据行权价排序,获得最虚值,p端取最小值。dfp = df_p.sort_values(by='xqj',ascending=True).head(1)
#     print(df_p)
#     print(dfp)if max(dfc['持仓量']) == max(df_c['持仓量']) :dfc = dfcelse:dfc = Noneif max(dfp['持仓量']) == max(df_p['持仓量']) :dfp = dfpelse:dfp = Nonereturn dfc ,dfp
#目标,里面为日期和年份,月份
dfd = pd.read_excel('I.xlsx') 
last = pd.DataFrame()
last1 = pd.DataFrame()
last2 = pd.DataFrame()
if __name__ == '__main__':for i in range(len(dfd)):year = dfd.iloc[i,-2]month = dfd.iloc[i,-1]date = dfd.iloc[i,0]#筛选数据d = df.loc[(df['year']==int(year))&(df['o_month']==int(month))&(df['date']==datetime.datetime.strftime(date,'%Y-%m-%d'))]#如果数据不为空if len(d)>0:dfc,dfp =select_xu(d)if dfc is not None and dfp is not None:s = pd.merge(dfc,dfp)last = last.append(s)elif dfc is  None and dfp is not None :s = dfplast1 = last1.append(s)elif dfc is not None and dfp is  None :s = dfclast2 = last2.append(s)else:s = Noneelse:passlast.to_csv('i0.csv')last1.to_csv('i1.csv')last2.to_csv('i2.csv')

I.xlsx数据内容如下:
dfd数据格式
此时便可获得满足条件的期权数据。用于后续的校验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/449801.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JS媒体查询

样式的改变使用C3的媒体查询 行为和功能的改变使用JS的媒体查询 matchMedia()方法参数可写任何一个CSSmedia规则&#xff0c;返回的是新的MediaQueryList对象&#xff0c;该对象有两个属性 media&#xff1a;查询语句的内容matches&#xff1a;检查查询结果&#xff0c;返回boo…

Ruby初步介绍

Ruby是脚本语言,与传统的C, Java不同的是,它不需要经过编译,而是直接可以被执行 Ubuntu下执行第一个ruby脚本 print("Hello David, This is your first Ruby script.\n") davidubuntu:~/RubyTrain/Basic$ ruby Hello.rb 运行结果: Hello David, This is your first R…

C/C++ main用法总结

今天看到一篇很好的文章&#xff0c;详细的讲解了C、C中的main函数&#xff0c;以及returne的用法。转载过来大家一起分享下。转自&#xff1a;http://www.cnblogs.com/ct6816678/archive/2012/10/26/2741824.htmlreturn是C预定义的语句&#xff0c;当return语句提供了一个值时…

如何将数据写入excel中,而不覆盖原有数据

之前直接用pandas库&#xff0c;然后to_excel&#xff08;&#xff09;&#xff0c;结果直接将原始数据直接覆盖&#xff0c;幸亏有备份。&#xff08;友善提醒&#xff0c;做数据处理之前&#xff0c;先将数据本地备份一份&#xff0c;确认完全没有问题&#xff0c;然后还是备…

对List集合中的元素进行排序

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 ollections对List集合中的数据进行排序 有时候需要对集合中的元素按照一定的规则进行排序&#xff0c;这就需要用到 Java中提供的对集合…

Jmeter----5.1 设置中文

注意&#xff1a;JMeter5需要Java8 以上&#xff0c;本文环境是Win7 64位 设置永久默认汉化&#xff1a;在Jmeter的安装目录下的bin目录中找到 jmeter.properties这个文件&#xff0c;用文本编辑器打开。在#languageen下面插入一行languagezh_CN 这样&#xff0c;再次打开Jmete…

pandas计算移动平均值

本人今天遇到遇到一个任务&#xff0c;计算同月份合约当天各合约总持仓量的移动平均值。立刻写下了这个函数&#xff1a; group df.groupby([合约系列,date]) f pd.DataFrame(group[持仓量].sum().rolling(20).mean()) 上交后&#xff0c;提出要求&#xff0c;不行&#xff…

一个优美的架构需要考虑的几个问题

随着公司的架构逐步发展&#xff0c;越来越多的问题被提出来&#xff0c;也发现一个良好的技术架构需要考虑的问题 1 架构的可扩展性 这里面又包括以下几个方面 水平垂直可拆分服务无状态数据可缓存可异步处理&#xff08;提高性能&#xff09;可复制&#xff08;提高效率&…

HSTS的来龙去脉

前言 安全经常说“云、管、端”&#xff0c;“管”指的是管道&#xff0c;传输过程中的安全。为了确保信息在网络传输层的安全&#xff0c;现在很多网站都开启了HTTPS&#xff0c;也就是HTTPTLS&#xff0c;在传输过程中对信息进行加密。HTTPS使用了对称加密、非对称加密、消息…

利用XShell上传、下载文件(使用sz与rz命令) 超实用!

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 rz、sz 安装方式&#xff1a;sz/rz命令安装方式 借助XShell&#xff0c;使用linux命令sz可以很方便的将服务器上的文件下载到本地&#…

quantaxis使用docker安装,解决了一个很奇特的问题

之前使用docker-compose pull 更新之后&#xff0c;使用docker-compose up进行安装。出现 qaweb显示address already in web,cmd中显示Starting qa_web is wrong。之前一直觉得什么毛病啊&#xff0c;试了很多办法。 比如关闭8010接口&#xff1a; netstat -ano|findstr “801…

基础数学落后与高端人才流失

这个话题令人感到很痛苦&#xff0c;也很无奈。我本不该提起这个话题。但是&#xff0c;无穷小微积分专业网站不久即将开通&#xff0c;我不得不认真备课&#xff0c;仔细研读 J.Keisler 的“初等微积分”电子版教材。在研究该教材内容的过程中&#xff0c;参照国内的《高等数学…

Datawhale MySQL 训练营 Task2 查询语句

目录 MySQL 管理MySQL 用户管理 参考数据库管理SQ查询语句1. 导入示例数据库&#xff0c;教程 MySQL导入示例数据库2. 查询语句 SELECT3. 筛选语句 WHERE &#xff0c;过滤4. 分组语句 GROUP BY5. 排序语句 ORDER BY6. 函数作业总结MySQL 管理 MySQL版本 8.0.15 MySQL 用户管理…

记录一个相当好用的反编译工具下载地址

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 下载地址见&#xff1a;https://download.csdn.net/download/stoneepigraph/9817144 下载后直接双击该程序就可以用&#xff0c;十分方便…

2021-07-09

#先引入后面可能用到的包&#xff08;package&#xff09; import pandas as pd from datetime import datetime import backtrader as bt import matplotlib.pyplot as plt %matplotlib auto #正常显示画图时出现的中文和负号 from pylab import mpl mpl.rcParams[font.sans…

Patrick Wyatt:代码没问题 程序却有bug?

摘要&#xff1a;相信每个程序员都遇到过“不可能的bug”&#xff0c;代码没有任何问题却出错了&#xff01;问题肯定是出在操作系统上&#xff0c;或者是工具&#xff0c;甚至是因为计算机硬件的问题&#xff1f;&#xff01;&#xff1f;当然&#xff0c;魔兽之父也不例外&am…

视差滚动(Parallax Scrolling)插件补充

13. Windows Windows (github) 是一个让你用占据整个屏幕的section来构建单面网站的插件。该插件提供给你一些回调函数&#xff0c;当新的section出现在可视区并且并且处理快照时被调用&#xff0c;所以你可以轻松的继承它来自定义导航菜单或更多的东西。下面是一个例子&#x…

主流浏览器内核

IE trident Firefox Gecko Google chrome Webkit/blink Safar i Webkit Opera presto转载于:https://www.cnblogs.com/codezhao/p/10451030.html

Quartz使用总结、Cron表达式

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 Quartz可以用来做什么&#xff1f; Quartz是一个任务调度框架。比如你遇到这样的问题 想每月25号&#xff0c;信用卡自动还款想每年4月…

股票数据库建立

import akshare as ak import baostock as bs import pandas as pd import datetime bs.login()stk_list_place D:/stk_list.csv #股票代码表存储地址 stk_place D:/Data/ #股票数据存储地址 def update_stk_list(dateNone):#获取指定日期的指数、股票数据stock_rs bs.qu…