股票数据集1-纳斯达克NASDAQ 100简介

  1. 数据集信息

纳斯达克 100 指数 由纳斯达克证券交易所 上市的 100 家最大的非金融公司发行的股票证券组成,根据公司市值设置不同权重的加权指数,权重还受某些规则影响如公司影响力。该指数仅限于来自单一交易所的公司,并且没有任何金融公司。

数据集主要收录NASDQ-100指数,及其成分股,在2016下半年到2017上半年以分钟为单位的股价数据。

  • 下载地址:https://cseweb.ucsd.edu/~yaq007/nasdaq100.zip

  • 文件名nasdaq100,里面有三个文件夹构成,分别是full,small,extended,代表三个数据集

  • 数据特征

    • Close(收盘价):该分钟内股票的最后交易价格。
    • High(最高价):该分钟内股票的最高交易价格。
    • Low(最低价):该分钟内股票的最低交易价格。
    • Open(开盘价):该分钟内股票的开盘交易价格。
    • Volume(成交量):该分钟内股票的交易数量。
      注:单个股票每日文件记录以上特征数据(separate), 多个股票的多日数据文件仅记录每分钟的收盘价(Close Price)

1.1 full文件夹

其为完整的NASDAQ 100数据集

  • 包含纳斯达克旗下104家公司的股价和纳斯达克100指数值。数据采集频率为一分钟。该数据涵盖时间段为:2016年7月26日至2017年4月28日,共191天。

  • 含3个文件:

  • full_non_padding.csv

    • 数据shape为(74501, 105) , non_padding代表有缺失值且未填充
    • shape为(74501, 105)
  • separate文件夹

    • stock_data_GOOGLE文件夹

      • 每个文件为单个股票走势,按 “天为单位 (per day)”分割文件

      • 里面每个文件包含单个股票每天从开盘到收盘的391个数据样本(即391分钟)

      • 其中纳斯达克指数有390个数据样本。各个公司多一个起始数据样本(多一分钟)

      • Columns 即每个股票的特征包括 = “index, date, close, high, low, open, volume”.

        • 文件中的列 = “指数、日期、收盘价、最高价、最低价、开盘价、成交量”。
      • November 25, 2016这一天包含210个数据样本

  • stock_name.txt

    • 包含所含股票样本的名字缩写
  • 注意事项:

    由于 Shire PLC (SHPG) 取代了 Linear Technology (LLTC),因此 Linear Technology (LLTC) 仅有 157 天的数据,成为 NASDAQ100 指数中的成分股。文件 full_non_padding.csv 中的 LLTC 收盘价在 158 天后被标记为 0。

1.2 small文件夹

small版是上一个完整版的子集。它包括从 2016 年 7 月 26 日到 2016 年 12 月 22 日的 105 天的数据,数据量约为full的60%。

每天包含 390 个数据点;11 月 25 日仅有210 个数据点; 12 月 22 日仅有 180 个数据点。

纳斯达克 100 指数中的一些公司未包含在该数据集中,因为它们有太多缺失数据。该数据集中共有 81 家主要公司,我们使用线性插值来插入缺失数据, 即padding。

  • 包含两个文件:
  • nasdaq100_padding.csv

    • shape 为 (40560,82),其中前81个特征是不同股票,第82个特征是纳斯达克指数

    • 通常,前 35,100 个数据点用作训练集,接下来的 2,730 个数据点用作验证集。最后 2,730 个数据点用作测试集

  • small_stock_name.txt

    • 该子集的股票(公司)名

1.3 extented文件夹

采集了新加入纳斯达克100指数的10家公司的股价,该数据涵盖的时间范围为2017年3月29日至2017年4月28日,共计23天,数据采集频率仍为一分钟。

  • 包含3个文件:
  • separate文件夹

    • 每家公司每天的股票价格

    • Columns 即每个股票的特征包括 = “index, date, close, high, low, open, volume”.

      • 文件中的列 = “指数、日期、收盘价、最高价、最低价、开盘价、成交量”。
  • extended_non_padding.csv

    • 将separate文件夹下的单个特征“close price特征”合并到一个文件中

    • shape 为 (8993, 10)

    • 通常,前 35,100 个数据点用作训练集,接下来的 2,730 个数据点用作验证集。最后 2,730 个数据点用作测试集

    • 该子集的股票(公司)名:“CTAS, GOOG, HAS, HOLX, IDXX, JBHT, KLAC, LILA, LILAK, SHPG”

2.数据样本

2.1 extended

样本即不同公司股票,extended数据集为10个公司:

1.CTAS - Cintas Corporation - 辛塔斯公司 - 主要从事公司制服及劳保用品等的生产与销售。
2.GOOG - Alphabet Inc. Class C - 谷歌公司C类股票 - Alphabet Inc. 是Google母公司,涉及互联网、科技和其他业务领域。
3.HAS - Hasbro, Inc. - 孩之宝公司 - 主要生产玩具、游戏、电影及媒体相关产品。
4.HOLX - Hologic, Inc. - 豪洛捷公司 - 提供医疗诊断、成像系统、外科产品等医疗服务。
5.IDXX - IDEXX Laboratories, Inc. - 爱迪迅实验室公司 - 提供兽医诊断和水质检测产品与服务。
6.JBHT - J.B. Hunt Transport Services, Inc. - J.B.亨特运输服务公司 - 主要提供陆路运输、物流和配送服务。
7.KLAC - KLA Corporation - 凯美拉公司 - 半导体行业的制造设备供应商。
8.LILA - Liberty Latin America Ltd. Class A - 自由拉丁美洲有限公司A类股票 - 提供电信服务和娱乐内容的公司。
9.LILAK - Liberty Latin America Ltd. Class C - 自由拉丁美洲有限公司C类股票 - 同样提供电信服务和娱乐内容的公司。
10.SHPG - Shire plc - 赛尔公司 - 生物医药公司,主要从事罕见疾病药物的研发与销售。

2.2 full & small

  • full有105个股票走势,最后一个为纳斯达克指数

  • small为缩小版有其中81个走势,最后一个也是纳斯达克指数

0. AAL - American Airlines Group Inc. - 美国航空集团 - 航空运输
1. AAPL - Apple Inc. - 苹果公司 - 科技
2. ADBE - Adobe Inc. - Adobe公司 - 软件与服务
3. ADI - Analog Devices, Inc. - 亚迪达斯 - 半导体
4. ADP - Automatic Data Processing, Inc. - 自动数据处理公司 - 人力资源与支付处理
5. ADSK - Autodesk, Inc. - Autodesk公司 - 软件与服务
6. AKAM - Akamai Technologies, Inc. - 阿卡迈技术公司 - 互联网服务
7. ALXN - Alexion Pharmaceuticals, Inc. - 亚历克森制药公司 - 生物技术
8. AMAT - Applied Materials, Inc. - 应用材料公司 - 半导体
9. AMGN - Amgen Inc. - 安进公司 - 生物技术
10. AMZN - Amazon.com, Inc. - 亚马逊公司 - 电子商务与云计算
11. ATVI - Activision Blizzard, Inc. - 暴雪娱乐公司 - 娱乐软件
12. AVGO - Broadcom Inc. - 博通公司 - 半导体
13. BBBY - Bed Bath & Beyond Inc. - 床浴及超过公司 - 零售
14. BIDU - Baidu, Inc. - 百度公司 - 互联网服务
15. BIIB - Biogen Inc. - 生物基因公司 - 生物技术
16. BMRN - BioMarin Pharmaceutical Inc. - 拜玛林制药公司 - 生物技术
17. CA - CA Technologies - CA科技公司 - 软件与服务
18. CELG - Celgene Corporation - 赛尔康公司 - 生物技术
19. CERN - Cerner Corporation - 赛诺菲公司 - 医疗信息技术
20. CHKP - Check Point Software Technologies Ltd. - 查士丁点软件科技有限公司 - 网络安全
21. CHTR - Charter Communications, Inc. - 电信公司 - 电信
22. CMCSA - Comcast Corporation - 通讯公司 - 电信
23. COST - Costco Wholesale Corporation - 好市多公司 - 零售
24. CSCO - Cisco Systems, Inc. - 思科公司 - 网络设备
25. CSX - CSX Corporation - CSX公司 - 铁路运输
26. CTRP - Ctrip.com International, Ltd. - 携程旅行网 - 旅游服务
27. CTSH - Cognizant Technology Solutions Corporation - 高科技服务公司 - 信息技术服务
28. CTXS - Citrix Systems, Inc. - Citrix系统公司 - 软件与服务
29. DISCA - Discovery, Inc. - 探索传媒公司 - 媒体与娱乐
30. DISCK - Discovery, Inc. - 探索传媒公司 - 媒体与娱乐
31. DISH - DISH Network Corporation - DISH网络公司 - 电信
32. DLTR - Dollar Tree, Inc. - Dollar Tree公司 - 零售
33. EA - Electronic Arts Inc. - 电子艺界公司 - 娱乐软件
34. EBAY - eBay Inc. - 电子湾公司 - 电子商务
35. ESRX - Express Scripts Holding Company - 适用于管理的公司 - 医疗保健
36. EXPE - Expedia Group, Inc. - 途家公司 - 旅游服务
37. FAST - Fastenal Company - Fastenal公司 - 工业
38. FB - Meta Platforms, Inc. - Facebook公司 - 社交媒体
39. FISV - Fiserv, Inc. - 财务服务公司 - 金融技术
40. FOX - Fox Corporation - 福克斯公司 - 媒体与娱乐
41. FOXA - Fox Corporation - 福克斯公司 - 媒体与娱乐
42. GILD - Gilead Sciences, Inc. - 吉利德科学公司 - 生物技术
43. GOOGL - Alphabet Inc. - 谷歌公司 - 互联网服务
44. HSIC - Henry Schein, Inc. - 亨利·希恩公司 - 医疗设备
45. ILMN - Illumina, Inc. - 伊尔米纳公司 - 生物技术
46. INCY - Incyte Corporation - 依诺西公司 - 生物技术
47. INTC - Intel Corporation - 英特尔公司 - 半导体
48. INTU - Intuit Inc. - Intuit公司 - 软件与服务
49. ISRG - Intuitive Surgical, Inc. - 直觉外科公司 - 医疗设备50. JD - 京东公司 - JD.com, Inc. - 电子商务
51. KHC - 卡夫亨氏公司 - The Kraft Heinz Company - 食品与饮料
52. LBTYA - 自由媒体公司 - Liberty Global plc - 电信
53. LBTYK - 自由媒体公司 - Liberty Global plc - 电信
54. LLTC - 线性技术公司 - Linear Technology Corporation - 半导体
55. LRCX - 拉姆研究公司 - Lam Research Corporation - 半导体设备
56. LVNTA - 纽约富国集团公司 - Liberty Ventures - 投资管理
57. MAR - 万豪国际公司 - Marriott International, Inc. - 酒店与度假村
58. MAT - 玛莎荷铁路公司 - Mattel, Inc. - 消费品
59. MCHP - 微芯科技公司 - Microchip Technology Inc. - 半导体
60. MDLZ - 摩根道森公司 - Mondelez International, Inc. - 食品与饮料
61. MNST - 怪兽饮料公司 - Monster Beverage Corporation - 食品与饮料
62. MSFT - 微软公司 - Microsoft Corporation - 科技
63. MU - 美光科技公司 - Micron Technology, Inc. - 半导体
64. MXIM - 马克斯姆集成产品公司 - Maxim Integrated Products, Inc. - 半导体
65. MYL - 迈兰公司 - Mylan N.V. - 医药品
66. NCLH - 挪威游轮公司 - Norwegian Cruise Line Holdings Ltd. - 旅游服务
67. NFLX - 网飞公司 - Netflix, Inc. - 媒体与娱乐
68. NTAP - 网络设备公司 - NetApp, Inc. - 数据存储
69. NTES - 网易公司 - NetEase, Inc. - 互联网服务
70. NVDA - 英伟达公司 - NVIDIA Corporation - 半导体
71. NXPI - 恩智浦公司 - NXP Semiconductors N.V. - 半导体
72. ORLY - 奥莱利汽车配件公司 - O'Reilly Automotive, Inc. - 汽车零配件
73. PAYX - Paychex公司 - Paychex, Inc. - 金融技术
74. PCAR - 皮卡公司 - PACCAR Inc - 汽车制造
75. PCLN - 普利司通公司 - The Priceline Group Inc. - 旅游服务
76. PYPL - PayPal公司 - PayPal Holdings, Inc. - 金融技术
77. QCOM - 高通公司 - QUALCOMM Incorporated - 半导体
78. QVCA - 资本保持公司 - Qurate Retail, Inc. - 零售
79. REGN - 雷根纳公司 - Regeneron Pharmaceuticals, Inc. - 生物技术
80. ROST - 罗斯商店公司 - Ross Stores, Inc. - 零售
81. SBAC - 锁带通信公司 - SBA Communications Corporation - 电信
82. SBUX - 星巴克公司 - Starbucks Corporation - 餐饮
83. SIRI - Sirius XM公司 - Sirius XM Holdings Inc. - 媒体与娱乐
84. SRCL - 斯特林利公司 - Stericycle, Inc. - 商业服务
85. STX - 希捷科技公司 - Seagate Technology Holdings plc - 数据存储
86. SWKS - 太平洋威尔公司 - Skyworks Solutions, Inc. - 半导体
87. SYMC - 赛门铁克公司 - Symantec Corporation - 软件与服务
88. TMUS - T-Mobile公司 - T-Mobile US, Inc. - 电信
89. TRIP - 猫途鹰旅行网公司 - TripAdvisor, Inc. - 旅游服务
90. TSCO - 特斯科公司 - Tractor Supply Company - 零售
91. TSLA - 特斯拉公司 - Tesla, Inc. - 汽车制造
92. TXN - 德州仪器公司 - Texas Instruments Incorporated - 半导体
93. ULTA - Ulta美容公司 - Ulta Beauty, Inc. - 零售
94. VIAB - 威雅士通讯公司 - ViacomCBS Inc. - 媒体与娱乐
95. VOD - 沃达丰集团 - Vodafone Group Plc - 电信
96. VRSK - 维斯塔公司 - Verisk Analytics, Inc. - 数据分析
97. VRTX - 甲虫公司 - Vertex Pharmaceuticals Incorporated - 生物技术
98. WBA - Walgreens Boots Alliance公司 - Walgreens Boots Alliance, Inc. - 零售
99. WDC - 西部数据公司 - Western Digital Corporation - 数据存储
100. WFM - Whole Foods Market公司 - Whole Foods Market, Inc. - 食品与饮料
101. XLNX - 赛灵思公司 - Xilinx, Inc. - 半导体
102. YHOO - 雅虎公司 - Yahoo Inc. - 互联网服务
103. XRAY - 迈迪逊公司 - Dentsply Sirona Inc. - 医疗设备
104. NDX - 纳斯达克100指数 - Nasdaq-100 Index - 指数
  1. 特征分析

3.1 重复特征

这里 40.Fox & 41.FoxA 实际是同一家公司发行的不同类别股票,即福克斯公司(Fox Corporation),一般发生在公司分拆或重组后。FoxA代表Fox Corporation Class A股票,而Fox代表Fox Corporation Class B股票。

同样的还: 有(29.DISCA & 30.DISCK) (52. LBTYA & 53. LBTYK )

Reference

  • A case: https://chandlerzuo.github.io/blog/2017/11/darnn

  • 数据集: https://cseweb.ucsd.edu/~yaq007/NASDAQ100_stock_data.html

  • 论文: https://arxiv.org/abs/1704.02971

    “A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction” IJCAI, 2017

    Code: https://github.com/Seanny123/da-rnn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/24948.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024 vite 静态 scp2 自动化部署

1、导入库 npm install scp2 // 自动化部署 npm install chalk // 控制台输出的语句 npm install ora2、核心代码 创建文件夹放在主目录下的 deploy/index.js 复制粘贴以下代码: import client from scp2; import chalk from chalk; import ora from ora;const s…

K8s速览

k8s的核心能力 ● 服务发现与负载均衡 ● 服务恢复 ● 服务伸缩 ● 自动发布与回滚 ● 批量执行 架构 server-client两层架构,Master作为中央管控节点,会和每一个Node进行一个连接; 所有UI层,client的操作,只会和Mat…

详解linux设备下的/dev/null

/dev/zero是一个特殊的设备文件,它在Linux系统中通常被用来生成无限数量的零数据流。 这个设备文件位于/dev目录下,它不代表任何实际的硬件设备,而是一个虚拟设备。 当从/dev/zero设备中读取数据时,会得到无限数量的零字节&…

unix环境编程编程扫描版:深度解析与实践指南

unix环境编程编程扫描版:深度解析与实践指南 在探索Unix环境编程的广阔天地时,我们如同行走在一条充满未知与奇遇的旅程中。本篇文章将从四个方面、五个方面、六个方面和七个方面,深入剖析Unix环境编程的精髓,帮助读者在编程的海…

【机器学习】因TensorFlow所适配的numpy版本不适配,用anaconda降低numpy的版本

目录 0 TensorFlow最高支持的numpy版本 1 激活你的环境(如果你正在使用特定的环境) 2 查找可用的NumPy版本 3 安装特定版本的NumPy 4. 验证安装 5.(可选)如果你更改了base环境 0 TensorFlow最高支持的numpy版本 要使用 …

树莓派设置开机自启动程序(可执行文件与python脚本)

最近调试树莓派,希望开机运行两个程序,其中一个是可执行文件,另一个是 python 脚本,他们都是无限循环的程序,也就是说不关机不会停止运行。中间还是遇到了很多 bug,现在记录一下自启动程序的设置方法以及de…

Python | Leetcode Python题解之第132题分割回文串II

题目: 题解: class Solution:def minCut(self, s: str) -> int:n len(s)g [[True] * n for _ in range(n)]for i in range(n - 1, -1, -1):for j in range(i 1, n):g[i][j] (s[i] s[j]) and g[i 1][j - 1]f [float("inf")] * nfor …

Websocket前端传参:深度解析与实战应用

Websocket前端传参:深度解析与实战应用 在现代Web开发中,Websocket作为一种双向通信协议,已经广泛应用于实时数据传输场景。前端传参作为Websocket通信的重要组成部分,其正确性和高效性直接影响到应用的性能和用户体验。本文将深…

k8s学习--kubernetes服务自动伸缩之水平收缩(pod副本收缩)HPA详细解释与案例应用

文章目录 前言HPA简介简单理解详细解释HPA 的工作原理监控系统负载模式HPA 的优势使用 HPA 的注意事项应用类型 应用环境1.metircs-server部署2.HPA演示示例(1)部署一个服务(2)创建HPA对象(3)执行压测 前言…

安装node

下载地址 Node.js — Run JavaScript Everywhere 按照下面的图操作即可 然后就下载完了。

【Vue】声明式导航-导航链接

文章目录 一、引入二、解决方案三、代码示例四、声明式导航-两个类名1)router-link-active2)router-link-exact-active 一、引入 但凡说到声明式导航,都需要想到router-link 需求 实现导航高亮效果 如果使用a标签进行跳转的话,需要…

Web前端ES6-ES13笔记合集(上)

一. 走入ES6 ##### 1.初识ES6 > ECMAScript 6.0(以下简称 ES6)是 JavaScript 语言的下一代标准,已经在 2015 年 6 月正式发布了。它的目标,是使得 JavaScript 语言可以用来编写复杂的大型应用程序,成为企业级开发语…

浏览器中输入一个url发生了什么,用到了哪些协议

当你在浏览器中输入一个URL并按下回车键时,以下是发生的一系列步骤和涉及的协议: 解析URL: 浏览器首先解析输入的URL,确定协议类型(如http或https)、主机名(域名)、端口(…

【Python】selenium使用find_element时解决【NoSuchElementException】问题的方法

NoSuchElementException 是 Selenium WebDriver 中的一种异常,我们在写selenium.find_element 的时候也比较常见,它会在我们要尝试定位一个不存在的元素时抛出这类错误。 以下是一些解决NoSuchElementException 的常用方法: 检查元素定位器:…

【网络编程开发】8.TCP连接管理与UDP协议 9.IP协议与ethernet协议

8.TCP连接管理与UDP协议 三次握手 三次握手的过程在TCP/IP网络通信中起着至关重要的作用,它不仅确保了数据的可靠传输,还为两端的数据传输提供了稳定的连接初始化过程。这一过程涉及到几个关键步骤,每个步骤都有其特定的目的和功能。 步骤&…

算法人生(21):从“React框架”看“情绪管理”

说起React框架,我们知道它是一种由Facebook开发和维护的开源JavaScript库,主要用于构建用户界面,特别是单页应用程序(SPA)。React框架围绕组件化,即把用户界面拆分为可复用的独立组件,每个组件负…

SM481,SM432和利时DCS备件

SM481,SM432和利时DCS备件。POU名只能包含字母、数字、下划线,第一个字符必须是字母或者下划线,且遵循以下原则:SM481,SM432和利时DCS备件。关于重名,不能与变量名、变量组名、POU文件夹名、任务名、SM481,SM432和利时DCS备件。工…

NSSCTF中的popchains、level-up、 What is Web、 Interesting_http、 BabyUpload

目录 [NISACTF 2022]popchains [NISACTF 2022]level-up [HNCTF 2022 Week1]What is Web [HNCTF 2022 Week1]Interesting_http [GXYCTF 2019]BabyUpload 今日总结&#xff1a; [NISACTF 2022]popchains 审计可以构造pop链的代码 <php class Road_is_Long{public $…

《非暴力沟通》:值得所有人阅读

关于作者 马歇尔卢森堡&#xff08;Marshall B. Rosenberg&#xff09;&#xff0c;是一位国际知名的沟通专家和和平活动家。他创立了非暴力沟通&#xff08;NVC&#xff09;这一概念&#xff0c;这是一种以同情心为基础的沟通方式&#xff0c;旨在帮助人们在冲突和分歧中找到…

scrapy入门例子:获取百度热搜

想要创建一个Scrapy项目来爬取百度的搜索结果&#xff0c;虽然百度的搜索结果通常受到robots.txt的限制并且可能需要处理JavaScript渲染的内容&#xff0c;但我们可以创建一个基础的Scrapy项目来演示如何定义这样的结构和爬虫。请注意&#xff0c;实际爬取百度或其他大型网站时…