python数据预测代码_手把手教你用Python玩转时序数据,从采样、预测到聚类丨代码...

原标题:手把手教你用Python玩转时序数据,从采样、预测到聚类丨代码

原作 Arnaud Zinflou

郭一璞 编译

时序数据,也就是时间序列的数据。

像股票价格、每日天气、体重变化这一类,都是时序数据,这类数据相当常见,也是所有数据科学家们的挑战。

所以,如果你有朝一日碰到了时序数据,该怎么用Python搞定它呢?

时序数据采样 数据集

这里用到的例子,是2011年11月到2014年2月期间伦敦家庭的用电量。

可以看出,这个数据集是按照每半小时统计一次的节奏,记下每家每户用了多少电。可以根据这些数据,生成一些图表分析。

当然,因为我们考虑的数据主要是时间和用电量两个维度,所以可以把其他的维度删掉。

重采样

我们先从重采样开始。重采样意味着改变时序数据中的时间频率,在特征工程中这个技能非常有用,给监督学习模型补充一些结构。

依靠pandas进行重采样的方法类似groupby,通过下面的例子,可以更方便的理解。

首先,需要把采样周期变成每周:

· data.resample() 用来重采样数据帧里的电量(kWh)那一列。

· The ‘W’ 表示我们要把采样周期变为每周(week)。

· sum()用来求得这段时间里的电量之和。

当然,我们也可以依葫芦画瓢把采样周期变成每天。

pandas里内置了很多重采样的选项,比如不同的时间段:

还有不同的采样方式:

这些你可以直接用,也可以自己定义。

用Prophet建模

Facebook Prophet诞生于2017年,可以用Python和R语言操作。

Prophet天生就是分析时序数据的一把好手,适配任何时间尺度,还能很好的处理异常值和缺失数据,对趋势变化非常敏感,还考虑到了假期等特殊时间的影响,可以自定义变更点。

在使用Prophet之前,我们先重命名一下数据集中的每列。数据列为ds,我们要预测的值列为y。

下面的例子就是以每天为间隔的时序数列。

导入Prophet,创建模型,填充数据。

在Prophet里,changeprior prior scale这个参数可以控制对趋势变化的敏感程度,参数越高越敏感,设置为0.15比较合适

为了实现预测功能,我们创建未来数据帧,设置预测未来多少时间和频率,然后Prophet就可以开始预测了。

这里设置的是预测两周,以天为单位。

搞定了,可以预测未来两个月的家庭用电量了。

图中,黑点为实际值,蓝点为预测值,浅蓝色阴影区域表示不确定性。

当然,如果预测的时间很长,不确定性也会增大。

利用Prophet,我们还可以简单地看到可视化的趋势图。

看上面第二张图,以年份为单位,可以明显看出秋冬家庭耗电量增大,春夏则减少;周日耗电量要比一周里的其他六天多。

LSTM预测

LSTM-RNN可以进行长序列观察,这是LSTM内部单元的架构图:

LSTM似乎很适合时序数据预测,让它来处理一下我们按照一天为周期的数据:

LSTM对输入数据的规模很敏感,特别是在使用sigmoid或tanh激活函数时。

你也可以把数据标准化,也就是将数据重新调整到[0,1]或[-1,1]的范围,可以使用scikit-learn库中的MinMaxScaler预处理类轻松地标准化数据集。

现在,把数据集分成训练集和测试集。

下面的代码把80%的数据分成训练集,剩下的20%留着当测试集。

定义一个函数来创建新的数据集,用这个函数来准备建模。

LSTM网络的输入数据需要设置成特定的阵列结构:[样本,时间步长,特征]。

现在用的是[样本,特征],我们需要加上时间步长,通过下面的方法把训练集和测试集变成我们想要的样子

搞定,现在设计调试LSTM网络。

从损失图中,我们可以看到该模型在训练集和测试集上的表现相似。

看下图,LSTM在拟合测试集的时候表现的非常好。

聚类

最后,我们还要用我们例子中的数据集进行聚类。

聚类的方法很多,其中一种是分层聚类(clusters hierarchically)。

方法很简单,导入原始数据,然后为一年中的某一天和一天中的某一小时添加两列。

连接和树形图

连接函数将距离信息和分组对象根据相似性聚类,他们相互连接,创造更大的聚类。这个进程一直迭代,直到原始数据集中的所有对象都在分层树里相互连接在一起。

这样完成我们数据的聚类:

搞定,是不是很简单?

不过,代码里的ward是啥?

这是一种新的聚类方法,关键词ward让连接函数使用ward方差最小化算法。

现在,看一下聚类树形图:

x轴上就是标签,或者说是样本索引;

y轴上是距离;

竖线是聚类合并;

横线表示哪些集群/标签是合并的一部分,形成新聚类;

竖线的长度是形成新聚类的距离。

简化一下,更清楚:

传送门

https://towardsdatascience.com/playing-with-time-series-data-in-python-959e2485bff8

— 完—

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)返回搜狐,查看更多

责任编辑:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/567275.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java 配置jmstemplate_SpringBoot集成JmsTemplate(队列模式和主题模式)及xml和JavaConfig配置详解...

1.导入jar包:org.springframework.bootspring-boot-starter-activemqorg.apache.activemqactivemq-pool2.填写配置文件(application.properties)#设置JMS(AMQ)spring.activemq.broker-urltcp://localhost:61616spring.activemq.useradminspring.activemq.passwordad…

切面是异步还是同步操作‘_分布式中采用Logback的MDC机制与AOP切面结合串联日志...

导读:在实际开发中,打印日志是十分重要的。在生产环境中,如果日志打得好可以快速地排查问题,而在分布式的场景下,一个请求会跨越多个节点,既一个业务可能需要多个节点协调配合处理。那么日志将会分散&#…

java 图类_Java集合类,一张图说清楚!

作者:skywang12345https://www.cnblogs.com/skywa...2019-03-23 10:32:24Java集合是java提供的工具包,包含了常用的数据结构:集合、链表、队列、栈、数组、映射等。Java集合工具包位置是java.util.*,Java集合主要可以划分为4个部分…

python 取整_马克的Python学习笔记#数字,日期和时间

对数值进行调整在Python中对整数和浮点数进行数字计算是很容易的。但是,如果你需要对分数,数组或者日期和时间进行计算,这就会稍微复杂点。对于简单的取整操作,我们可以使用内建的round(value, ndigits)函数就可,举个例…

java 数据类型分为_JAVA中分为基本数据类型及引用数据类型

byte:Java中最小的数据类型,在内存中占8位(bit),即1个字节,取值范围-128~127,默认值0short:短整型,在内存中占16位,即2个字节,取值范围-32768~32717,默认值0i…

各路由协议的协议号_厂房转让协议

厂房转让协议转让方(甲方):________________受让方(乙方):________________甲乙双方本着平等互利的原则,经协商一致就甲方将其权属的工业用地、厂房等转让与乙方及有关事项达成如下协议:一、工业用地及厂房产权基本情况本协议转让的工业用地位…

java容器怎么封装的_docker怎么把容器打包成镜像

1.首先引用 maven docker插件,打开 java应用jar包,点击package按钮;2.新建一个docker文件夹,将导出的jar包放入到此文件夹中;3.新建一个Dockerfile文件,输入以下打包命令FROM frolvlad/alpine-oraclejdk8:s…

python 异常回溯_关于python:在循环中捕获异常回溯,然后在脚本末尾引发错误...

我正在尝试捕获所有异常错误,然后在脚本结尾处使其引发/显示所有回溯...我有一个主脚本,例如调用我的下标:errors open(MISC/ERROR(S).txt, a)try:execfile("SUBSCRIPTS/Test1.py", {})except Exception:## Spread over two calls…

java web开发常见问题_JavaWeb学习笔记(五)--Web开发其他常见问题

一、把web应用打成war包使用JDK自带jar命令,进入到web应用里面,执行命令:jar -cvf 包名.war . # .表示当前目录所有的文件 直接用jar可查看帮助执行完成后生成一个demo.war文件,把这个文件拷贝到Tomcat的webapps下,Tom…

mysql having in_MySQL中无GROUPBY直接HAVING的问题

本文内容遵从CC版权协议, 可以随意转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://www.penglixun.com/tech/database/having_without_groupby_in_mysql.html 今天有同学给我反应,有一张表,id是主键,这样的写法可…

python求线段长度_python微元法计算函数曲线长度的方法

计算曲线长度,根据线积分公式:,令积分函数f(x,y,z) 为1,即计算曲线的长度,将其微元化:其中根据此时便可在python编程实现,给出4个例子,代码中已有详细注释,不再赘述计算曲…

java if 顺序 括号_03-03 java 顺序语句结构,选择结构if语句

/*if语句的格式3:if(比较表达式1) {语句体1;}else if(比较表达式2) {语句体2;}else if(比较表达式3) {语句体3;}...else {语句体n1;}执行流程:首先计算比较表达式1看其返回值是true还是false,如果是true,就执行语句体1&#xff0c…

java 项目部署_java项目部署

本文章只为帮助大家学习项目的发布,为基础篇,在此给大家示范在window环境下的项目部署及运维。以下版本为讲解示例,可自行改至匹配版本。服务器:window service2008 R2 Standard(提前准备好服务器,可以在服务器商家租服…

电气专业学python吗_985大学毕业起薪最高的五个专业,计算机、金融、电气上榜!...

本科毕业生起薪是指本科毕业生第一份工作能够获得的薪资水平,大学毕业生的起薪一般会因为学校、专业、地区的不同而有所差异。一般来说,985大学毕业生的起薪要比普通大学毕业生的起薪高一点,那么,985大学中,哪些专业的…

python核心教程_python核心教程--第四章

第四章讲的是python对象。4.1 python对象所有的python对象都拥有三个特性:身份,类型和值身份:每一个对象都有一个唯一的身份标识自己,任何对象的身份可以使用内建函数id()来得到。这个值可以被认为是该对象的内存地址。类型&#…

uwsgi怎么通过浏览器访问某个脚本_4个Shell小技巧帮你提高机器学习效率:写好脚本,事半功倍...

晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI在机器学习的实践过程中,用好Shell能帮你很多节省时间。最近,有位来自ETHZ的学生分享了一些Shell小技巧。对程序员来说,这些技巧更重要的是让你的思维从琐碎小事中解脱出来,大大提高…

java file 字符串_Java读取一个文本文件拼接成一个字符串(readFileToString)

import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import org.junit.Test;public class Demo {// 使用示例Testpublic void testName1() throws Exception {String filePath …

pythonselenium上传图片视频_如何用selenium、python上传文件(图片)

我添加了一个答案,任何人想使用处理恼人的msofiledialogs。这是对saravanan提出的解决方案的改进,但对Python来说更加充实。我也遇到过类似的问题,我正在为一家公司做脚本。我试图为一家公司的客户上传文件,但由于他们的网站工作方…

java中的.运算符_java中的各种运算符

1、算术运算符;算术运算符也就是我们小学所学过的: - */;还有取模运算符:%;取模运算符也就是求余的运算;运算形式:操作数 操作数;操作数 - 操作数;操作数 *操作数&#…

python curl 获取返回值_python获取系统命令的返回值 | curl in python

项目背景:通过curl 命令 从服务器获取数组,tids,然后导入到Mysql 表中。自己想的方案:shell命令不熟悉,另外python中的数据库等接口都已封装,所以想使用Python来做,利用Python调用shell命令。cu…