动手学深度学习18 预测房价竞赛总结

动手学深度学习18 预测房价竞赛总结

  • 李沐老师代码
  • AutoGluon
  • h2o
  • 集成学习
  • automl
  • QA

视频: https://www.bilibili.com/video/BV15Q4y1o7vc/?vd_source=eb04c9a33e87ceba9c9a2e5f09752ef8
代码: https://www.bilibili.com/video/BV1rh411m7Hb/?vd_source=eb04c9a33e87ceba9c9a2e5f09752ef8

在这里插入图片描述

李沐老师代码

第一部分代码是kaggle预测泰坦尼克号人生还。

conda create -y --force -n ag python=3.8 pip
conda activate ag
pip install 'mxnet<2.0.0'
pip install autogluon
pip install kaggle 
# 配置kaggle秘钥 下载数据集
kaggle c doenload titanic
unzip -o titanic.zipfrom autogluon.tabular import TabularDataset, TabularPredictor
# 训练
train_data = TabularDataset('train.csv')
# id, label = 'PassengerId', 'Survived'
id, label = 'ID', 'Sold Price'
# 数据预处理
large_val_cols = ['Lot', 'Total interior livabel area', 'Tax assessed value','Listed Price', 'Last Sold Price']
# 对字符串较长的列取log操作
for c in large_val_cols + [label]:train_data[c] = np.log(train_data[c]+1)
# 把pandas自动生成的id列去掉 不参与训练  label列做label
# predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]))
# 更好的模型 multimodal选项用transformer抽取特征+多模型融合
predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]), hyperparameters='multimodal',num_stack_levels=1, num_baf_folds=5)# 预测
import pandas as pd
test_data = TabularDataset('test.csv')
preds = predictor.predict(test_data.drop(columns=[id]))
submission = pd.DataFrame({id:test_data[id], label:preds})
# 生成提交的csv文件
submission.to_csv('submission.csv', index=False)# 1. autogluon在合理的计算开销下模型还不错
# 2. 虽然可以做自动特征抽取,但是人为数据预处理可能效果更好
# 3. 对于比较大的数据集,计算开销仍旧是瓶颈 gpu或者多台gpu分布式训练。

AutoGluon

代码: https://github.com/autogluon/autogluon
文档: https://auto.gluon.ai/stable/index.html

AutoGluon是一个开源的自动化机器学习(AutoML)工具包,旨在使机器学习变得更加易于使用和普及。它提供了高度自动化的机器学习管道,可以帮助开发者和数据科学家快速构建和部署高性能的机器学习模型,而无需深入了解每个模型的细节。

以下是AutoGluon的一些主要特点和功能:

  1. 自动化调参:AutoGluon能够自动搜索最佳的超参数配置,包括模型选择、特征工程、调参等,从而提高模型的性能和泛化能力。

  2. 多模型支持:支持多种机器学习模型,包括集成学习、神经网络、决策树等,可以根据数据集自动选择合适的模型进行训练。

  3. 高性能:AutoGluon针对大规模数据和高维特征进行了优化,具有较高的训练速度和效率。

  4. 易于使用:提供简洁的API和命令行界面,使用户可以轻松地进行模型训练、评估和部署。

  5. 自动化特征工程:自动处理数据预处理和特征工程,包括缺失值处理、数据标准化、特征选择等。

  6. 模型解释性:提供模型解释性功能,可以帮助用户理解模型的预测结果和特征重要性。

AutoGluon适用于各种机器学习任务,包括分类、回归、聚类等,可以在不同的领域和应用中使用,如金融、医疗、电子商务等。它为机器学习的开发和应用提供了更高的效率和便利性,使更多的开发者和科学家可以利用机器学习技术解决实际问题。

h2o

https://zhuanlan.zhihu.com/p/638874401

集成学习

集成学习会让模型更稳定。

automl

80%的时间去处理数据。
怎么搜集数据,搜集什么样的数据,怎么做数据清洗,搭建数据pipeline, 怎么低成本的获取存储数据。

QA

1: 避免overfit, 调参是必要的,要有一个比较好的验证集。当找到一个很好的超参数效果特别好,就在这个超参数附近调一下看看效果是否会有很大变化。实际应用中调参没那么重要。
2:kaggle比赛 公榜数据是测试数据前半部分,私榜是测试数据后半部分。
3:数据处理,难的是要预测一个任务,机器学习能不能做,要什么样的数据,历史数据是否有用,从哪里找数据,数据怎么获取,噪音数据怎么处理【90%的数据可能都是噪音】,哪些数据是对模型有用的。第一步:思考世界。
4:神经网络调参方法和需要调的参数。
5:nas 搜整个网络的架构【烧钱,还不成熟】,autogulon和pytorch结合做NAS?
Autogluon 和 PyTorch 结合起来进行 NAS(神经架构搜索)是指使用 Autogluon 框架与 PyTorch 深度学习库结合,进行神经网络架构的自动搜索和优化。这种方法旨在通过自动化技术来发现和优化深度学习模型的架构,以提高模型的性能和效率。

Autogluon 是一个自动机器学习工具包,它可以帮助开发者在各种机器学习任务中自动搜索和选择最佳的模型和超参数配置。PyTorch 则是一个流行的深度学习框架,提供了丰富的工具和功能,使得在构建、训练和部署深度学习模型时更加便捷。

因此,将 Autogluon 与 PyTorch 结合使用进行 NAS,意味着利用 Autogluon 提供的自动化搜索技术,结合 PyTorch 提供的深度学习能力,来寻找最优的神经网络结构和超参数配置,以达到更好的模型性能和效果。
6:AutoML是自动机器学习,给一个处理过,样本处理过但是特征没有抽取好的数据,能自动做特征提取训练模型,是ML的一个算法。
7:层数深预测输出的房价都是一样的,说明数值稳定性出了问题,可能把bias弄出来了。或者梯度爆炸或者梯度为0.
8:autogluon有用树模型,DeepLearning大部分模型,autogluon可以理解为一个大容器,里面塞了好多模型。
9:MLP有精细调参的价值。bert transformer也有MLP的实现。
10:xgboost训练房价预测.
11:看数据看那些数据是有用的。可以尝试把单词逐一创建特征项,看看是否有效果,没有的话不要浪费时间。
12:第一版kaggle竞赛,MLP比赛经验。
13:AutoGluon从最简单最快的模型开始,继续往下训练,一直试不同的模型。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11491.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

笔灵ai答辩ppt、轻竹PPT、AIPPT、iSlide:这四款AI PPT工具有何独特优势?

提起PPT&#xff0c;大家的第一反应就是痛苦。经常接触PPT的学生党和打工人&#xff0c;光看到这3个字母&#xff0c;就已经开始头痛了&#xff1a; 1、PPT内容框架与文案挑战重重&#xff0c;任务艰巨&#xff0c;耗费大量精力。 2、PPT的排版技能要求高&#xff0c;并非易事…

springboot整合s3,用ImageIO进行图片格式转换

上次用laravel进行了一些s3得整合&#xff0c;可以看出来其实蛮简单得。 先导包 <dependency><groupId>software.amazon.awssdk</groupId><artifactId>s3</artifactId></dependency> 然后在配置类中写bean private static final String …

【软考】设计模式之观察者模式

目录 1. 说明2. 应用场景3. 结构图4. 构成5. 优缺点5.1 优点5.2 缺点 6. java示例 1. 说明 1.定义对象间的一种一对多的依赖关系&#xff0c;当一个对象的状态发生改变时&#xff0c;所有依赖于它的对象都得到通知并被自动更新。2.也称为模型-视图模式、源-收听者模式或从属者…

关于Double接收到字符串 插入失败 Overflow Exception trying to bind NaN

前端计算 传值给后端NaN 后端接收到之后直接执行插入操作 报错 Error updating database. Cause: java.sql.SQLException: Internal Error: Overflow Exception trying to bind NaN 如果前端传值 NaN 或者 Infinity java是不报错的 只有插入报错 double result1 10.0 / 0; /…

神经网络复习--数学相关基础知识

文章目录 矩阵范数卷积激活函数信息熵 矩阵 标量&#xff1a;一个标量就是一个单独的数向量&#xff1a;一个向量是一列数。这些数是有序排列的。通过次序中的索引&#xff0c;我们可以确定每个单独的数矩阵&#xff1a;矩阵是一个二维数组&#xff0c;其中的每个元素被两个索…

华为机试打卡 HJ5 进制转换

要机试了&#xff0c;华孝子求捞&#xff0c;功德 描述 写出一个程序&#xff0c;接受一个十六进制的数&#xff0c;输出该数值的十进制表示。 数据范围&#xff1a;保证结果在 1≤&#x1d45b;≤2^31−1 输入描述&#xff1a; 输入一个十六进制的数值字符串。 输出描述…

【JAVA】递归

接着上一讲继续&#xff0c;内容不多&#xff0c;讲解一下递归相关内容。 1. 生活中的故事 从前有坐山&#xff0c;山上有座庙&#xff0c;庙里有个老和尚给小和尚将故事&#xff0c;讲的就是&#xff1a; "从前有座山&#xff0c;山上有座庙&#xff0c;庙里有个老和尚…

uos server 无法通过ssh工具连接

问题现象 uos server 服务器操作系统 在虚拟机中安装好之后&#xff0c;防火墙已经关闭&#xff0c;ssh服务已经启动&#xff0c;但通过finalshell等ssh工具连接报错 &#xff1a;java.net.ConnectException: Connection timed out: connect 经过确认 防火墙已关&#xff0c;s…

48.乐理基础-音符的组合方式-休止符

休止符 音乐中总有一些停顿的地方&#xff0c;一次停顿多久是创作人固定好的&#xff0c;休止符就是用来表示每一次停顿多久 需要停顿的位置就用 0 来表示&#xff0c;数字 0 就是简谱中的休止符 音符有全音符、二分音符、四分音符、八分音符、十六分音符、三十二分音符等&…

你写代码,会关注时间复杂度吗?

虽然面试的时候总是被问到这个问题&#xff0c;但你写代码的时候&#xff0c;真的会想到这个问题吗&#xff1f;时间复杂度&#xff0c;说的当然不是你写的代码执行用了多长时间&#xff0c;而是代码执行语句的次数。 目录 每行代码都需要注意 计算方法 1 例如常量增长 2 …

五子棋对战(网页版)

目录 一、项目背景 用户模块 匹配模块 对战模块 二、核心技术 三、相关知识 WebSocket 原理 报文格式 代码 服务器代码 客户端代码 四、项目创建 4.1、实现用户模块 编写数据库代码 数据库设计 配置MyBatis 创建实体类 创建UserMapper 创建UserMapper接口 实现UserMapper.xml 前…

train_gpt2.c

llm.c/train_gpt2.c at master karpathy/llm.c (github.com) 源码 /* This file trains the GPT-2 model. This version is the clean, minimal, reference. As such: - it runs on CPU. - it does not make the code too complex; it is readable. - it does not use any p…

等保测评技术方案(五)

&#xff08;八&#xff09;漏洞扫描方案 1.参与人员 乙方工程师&#xff1a;谭 然、张 剑等。 范围经过双方确认&#xff0c;此次评估的对象包括&#xff1a; 2.网络设备 IP 地址 设备型号 备注 / / / / / / 以现场测评实际数据为准 3.应用系统 地址 …

SpringBoot集成Curator实现Watch事件监听

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章男女通用&#xff0c;看懂了就去分享给你的码吧。 Zookeeper是一个Ap…

缓存不经常更新的动态信息:策略与 Nginx 配置指南

在处理不经常更新的动态信息时&#xff0c;合理配置缓存能够显著提高网站的性能和用户体验。通过缓存这类内容&#xff0c;我们可以减少对后端服务的请求压力&#xff0c;加快内容的加载速度。下面我们会探讨如何在 Nginx 中配置缓存以最大化这种类型的动态内容的效益。 理解动…

kotlin基础知识

val(value的简写)用来声明一个不可变的变量。(只读变量) var(variable的简写)用来声明一个可变的变量。(可读写变量) 在变量声明中指定数据类型时&#xff0c;应在冒号后面添加一个空格。 先声明变量在声明变量的类型。 val a &#xff1a;Int 10 kotlin拥有类型推导机制&…

有哪些可以用电脑做的挣钱副业,有电脑就行

以下是一些可以用电脑做的挣钱副业 1. 写作和翻译 可以在各大网络平台上接单进行写作或者翻译。 2. 做任务 还在做致米宝库这个软件&#xff0c;软件每天会发布一些项目任务&#xff0c;也能学到一些网上赚钱的知识技术&#xff0c;我平时就做些简单任务和一个虚拟项目。 任…

下载npm I就包错解决方案

npm i xxxx -S --legacy-peer-deps 如果包错就执行以上命令

杨校老师项目之基于大数据技术栈hadoop商业web应用的日志分析系统

获取全套资料&#xff1a; 有偿获取&#xff1a;mryang511688 摘要&#xff1a; 互联网世界的先驱者们一致认为大数据将是未来互联网产业&#xff0c;甚至是整个人类各个产业的基础资源&#xff0c;那么到底什么是大数据&#xff0c;大数据给我们的世界是如何带来变化的呢&am…

电子作业指导书系统如何提升医疗设备工厂的生产效率

在医疗设备工厂中&#xff0c;电子作业指导书&#xff08;ESOP&#xff09;正逐渐成为提升生产效率的关键因素。 一、电子作业指导书系统提供了即时可得的准确信息。 电子作业指导书系统与传统的纸质作业指导书相比&#xff0c;员工可以在工作现场通过电子设备随时查阅最新、最…