task2 EDA探索性数据分析

在这里插入图片描述








1、赛题数据

赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏

2、评测标准

评价标准为MAE(Mean Absolute Error)。
MAE
MAE越小,说明模型预测得越准确。
赛事官网:
零基础入门数据挖掘 - 二手车交易价格预测

3、具体步骤

3.1、环境:pycharm + python3

3.2、读取数据

下面展示一些 内联代码片

// An highlighted block
var foo = 'bar';
#读取数据并#切分数据dataset = pd.read_csv(r'C:\python3\envs\pytorch\atest_torch\data\used_car_train_20200313.csv', sep=' ')# print(dataset)# print(dataset.columns.values)X = dataset[['SaleID', 'name', 'regDate', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'power', 'kilometer','notRepairedDamage', 'regionCode', 'seller', 'offerType', 'creatDate', 'v_0', 'v_1', 'v_2','v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13', 'v_14']]Y = dataset['price']
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

#需要注意:因为该csv文件数据是按一个空格隔开的,在读取时需要用sep=’ '来分割开来。

3.2.2查看各列数据类型

#查看各列数据类型
print([X[column].dtypes for column in X])
  • 1
  • 2

发现notRepairedDamage数据存在异常,该特征为汽车有尚未修复的损坏:是:0,否:1。
在这里插入图片描述
我将“-”进行缺失值处理,赋值为0.5
在这里插入图片描述
更新时间:2020年3月17日

3.3拆分数据集与测试集

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=7)
  • 1

3.4xgboost构建模型

                                </div><link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-b6c3c6d139.css" rel="stylesheet"><div class="more-toolbox"><div class="left-toolbox"><ul class="toolbox-list"><li class="tool-item tool-active is-like "><a href="javascript:;"><svg class="icon" aria-hidden="true"><use xlink:href="#csdnc-thumbsup"></use></svg><span class="name">点赞</span><span class="count"></span></a></li><li class="tool-item tool-active is-collection "><a href="javascript:;" data-report-click="{&quot;mod&quot;:&quot;popu_824&quot;}"><svg class="icon" aria-hidden="true"><use xlink:href="#icon-csdnc-Collection-G"></use></svg><span class="name">收藏</span></a></li><li class="tool-item tool-active is-share"><a href="javascript:;" data-report-click="{&quot;mod&quot;:&quot;1582594662_002&quot;}"><svg class="icon" aria-hidden="true"><use xlink:href="#icon-csdnc-fenxiang"></use></svg>分享</a></li><!--打赏开始--><!--打赏结束--><li class="tool-item tool-more"><a><svg t="1575545411852" class="icon" viewBox="0 0 1024 1024" version="1.1" xmlns="http://www.w3.org/2000/svg" p-id="5717" xmlns:xlink="http://www.w3.org/1999/xlink" width="200" height="200"><defs><style type="text/css"></style></defs><path d="M179.176 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5718"></path><path d="M509.684 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5719"></path><path d="M846.175 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5720"></path></svg></a><ul class="more-box"><li class="item"><a class="article-report">文章举报</a></li></ul></li></ul></div></div><div class="person-messagebox"><div class="left-message"><a href="https://blog.csdn.net/zxxmx"><img src="https://profile.csdnimg.cn/D/A/8/3_zxxmx" class="avatar_pic" username="zxxmx"><img src="https://g.csdnimg.cn/static/user-reg-year/1x/2.png" class="user-years"></a></div><div class="middle-message"><div class="title"><span class="tit"><a href="https://blog.csdn.net/zxxmx" data-report-click="{&quot;mod&quot;:&quot;popu_379&quot;}" target="_blank">zxxmx</a></span></div><div class="text"><span>发布了1 篇原创文章</span> · <span>获赞 0</span> · <span>访问量 105</span></div></div><div class="right-message"><a href="https://im.csdn.net/im/main.html?userName=zxxmx" target="_blank" class="btn btn-sm btn-red-hollow bt-button personal-letter">私信</a><a class="btn btn-sm  bt-button personal-watch" data-report-click="{&quot;mod&quot;:&quot;popu_379&quot;}">关注</a></div></div></div>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/549233.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Liaoning Province--保三成功

现在做什么事情怎么都有遗憾&#xff0c;从小到大&#xff0c;每件事情都有遗憾...... 周六&#xff0c;在东电宾馆报道的&#xff0c;刚进宾馆&#xff0c;接待人员对我说有个人认识你&#xff0c;我诧异&#xff0c;看到后我挨个想&#xff0c;我想出来他是天之痕了&#xff…

2021-06-10

局部搜索算法是一种简单的贪心搜索算法&#xff0c;是解决最优化问题的一种启发式算法&#xff0c;该算法每次从当前解的临近解空间中根据启发函数选择一个最优解&#xff08;也不一定是最优解&#xff09;作为当前解&#xff0c;直到达到一个局部最优解。本文以求解八皇后问题…

用JavaScript嵌入你的SWF

用JavaScript嵌入你的SWFswfobject.embedSWF(swfUrl, id, width, height, version, expressInstallSwfurl, flashvars, params, attributes)有5个必须的参数和4个可选的参数&#xff1a;swfUrl&#xff08;String&#xff0c;必须的&#xff09;指定SWF的URL。 id&#xff08;S…

.NET(C#) Internals: 以一个数组填充的例子初步了解.NET 4.0中的并行(二)

引言 随着CPU多核的普及&#xff0c;编程时充分利用这个特性越显重要。上篇首先用传统的嵌套循环进行数组填充&#xff0c;然后用.NET 4.0中的System.Threading.Tasks提供的Parallel Class来并行地进行填充&#xff0c;最后对比他们的性能。本文将深入分析Parallel Class并借机…

Ghost安装之后,键盘出现字符出现乱码

今天我安装了G版本的WinServer2003,安装完成之后键盘打字出现乱字符,后来终于发现原来我的输入法模式为数字模式,按FN&#xff0b;insert可以切换回来,问题就解决了.转载于:https://blog.51cto.com/yaojian/314847

.net框架读书笔记---CLR内存管理\垃圾收集(二)

前几天学习了CLR垃圾收集原理和基本算法&#xff0c;但是那些是仅仅相对于托管堆而言的&#xff0c;任何非托管资源的类型&#xff0c;例如文件、网络资源等&#xff0c;都必须支持一种称为终止化&#xff08;finalization&#xff09;的操作。 终止化 终止化操作允许一种资源在…

关于三极管偏置电路的思考

最近在做十年前应该做的事情&#xff0c;从最基本的模拟电路实验开始&#xff0c;了解电子的基本概念。还好&#xff0c;对事物的理解&#xff0c;随着阅历增加&#xff0c;理解的程度也不一样。从三极管偏置电路&#xff0c;我想到了人的自我修养和调整。当电路调整到一个合适…

搜索引擎指令站长常用搜索引擎命令汇总

身为一个网站管理员用好各大搜索引擎一些特殊指令&#xff0c;是最基本的网站SEO。逅客百度Google取经看到有前人整理的几个搜索引擎常用指令&#xff0c;单独使用是最基本&#xff0c;能综合使用就会体验搜索的另类魅力。以下搜索引擎指令都以学海网(www.xuehai.net)为例。 一…

Socket源码相关——SocketAddress和InetSocketAddress

目录我的学习过程我的心路历程思考总结我的学习过程 昨天学习qiujuer老师的《Socket网络编程进阶与实战》实战课程中&#xff0c;写了一个简易的client-server聊天项目。我的学习方法是根据课程的一部分思路提示后&#xff0c;自己独自进行编写&#xff0c;出现了很多问题&…

三轮哥

灰太狼发现自从有了犀利哥开始&#xff0c;什么什么哥越来越流行了&#xff0c;就跟当初的各种“门”一样&#xff0c;这不&#xff0c;网上盛传许久的三轮哥&#xff0c;灰太狼今天才有幸看到。 不过话说回来&#xff0c;类似三轮哥这样的人物还是少出一点的好&#xff0c;这玩…

重构手法——提炼函数、搬移函数、以多态取代条件表达式

目录我的心路历程我的学习概括Extract Method&#xff08;提炼函数&#xff09;动机*--做法动机--做法*Move Method&#xff08;搬移函数&#xff09;动机*--做法动机--做法*Replace Conditional with Polymorphism&#xff08;以多态取代条件表达式&#xff09;动机*--做法动机…

FTP服务器架设详细图解

FTP是File Transfer Protocol&#xff08;文件传输协议&#xff09;的缩写&#xff0c;用来在两台计算机之间互相传送文件。FTP服务作为Internet最古老的服务之一&#xff0c;无论在过去还是现在都有着不可替代的作用。在企业中&#xff0c;对于一些大文件的共享&#xff0c;通…

gradle下bug修正后问题仍存在解决思路

目录我的学习过程我的学习心路热加载配置bug问题总结我的学习过程 前天写的client-server聊天项目写完后&#xff0c;今天进行了调试。我用到的是out目录下的server.class文件和client.class文件。 先后启动两个命令行窗口来进行测试的。 使用java server启动服务端窗口。 再使…

IP-tools

IP-tools 网管员的第三只眼^ Ip-tools是一款功能齐全的网管软件&#xff0c;可以随时随地的向网管员报告网络的运行情况ip-tools自身集成多种tcp/ip使用工具&#xff0c;如本地信息、链接信息、端口扫描、ping、WHOIS、finger、nslookup、telnet、NetBIOS等功能。界面是全英的&…

用git提交代码到远程仓库遇到的问题

目录我的学习过程git环境配置&#xff08;Mac版&#xff09;git原理图git的push操作思路遇到的问题我的学习过程 昨天重写了一遍聊天程序&#xff0c;准备提交到git上进行代码管理。结果遇到了不少问题。我照着网上的教程进行操作&#xff0c;一步一步踩了很多坑。 git环境配…

数字示波器的激烈竞争

计算机、通信以及消费类电子产业的快速发展成为示波器发展的不竭动力&#xff1b;厂商不断从技术上对示波器进行改进更使其发展日新月异。 <?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />数字示波器自它诞生的第一天起&#xf…

git pull和push整理和归纳

目录各个模块概念工作区版本库暂存区远程仓库pull和push流程相关的命令暂存区相关版本库相关远程仓库相关利用远程仓库协作开发各个模块概念 我的理解&#xff1a; Git是版本管理工具&#xff0c;它主要对指定目录下的一些特定的文件的修改进行版本管理。 相关的模块有&#x…

重装vcenter后恢复原来制作的模板!

重新安装vcenter后发现原来用vcenter创建的模板没有了。清单中只显示现有的4台虚拟机&#xff0c;没有显示模板。其实找回来也很简单&#xff01;在清单中找到数据存储&#xff0c;在相应的模板文件夹中找到的.vmtx文件添加到清单中去即可&#xff01;转载于:https://blog.51ct…

Linux中点号,星号,加号,问号实战

目录Linux中的星号&#xff0c;点号和加号概念我的学习过程&#xff1a;我的思考过程&#xff1a;点号&#xff08;.&#xff09;星号&#xff08;*&#xff09;加号&#xff08;&#xff09;问号&#xff08;?&#xff09;linux星号&#xff0c;点号&#xff0c;加号&#xf…