kaggle赛后总结

1. 宽表

在这里插入图片描述

2.缺失值的处理方法

  • 最简单粗暴的就是删除,这种情况是凡是有缺失值行数很少。
  • 均值替代。缺失值的行数比较多一点儿的时候,直接删除会影响样本数量,那就均值替代,或者中位数替代等方法。
  • 还有复杂的方法,把有缺失值的列做Y标签,用其他列做X,训练模型,缺失值处用预测值替代,很繁琐,但效果比较好一点。

3.超参搜索

超参搜索通过代码放到每个算法上。这个很有价值,因为模型训练就实现了自动化。模型训练,处理数据处理,特征工程外,很关键的就是调整参数,让模型精度实现最优。

4.不均衡数据处理

主要是不同种类标签的数量有的非常多,有的非常少。把非常少的,进行简单的复制黏贴使每个标签种类的数量达到1000,实现所有标签种类的大体均衡,成为均衡数据

5.书籍推荐

  • 李沐的《统计学习》
  • 周志华《机器学习》

6.hierarchical model,层级模型,分层模型

有2个底层逻辑不同的算法,分别命名为算法1,和,算法2。算法1较弱一点。

我们用算法1的预测结果作为新特征X,放进训练数据集。相当于,我用算法1去训练模型1时,有30个X (x1,x2,~~, x30) , 现在算法1模型的预测结果作为x31,这样训练数据就有31个X了,再算法2去训练模型2,再去做预测。

如果用算法1训练模型1,并把所有训练数据都做预测,预测结果作为新特征x31?

用三折法,(或者五折法),即:把train数据随机均分成三份,dataset1,dataset2,dataset3。拿dataset1和dataset2这两份训练模型合并在一起,用算法1训练模型model3,并对dataset3数据做预测,预测结果Ypred3,作为新特征放进dataset3中,作为新的1/3训练数据dataset3new。

依次类推,分别把用dataset2和dataset3合并起来,依然用算法1训练模型model1,并对dataset1做预测,预测结果Ypred1作为新的特性放进dataset1中,作为新的1/3训练数据dataset1new。

再求出dataset2new,最后合并dataset1new,dataset2new,dataset3new成datasetnew。

使用datasetnew数据做训练,用算法2训练基于算法2的M2。

用train数据(包含dataset1,dataset2,dataset3),用算法1训练模型M1,对testsuperset做预测,预测结果Ypred_testsuperset作为新的特性重新放入testsuperset之中,生testsuperset_new。再用M2对testsuperset_new重新预测,预测结果作为最后结果submission_new提交kaggle。

理论上,这时的精度更好。

这就是分层模型。

注意:算法1和2是不同底层逻辑的不同算法。

7.基于逻辑回归的多分类算法

  • multiple logistical
  • regression model
  • Deep Belief Networks (DBNs)
  • Radial Basis Function Networks (RBFNs)

8.学习器结合

  • 算法1:BLAST
  • 算法2:PSI-BLAST
  • 算法3:HMMER
  • 算法4:HHSearch
    最后将上述结果通过投票规则,选出得票最高的每个sequence的term值,及其相似性的取值。

9.集成学习总结:Adaboosting、随机森林、Bagging、结合策略

10.学习器结合能带来三点好处

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/64512.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习笔记之最优化理论与方法(四) 凸函数:定义与基本性质

机器学习笔记之最优化理论与方法——再回首:凸函数定义与基本性质 引言凸函数的定义严格凸函数凸函数的推论:凹函数 常见凸函数凸函数的基本性质几种保持函数凸性的运算凸集与凸函数之间的关联关系 引言 本节将介绍凸函数定义及其基本性质。 本文是关于…

网络安全应急响应典型案例-(DDOS类、僵尸网络类、数据泄露类)

一、DDOS类事件典型案例 DDOS攻击,即分布式拒绝服务攻击,其目的在于使目标电脑的网络或系统资源耗尽,使服务暂时中断或停止,导致其正常用户无法访问。CC攻击使用代理服务器向受害服务器发送大量貌似合法的请求(通常…

设计模式—简单工厂

目录 一、前言 二、简单工厂模式 1、计算器例子 2、优化后版本 3、结合面向对象进行优化(封装) 3.1、Operation运算类 3.2、客户端 4、利用面向对象三大特性(继承和多态) 4.1、Operation类 4.2、加法类 4.3、减法类 4…

【爬虫】7.1. JavaScript动态渲染界面爬取-Selenium

JavaScript动态渲染界面爬取-Selenium的简单学习 文章目录 JavaScript动态渲染界面爬取-Selenium的简单学习1. Selenium准备工作2. Selenium简单用法2.1. 初始化浏览器对象-webdriver.Chrome()2.2. 访问界面-browser.get()2.3. 查找节点-find_element()2.4. 节点交互-send_keys…

多线程练习-使用两个线程来累加 count 的值

题目 有20个线程,需要同时启动。 每个线程按0-19的序号打印,如第一个线程需要打印0 请设计代码,在main主线程中,等待所有子线程执行完后,再打印 ok 代码以及注释 public class Soultion {public static void main…

QUdpSocket Class

继承自 QAbstractSocket 类 QUdpSocket类提供UDP套接字。 UDP(用户数据报协议)是一种轻量级、不可靠、面向数据报、无连接的协议。它可以在可靠性不重要的情况下使用。QUdpSocket是QAbstractSocket的一个子类,它允许您发送和接收UDP数据报。 使用这个类最常见的方法…

C++STL字符串string知识汇总,恶补!

基础不牢,地动山摇。 今天小米的笔试编程题,输入格式是一整个字符串,需要从字符串中分割出数据,同时还需要将字符串转换为int数值。 本来用C写,写到一般想起来了C中没有split()函数,想到在java中有这个函数…

Linux安装包deb格式安装方法

deb格式介绍 DEB是Debian软件包格式的文件扩展名,跟Debian的命名一样,DEB也是因Debra Murdock而得名,她是Debian创始人Ian Murdock的太太。 安装方法 主要有两种: apt: 支持离线在线的结合安装,主要解决部分安装包依赖不全的问题dpkg: 纯…

【探索SpringCloud】服务发现-Nacos服务端数据结构和模型

前言 上一文中,我们从官方的图示了解到Nacos的服务数据结构。但我关心的是,Nacos2.x不是重构了吗?怎么还是这种数据结构?我推测,必然是为了对Nacos1.x的兼容,实际存储应该不是这样的。于是,沿着…

VueRouter的基本使用

路由的基本使用 文章目录 路由的基本使用01-VueRouterVueRouter的使用 ( 5 2)综合代码 拓展:组件存放问题 什么是路由呢? 在生活中的路由:设备和IP的映射关系 在Vue中:路径 和 组件 的 映射 关系。 01-Vu…

怎么从0到1创建一个PHP框架-1?

写在前面 本人开发的框架在2021年年初开发完成,后面没有再做过任何维护和修改。是仅供大家参考交流的学习项目,请勿使用在生产环境,也勿用作商业用途。 框架地址: https://github.com/yijiebaiyi/fast_framework 整体思路 开发…

SpringBoot第45讲:SpringBoot定时任务 - Timer实现方式

SpringBoot第45讲:SpringBoot定时任务 - Timer实现方式 定时任务在实际开发中有着广泛的用途,本文是SpringBoot第45讲,主要帮助你构建定时任务的知识体系,同时展示Timer 的schedule和scheduleAtFixedRate例子;后续的文章中我们将逐一介绍其它常见的定时任务,并与SpringBo…

并发测试工具 apache-jmeter使用发送post请求JSON数据

目录 1 下载安装 2 汉化 3 创建高并发测试 配置线程组 创建web请求 创建监听器 结果树 汇总报告 为web请求添加token 添加Content-Type用于发送json 4 启动测试 5 查看结果 1 下载安装 官网Apache JMeter - Download Apache JMeter 解压运行 2 2 汉化 打开软件…

【Mysql系列】(一)MySQL语句执行流程

首发博客地址 首发博客地址 系列文章地址 参考文章 MySQL 逻辑架构 连接器 连接命令一般是这么写的 mysql -h$ip -P$port -u$user -p 那么 什么是连接器? MySQL 连接器(MySQL Connector)是用于连接和与 MySQL 数据库进行交互的驱动程序。它提…

远程管理通道安全SSH协议主机验证过程

可以使用SSH协议进行远程管理通道安全保护,其中涉及的主要安全功能包括主机验证、数据加密性和数据完整性保护。 这里要注意的是【主机验证】和【身份验证】的区别,主机验证是客户端确认所访问的服务端是目标访问对象,比如从从客户端A(192.16…

MongoDB 的简介

MongoDB 趋势 对于 MongoDB 的认识 Q&A QA什么是 MongoDB? 一个以 JSON 为数据模型的文档数据库一个以 JSON 为数据模型的文档数据库文档来自于“JSON Document”,并非我们一般理解的 PDF,WORD谁开发 MongDB? 上市公司 MongoD…

【USRP】产品型号、参数、架构全解析系列 1:B200 / B210 / B200mini / B205mini

一、 USRP 简介 通用软件无线电外设( USRP ) 是由 Ettus Research 及其母公司National Instruments设计和销售的一系列软件定义无线电。USRP 产品系列由Matt Ettus领导的团队开发,被研究实验室、大学和业余爱好者广泛使用。 大多数 USRP 通过以太网线连接到主机&a…

每日一题 1372二叉树中的最长交错路径

题目 给你一棵以 root 为根的二叉树,二叉树中的交错路径定义如下: 选择二叉树中 任意 节点和一个方向(左或者右)。如果前进方向为右,那么移动到当前节点的的右子节点,否则移动到它的左子节点。改变前进方…

flutter plugins插件【三】【Flutter Intl】

3、 Flutter Intl 多语言国际化 在Android Studio中菜单Tools找到flutter intl创建多语言配置。 创建后会在pubspec.yaml出现 flutter_intl:enabled: true 在工程的lib会生成l10n与generated文件夹 l10n包含 intl_en.arb intl_zn.arb 我们在intl_en.arb添加 { home: &quo…

青翼科技基于VITA57.1的16路数据收发处理平台产品手册

FMC211是一款基于VITA57.1标准规范的实现16路LVDS数据采集、1路光纤数据收发处理FMC子卡模块。 该板卡支持2路CVBS(复合视频)视频输入,能够自动检测标准的模拟基带电视信号,并将其转变为8位ITU-R.656接口信号或者4:2:2分量视频信…