Kaggle之旅1

Kaggle之旅1

文章目录

  • Kaggle之旅1
  • 前言
  • 一、目标?
  • 二、课程1 pandas
    • 1. 学和练
    • 2. 一些关键摘要
  • 总结


前言

Kaggle是一个以数据科学竞赛为主题的在线平台。它提供了一个数据科学社区,让数据科学家和机器学习专家可以在这里交流、学习和竞争。Kaggle上有大量的数据集可以供用户使用,这些数据集可以用于挑战、研究和实践。用户可以在Kaggle上提交他们的解决方案,并与其他用户进行比较和讨论。平台还提供了一个排行榜,显示出解决方案的效果和排名。除了数据集和竞赛,Kaggle还提供了各种教程和学习资源,帮助用户提升他们的数据科学技能。Kaggle还有一个社区论坛,用户可以在这里提问、寻求帮助和分享经验。

Kaggle被很多数据科学家和机器学习爱好者视为一个学习和交流的宝贵资源。它提供了一个机会,让用户能够与全球最优秀的数据科学家竞争和合作,共同解决现实世界的问题。

从今天开始我将开启Kaggle之旅,边学边记录。


一、目标?

学习一个新事物需要定下目标,本周目标:

  1. 先熟练掌握kaggle的使用,并学一些感兴趣的内置课程
  2. 练习Chess Game Dataset的操作分析

二、课程1 pandas

1. 学和练

学习链接:https://www.kaggle.com/learn/pandas
6个主题,

  1. 创建、读、写,如果不会读取数据,自然就无法对数据进行操作。
  2. 索引、选择与赋值
  3. 从多个数据源中重命名或合并数据
  4. 分析与映射
  5. 分组与排序
  6. 数据类型与异常值处理

每个主题结束,可以进行练习,效果很不错。

2. 一些关键摘要

都是比较简单的英文,就不翻译了

  1. two core objects in pandas: the DataFrame and the Series.
  2. The list of row labels used in a DataFrame is known as an Index. We can assign values to it by using an index parameter in our constructor
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']},index=['Product A', 'Product B'])
  1. If a DataFrame is a table, a Series is a list.
  2. A Series is, in essence, a single column of a DataFrame. And a Series does not have a column name, it only has one overall name
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')
  1. So a CSV file is a table of values separated by commas. Hence the name: “Comma-Separated Values”, or CSV.
  2. we can access the property of an object by accessing it as an attribute. A book object, for example, might have a title property, which we can access by calling book.title. Columns in a pandas DataFrame work in much the same way.
  3. index-based selection: selecting data based on its numerical position in the data. iloc follows this paradigm.
  4. Both loc and iloc are row-first, column-second. This is the opposite of what we do in native Python, which is column-first, row-second.
reviews.iloc[0]
reviews.iloc[:, 0]
reviews.iloc[-5:]
# 以上这3个函数,第1个取第一行,第二列的数据;
# 第2个取第一列的数据;
# 第3个取倒数五行的数据
  1. The second paradigm for attribute selection is the one followed by the loc operator: label-based selection. In this paradigm, it’s the data index value, not its position, which matters.
reviews.loc[0, 'country']
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]
# 使用loc根据列名筛选数据
  1. Choosing between loc and iloc,the two methods use slightly different indexing schemes.
  2. iloc uses the Python stdlib indexing scheme, where the first element of the range is included and the last one excluded. So 0:10 will select entries 0,…,9. loc, meanwhile, indexes inclusively. So 0:10 will select entries 0,…,10.
    Why the change? Remember that loc can index any stdlib type: strings, for example. If we have a DataFrame with index values Apples, …, Potatoes, …, and we want to select “all the alphabetical fruit choices between Apples and Potatoes”, then it’s a lot more convenient to index df.loc[‘Apples’:‘Potatoes’] than it is to index something like df.loc[‘Apples’, ‘Potatoet’] (t coming after s in the alphabet).
    This is particularly confusing when the DataFrame index is a simple numerical list, e.g. 0,…,1000. In this case df.iloc[0:1000] will return 1000 entries, while df.loc[0:1000] return 1001 of them! To get 1000 elements using loc, you will need to go one lower and ask for df.loc[0:999].
    关于这点,还是要解释下,首先,loc是指location的意思,iloc中的i是指integer。这两者的区别如下:loc是根据index来索引,比如读入的df定义了一个index,那么loc就根据这个index来索引对应的行。iloc并不是根据index来索引,而是根据行号来索引,行号从0开始,逐次加1。这里有篇文章帮助理解:https://zhuanlan.zhihu.com/p/129898162

总结

以上就是今天记录的Kaggle学习情况。【未完待续】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/627754.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度掌握 Nginx Ingress:解锁高级功能,打造 Kubernetes 中的流量掌控艺术

前言 在 Kubernetes 的世界里,Nginx Ingress 不仅是流量的门卫,更是一把强大的调控利器。我们已经领略了其基础面貌,现在让我们踏上深度之旅,揭示 Nginx Ingress 的高级功能,助你在 Kubernetes 中创造流量掌控的艺术。…

2024秋招,深信服测试开发工程师一面

前言 回顾一下我秋招参加的第一次线下面试 这个面试体现出了我的很多弱点,也为我后面的改进起着很重要的作用 时间:40min 平台:线下面试 过程 1、个人介绍 2、项目经历 3、团队项目中负责的模块,队友都负责哪些工作&#x…

使用免费敏捷工具Leangoo领歌管理Sprint Backlog

什么是Sprint Backlog? Sprint Backlog是Scrum的主要工件之一。在Scrum中,团队按照迭代的方式工作,每个迭代称为一个Sprint。在Sprint开始之前,PO会准备好产品Backlog,准备好的产品Backlog应该是经过梳理、估算和优先…

C语言编译链接

1.翻译环境和运⾏环境 在ANSI C的任何⼀种实现中,存在两个不同的环境。 第1种是翻译环境,在这个环境中源代码被转换为可执⾏的机器指令。 第2种是执⾏环境,它⽤于实际执⾏代码。 2. 翻译环境 翻译环境是由编译和链接两个⼤的过程组成的&…

Spring环境搭配

概述 Spring 是一个开源框架,Spring 是于2003 年兴起的一个轻量级的Java 开发框架,由 RodJohnson 在其著作 Expert One-On-One J2EE Development and Design 中阐述的部分理念和原型衍生而来。它是 为了解决企业应用开发的复杂性而创建的。框架的主要优势…

mockjs使用1

mockjs使用 1、定义 Mock.js 是一款模拟数据生成器,旨在帮助前端攻城师独立于后端进行开发,帮助编写单元测试。提供了以下模拟功能: 根据数据模板生成模拟数据模拟 Ajax 请求,生成并返回模拟数据基于 HTML 模板生成模拟数据 2…

软件测试|SQLAlchemy query() 方法查询数据

简介 上一篇文章我们介绍了SQLAlchemy 的安装和基础使用,本文我们来详细介绍一下如何使用SQLAlchemy的query()方法来高效的查询我们的数据。 创建模型 我们可以先创建一个可供我们查询的模型,也可以复用上一篇文章中我们创建的模型,代码如…

Python字典,什么是字典、增删改查、属性操作和遍历

Python字典是一种无序的、可变的数据类型,它可以存储任意类型的数据,通过键值对的方式进行存储和访问。 字典的增: 使用键值对的方式,将数据添加到字典中。可以通过以下两种方式进行增加: 使用索引表达式&#xff08…

游戏开发,中小公司跳槽去大厂容易还是考研应届生校招容易?

游戏开发,中小公司跳槽去大厂容易还是考研应届生校招容易? 在之前的文章中,我们提到过,游戏开发行业首选直接进入游戏大厂。《开发者必读:如何选择适合的游戏开发公司?》因为大厂不仅能提供良好的职业发展…

接口防刷方案

1、前言 本文为描述通过Interceptor以及Redis实现接口访问防刷Demo 2、原理 通过ip地址uri拼接用以作为访问者访问接口区分 通过在Interceptor中拦截请求,从Redis中统计用户访问接口次数从而达到接口防刷目的 如下图所示 3、案例工程 项目地址: htt…

localStorage、sessionStorage、vuex区别和使用感悟

一、介绍及区别 localStorage的生命周期是永久;不手动在浏览器提供的UI上清除localStorage信息,否则这些信息将永远存在。 sessionStorage的生命周期为当前窗口或标签页,一旦窗口或标签页被永久关闭,那么所有通过sessionStorage存…

AI红娘开启约会新时代;网易云音乐Agent实践探索;微软生成式AI课程要点笔记;ComfyUI新手教程;图解RAG进阶技术 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 👀 Perplexity 官宣 7360 万美元B轮融资,打造世界上最快最准确的答案平台 https://blog.perplexity.ai/blog/perplexity-rais…

uniapp中uview组件库Toast 消息提示 的使用方法

目录 #基本使用 #配置toast主题 #toast结束跳转URL #API #Props #Params #Methods 此组件表现形式类似uni的uni.showToastAPI,但也有不同的地方,具体表现在: uView的toast有5种主题可选可以配置toast结束后,跳转相应URL目…

Linux系统——yum仓库及NFS共享

目录 一、yum仓库 1.yum简介 2.yum实现过程 3.如何实现安装服务 4.yum配置文件及命令 4.1yum配置文件 4.1.1主配置文件 4.1.2仓库设置文件 4.1.3日志文件 4.2yum命令详解 4.2.1查询 4.2.2yum安装升级 4.2.3软件卸载 4.2.4操作安装历史记录 5.搭建本地yum仓库 5…

【分布式技术】分布式存储ceph部署

目录 一、存储的介绍 单机存储设备 单机存储的问题 商业存储 分布式存储 二、分布式存储 什么是分布式存储 分布式存储的类型 三、ceph简介 四、ceph的优点 五、ceph的架构 六、ceph的核心组件 七、OSD存储后端 八、Ceph 数据的存储过程 九、Ceph 版本发行生命周…

NFS的共享与挂载

一、NFS网络文件服务 1.1简介 NFS(Network File System 网络文件服务) 文件系统(软件)文件的权限 NFS 是一种基于 TCP/IP 传输的网络文件系统协议,最初由 Sun 公司开发。 通过使用 NFS 协议,客户机可以像访…

【数据库8.0备份还原】之Percona XtraBackup

目录 Percona XtraBackup备份数据库1、Percona XtraBackup的介绍2、Percona XtraBackup安装3、Percona XtraBackup8.0的使用1.全库备份和还原2.增量备份和还原3.差异备份和还原4.差异备份和增量备份的区别5.压缩备份和还原 Percona XtraBackup备份数据库 yum源安装&#xff1a…

Spring基础属性一览:注释、对象装配、作用域、生命周期

在Spring中想要更简单的存储和读取对象的核心是使用注解,也就是我们接下来要学的Spring中相关注解。 之前我们存储Bean时,需要在自己添加的配置文件中添加一行bean才行: 而现在我们只需要一个注解就可以替代之前要写的一行配置的繁琐了。 …

消息队列的作用与使用场景?

一、消息队列的作用 队列的主要作用是消除高并发访问高峰,加快网站的响应速度。 在不使用消息队列的情况下,用户的请求数据直接写入数据库,在高并发的情况下,会对数据库造成巨大的压力,同时也使得系统响应延迟加剧。 …

基恩士PLC编程kv7000软件KV-STUDIO V11.63从入门到精通学习资料

恩士PLC软件KV-STUDIO V11.63是一款用于编程和配置基恩士PLC的软件。它提供了一个直观的界面,使用户能够轻松地创建和编辑PLC程序,并进行在线调试和监视。该软件还具有丰富的功能,包括数据记录、报警管理、远程访问等。此外,KV-ST…