薅羊毛 Colab使用外部数据的7种方法!

088982968dfd6dc666978ced136657ff.png

文 | Coggle
源 | Coggle数据科学

Colab作为非常强大且优惠的计算平台,一直广受大家喜爱。可以随时随地使用,还有免费的GPU可以薅羊毛。那么如何在Colab中使用外部数据集,来完成竞赛呢,本文将给出几种常见的方法。

方法1:通过Files explorer上传

点击Notebook的Files explorer面板:656e8578967b7310ac82f849e5cf2b12.png然后点击上传按钮:cf6c9aacc6a4bf942b5d70f205a3a9b0.png当上传结束后,就可以直接读取:a58d88aca07321d3a09db9633f34feef.png

方法2:使用Colab files上传

输入并运行下面代码:

from google.colab import filesuploaded = files.upload()

a49a10ad0adde1258eda92e851768a06.png然后就可以选择对应的文件,完成上传:32fdf2c50201fdeac88ca8c8e335f9b4.png

方法3:读取Github链接

在github页面找到对应的文件路径,注意是文件的Raw链接:49b8f75293426c7eb4cbb1abea794889.png然后将链接写到对应的位置。

方法4:克隆Github项目

先从命令行下载项目:

!git clone https://github.com/BindiChen/machine-learning.git

然后从对应的路径完成数据读取。d7759e06c52046307a217f98da8e1dbb.png

方法5:使用wget/axel下载文件

在Notebook中可以使用Linux系统命令,可以使用wgetaxel下载数据:5e7bb9a39c4c4e86ddd2ec2dd029578a.png

方法6:读取谷歌硬盘数据

挂载了谷歌硬盘后,写好路径完成读取:7863f054fa6148f2e598fb5cc3085974.pngcc4c2092dff8db52f84f345ddaaba5af.png

方法7:Kaggle API完成数据下载

首先在Kaggle账户的Kaggle API,点击Create New API Token,会下载一个kaggle.json文件。576925ab1fa0385bcbcdea99259e29ef.pngkaggle.json文件上传后,就可以使用kaggle-api下载比赛数据或者数据集。

!kaggle competitions download -c titanic!kaggle datasets download -d alexanderbader/forbes-billionaires-2021-30
5b7e37f9a83a0e20b44f1ec0c7046e0b.png

0e601f1d6ff553292fb3c20f611703b7.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

d93bb478e0efed6edf2bf81a9e1a4d6d.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478036.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高可用性系统在大众点评的实践与经验

背景 所谓高可用性指的是系统如何保证比较高的服务可用率,在出现故障时如何应对,包括及时发现、故障转移、尽快从故障中恢复等等。本文主要以点评的交易系统的演进为主来描述如何做到高可用,并结合了一些自己的经验。需要强调的是&#xff0c…

图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!

文 | ZenMoore编 | 小轶图灵奖大佬 Geoffrey Hinton 的团队和 Google Brain 团队近日发布新工作 Pix2seq,将 CV 经典任务 目标检测 转换为了语言模型的下游任务。这就很有意思了朋友们!因为这是一个很一般化的范式!也就是说,不光是…

论文浅尝 | 异构图 Transformer

笔记整理:许泽众,浙江大学博士在读论文链接:https://arxiv.org/abs/2003.01332本文主要提出一种处理异构图的方法,所谓异构图(Heterogeneous graph)是指在一个图中会出现不同类型的边和节点的图。早期对于图…

LeetCode 1145. 二叉树着色游戏(计算节点个数)

1. 题目 有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中,给出二叉树的根节点 root,树上总共有 n 个节点,且 n 为奇数,其中每个节点上的值从 1 到 n 各不相同。 游戏从「一号」玩家开始(「一号」玩家为红色&a…

常见的时间序列预测模型python实战汇总

最完整的时间序列分析和预测(含实例及代码):https://mp.weixin.qq.com/s/D7v7tfSGnoAqJNvfqGpTQA 1 时间序列与时间序列分析 在生产和科学研究中,对某一个或者一组变量 x(t)x(t) ARIMA 模型对时间序列的要求是平稳型。因此&#x…

简单复读机LR如何成为推荐系统精排之锋?

文 | 水哥源 | 知乎saying1. 众所周知, 人类(划掉)推荐的本质是复读机2. 精排之锋,粗排之柔,召回之厚3. 在推荐里谈“过拟合”很容易给我们造成心理上的松懈,导致我们忽略环境,氛围等多种因素的…

从0到1构建美团压测工具

背景 美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有: 使用一些脚本语言如:Python、Ruby等,读取线上…

论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示

笔记整理:朱珈徵,天津大学硕士链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf动机现有的视觉语言预训练方法试图通过在大的图像文本数据集上的视觉基础任务来学习联合表示,包括基于随机掩码子词的掩码语言建模、掩码…

LeetCode 222. 完全二叉树的节点个数(二分查找)

1. 题目 给出一个完全二叉树,求出该树的节点个数。 说明: 完全二叉树的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干…

常见的统计分析方法汇总,指标对比分析、时间序列预测

常见的八种统计分析法如下: 指标对比分析法分组分析法时间数列及动态分析法指数分析法平衡分析法综合评价分析景气分析预测分析 1 比较分析法## 一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法。是通过有关的指…

这三个NLP项目写进简历,网申通过率提高50%

01三大企业级项目项目一京东智能对话系统项目项目简介:智能客服机器人已经成为了客服系统的重要组成部分,帮助人工客服提升工作效率,为企业降低人工成本。作为智能客服的行业先驱,京东多年来致力打造全链路的客服机器人&#xff0…

论文浅尝 | MulDE:面向低维知识图嵌入的多教师知识蒸馏

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。Motivation为了更高的精度,现有的KGE方法都会采用较高的embedding维度,但是高维KGE需要巨大的训练成本和存储空间。现…

LeetCode 453. 最小移动次数使数组元素相等(数学)

1. 题目 给定一个长度为 n 的非空整数数组,找到让数组所有元素相等的最小移动次数。每次移动可以使 n - 1 个元素增加 1。 示例: 输入: [1,2,3]输出: 3 解释: 只需要3次移动(注意每次移动会增加两个元素的值):[1,2,3] > [2…

性能优化模式

摘要 性能优化涉及面很广。一般而言,性能优化指降低响应时间和提高系统吞吐量两个方面,但在流量高峰时候,性能问题往往会表现为服务可用性下降,所以性能优化也可以包括提高服务可用性。在某些情况下,降低响应时间、提高…

征稿 | 国际KG大会 IJCKG 2021专辑征文

国际知识图谱联合会议(International Joint Conference on Knowledge Graphs (IJCKG 2021, 与ACM/SIGAI联合办会)今年将于12月6日-8日在线召开。Data Intelligence今年被EI数据库收录后,有幸成为大会推荐期刊,大会优秀论文将推荐在…

200字带你看完一本书,GPT-3已经会给长篇小说写摘要了

文 | 博雯源 | 量子位现在,AI能帮你200字看完一段12万词的长篇小说了!比如这样一段121567词的《傲慢与偏见》原文:▲图源OpenAI官网AI分四个阶段来总结:先把原文总结成276个摘要(24796词),然后进…

LeetCode 1252. 奇数值单元格的数目

1. 题目 给你一个 n 行 m 列的矩阵,最开始的时候,每个单元格中的值都是 0。 另有一个索引数组 indices,indices[i] [ri, ci] 中的 ri 和 ci 分别表示指定的行和列(从 0 开始编号)。 你需要将每对 [ri, ci] 指定的行…

Google Research新成果,让表格理解和检索更上一层楼!

文 | 舞风小兔编 | 智商掉了一地如何更好地理解自然语言查询问题与表格信息?Google Research给出了一个改进版Transformer,一起来看看吧!表格以结构化方式存储信息,广泛地存在于web世界中。表格最为常见的一种用法就是人们查询其中…

论文浅尝 | 用于视觉推理的显式知识集成

论文笔记整理:刘克欣,天津大学硕士链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf动机现有的可解释的和显式的视觉推理方法仅执行基于视觉证…

美团O2O排序解决方案——线下篇

背景 针对美团90%的交易发生在移动端的业务特点,我们实现了一套适用于O2O业务的搜索排序技术方案,已在许多产品和子行业中得到应用。在之前的线上篇中,我们已经介绍了服务的框架、排序算法等。本文为线下篇,主要讲述数据清洗、特征…