csv导入mysql_mysql导入超大csv指南

mysql导入超大csv指南

需求描述

手头下载了一个比较大(400Mb+)的语料数据,需要从里面提取出某两种语言的句子对,因为数据特别大,且csv并非标准以逗号分隔而是以tab分隔,尝试用Navicat的导入向导导入失败。

5e43fb0234b10ec18768cb4c367a755f.png

另外以后也可能会有处理超大csv的场景,mark一下方法备用。

失败方法

一开始打算直接用Navicat进行导入,尝试了一下输入向导。这里一个坑点:如果你选择csv格式,字段分隔符是不可选的,如下图。

77db74a709d90433ce2612c00629ae13.png

这时候可以在上一步就选择文本txt,然后就可以自定义分隔符了,如下图。

2efc4ac3ce3828e3c722e30e0a33daa5.png

虽然但是这里也没有tab(\t)的选项,其他那里莫名其妙只能输入一个字符,所以也输入不了\t,尝试直接下一步会一直卡住,虽然没有显示无响应但是一直在处理中,等了半个小时也不管用,所以这个方法不行。

正确食用方法

实验环境:mysql 8.0 @ win10

使用Navicat进行操作

实际上mysql是可以直接读csv文件来进行导入的,方法也超级简单。

首先需要放开允许本地导入文件

SET GLOBAL local_infile = 'ON';
50acdca859fe544702bf68766976d49d.png

看到下面执行结果为OK就可以了,然后进行导入。

LOAD DATA LOCAL INFILE 'PATH_TO_CSV_FILE' INTO TABLE TABLE_NAME	FIELDS		TERMINATED BY '\t'	LINES TERMINATED BY '\n'(FIELD1, FIELD2, ...);

填入csv的路径和表名,然后TERMINATED BY就是分隔符,后面LINE TERMINATED BY是每行结束的标志,一般来说是换行符\n,后面field就是数据库中指定的字段。运行以后,需要等待一段时间,这个时间取决于数据库io速度了。我这里做了一次清空表再做导入,可能IO比较忙,用了快三分钟,第一次导入的时候只用了78秒,速度还是蛮快的。另外这里也可以看到数据量蛮大的,一共800w+条。

eda67fe6188504fab541f514aa3ea7cf.png

其他处理超大csv的经验

如果需要打开一个超大的csv,千万不要用记事本(Notepad)打开,百分百卡死。

如果只需要进行文本编辑,可以使用vscode,打开很快,保存也比较快,但不方便进行简单编辑以外其他操作。其次使用pycharm自带的文本编辑器也能够比较快地打开超大的csv。也有推荐说用UltraEdit之类的打开的,因为vscode现有,不再测试。

可以使用Excel的从csv导入的功能(在数据-从文本/csv),另外也可以选择文件编码(如utf-8)和分隔符,他也能够自动检测(不太好用)。预览一下没问题点加载即可。但是excel有行数限制(大概),反正这份超大的语料我就无法加载。

df90bf2620c3c9c31aa674891bf87e0a.png

另外如果使用excel直接打开utf-8编码的csv会出现乱码,因为win的默认编码是gbk(目前可以把win的全局编码设置成utf-8,该设置在地区与语言里,但是开启后不支持utf-8编码的软件可能会出现文件夹乱码、软件界面乱码等奇怪的情况,还是不能开启)。同时也无法识别逗号以外分隔符的csv。因此必须用导入的方法打开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/551510.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自治区计算机一级,新疆自治区计算机一级考试题库及答案

理论试题01选择题单选题1题目要求:。)A题:PowerPoint运行的平台是(第1DosD、Linux B、Unix C、Windows A、。)C2题:下列有关信息的描述正确的是(第 A、只有以书本的形式才能长期保存信息 B、数字信号比模拟信号易受干扰而导致失真 C、信息的数…

光滑噪声数据常用的方法_数据挖掘中常用的数据清洗方法

是新朋友吗?记得先点蓝字关注我哦~数据挖掘中常用的数据清洗方法在数据挖掘过程中,数据清洗主要根据探索性分析后得到的一些结论入手,然后主要对四类异常数据进行处理,分别是缺失值(missing value),异常值(…

华为nova3游戏帧数测试软件,华为nova3最全游戏体验报告:手游玩家一定不能错过...

华为nova3搭载麒麟970人工智能芯片,并支持GPU Turbo、4D智能震撼、游戏免打扰等专为提升游戏体验的技术,那Nova3的实际游戏体验到底如何呢?楼主选择了三款游戏进行测试,分别为王者荣耀、绝地求生 刺激战场和QQ飞车!先来…

python实战演练_《Python高效开发实战》实战演练——

在完成Django项目和应用的建立后,即可以开始编写网站应用代码,这里通过为注册页面显示一个欢迎标题,来演示Django的路由映射功能。 1)首先在djangosite/app/views.py中建立一个路由响应函数:from django.http import H…

3 上传分段_32式太极拳教材分段教学:【3】32式太极拳背向演示 .3/25.

观看视频前,请先点击上面的蓝色字“杨式太极拳习练之家教学视频"再点击“关注”,这样您就可以继续免费收到太极拳剑相关教学视频了。加关注后,再【点击】上面的蓝色字“杨式太极拳习练之家教学视频",进入到“杨式太极拳…

计算机的硬件技能,计算机的最基础——软硬件

过去,互联网教程还不能像如今这样,大行其道。以前计算机的软硬配件都上不来。而无论你是学习什么的,都应该知道,计算机的最基础就是软硬件。计算机(computer)俗称电脑,是一种用于高速计算的电子计算机器,可…

python删除文件和linux删除文件区别_Linux删除文件不同方法效率对比

测试一下Linux下面删除大量文件的效率。 首先建立50万个文件 $ test for i in $(seq 1 500000);do echo text >>$i.txt;done 1. rm删除 $ time rm -f * zsh: sure you want to delete all the files in /home/hungerr/test [yn]? y zsh: argument list too long: rm rm …

python字典进行大写转化_Python字典转换成小写?

基本上比较一个小写版本的响应与小写版本的正确答案。在但有几件事在你的问题中并不完全清楚:你到底在records中存储了什么?确认书中应使用哪个国家的名称是。。。在…里?您想将用户的响应与有效同义词列表相匹配,对吗&#xff1f…

计算机里的东西太多,电脑里的东西太多,怎么样清理一下啊

一、清理C盘(1) 开始——搜索——文件或文件夹——全部或部分文件名处填写“cookie”,下面的在这里寻找选择“本地磁盘C”——下面“更多高级选项”除了“区分大小写”外全部打上勾——搜索——打开文件夹cookie——除了“index.dat”外,其它全部删除。其它的cookie…

python运用在哪些地方_必看 | 2020年,Python十大应用领域介绍!

原标题:必看 | 2020年,Python十大应用领域介绍! python作为一门当下极其火爆的编程语言,得到世界范围内无数编程爱好者和开发者喜欢并不是偶然的,除了要比其他编程语言更容易入门,python还拥有无比广阔的应…

python图片保存重命名_Python实现重命名一个文件夹下的图片

在网上查了一下python实现的图片重命名,工作中刚好用一下。1 # -*- coding:utf8 -*-2 import os3 path 新建文件夹 (2)/4 filelist os.listdir(path)5 for item in filelist:6 # print(item name is ,item)7 if item.endswith(.jpg):8 name item.split(.,1)[0]9 …

计算机jsp外文文献,计算机 JSP web 外文翻译 外文文献 .doc

PAGEword文档 可自由复制编辑外文资料所译外文资料: 1 \* GB3 ① 作者:Dan Malks 2 \* GB3 ② 书名:Professional JSP 3 \* GB3 ③ 出版时间: 2000.7.26 4 \* GB3 ④ 所译章节: Chapter 1212.1 IntroductoryGood Web application design trie…

ffmpeg libx264_nginx+ffmpeg搭建流媒体服务器(直播流)

这里实现了简单nginxffmpeg 推本地mp4视频文件的功能,以后将会继续更新环境系统环境:CentOS release 6.7 (Final)需求利用nginx和ffmpeg搭建流媒体服务器利用nginx和ffmpeg搭建流媒体服务器(直播流),其他流后续会有所更新关于用Nginx搭建flv,…

模拟器不全屏_puNES 适用于 Windows 和 Linux 的开源 NES 模拟器

在游戏方面,我个人并不喜欢玩网络游戏,如果要玩游戏,也都是玩一些单机版的,我个人比较喜欢 ATC 动作过关游戏。年前的时候用发小的 PS4 玩了几天,虽然游戏都是大作,但是仍然无法撼动我对单机以及像素类游戏…

计算机人文研究生专业,西安科技大学,艺术、人文、材料、计算机、通信等专业调剂信息...

学院:艺术学院接受调剂的学科及专业领域调剂要求1.符合西安科技大学2020年硕士研究生招生简章中规定的报考条件。2.调剂考生成绩(单科、总分)符合第一志愿报考专业和申请调剂专业在A类地区的《全国初试成绩基本要求》。3.申请调剂专业与第一志…

python爬虫加密空间_Python爬虫进阶必备 | XX同城加密分析

目标网站: aHR0cHM6Ly9wYXNzcG9ydC41OC5jb20vbG9naW4vP3BhdGg9aHR0cHMlM0EvL2Z6LjU4LmNvbS8mUEdUSUQ9MGQxMDAwMDAtMDAxMy0wMjk0LTFjZWItYjU3NTBiZDIwNmU5JkNsaWNrSUQ9Mg 抓包分析与加密定位 老规矩先抓包看看【图1-1】图1-1 今天主要分析的是划线的三个参数&#xf…

icloud连接服务器时出现问题_登录iCloud提示验证失败,连接到服务器时出现问题怎么办...

若您在 iPhone/iPad 上使用 Apple ID 登录 iCloud 时,提示“验证失败:连接到服务器时出现问题”,一般是网络连接出现异常导致,请参考如下信息尝试解决。检查网络状况请确保您的 iPhone 已经连接到网络,您可以打开 Safa…

苹果验证电子邮件地址服务器错误,苹果7P账户申请,验证电子邮件地址创建新Apple ID发生未知错误...

在电脑上可以注册地址的1、在IOS设备或电脑上都可以注册Apple ID,打开iTunes然后点击左上角的上角菜单图标,依次点击iTunes store和创建Apple ID,跳转页面之后出现欢迎光临iTunes store的页面,点击右下角的继续即可2、随后进入到条…

代码 抠图_3 行 Python 代码 5 秒抠图的 AI 神器,根本无需 PS

文 | 苏克 1900高级农名工推荐 | 编程派公众号(ID:codingpy)曾几何时,「抠图」是一个难度系数想当高的活儿,但今天要介绍的这款神工具,只要 3 行代码 5 秒钟就可以完成高精度抠图,甚至都不用会代码,点两下鼠…

用python设计数独的心得体会_python实现数独算法实例

本文实例讲述了python实现数独算法的方法。分享给大家供大家参考。具体如下: # -*- coding: utf-8 -*-Created on 2012-10-5 author: Administratorfrom collections import defaultdict import itertools a [ [ 0,7,0],#0 [ 5,3,6,#1 [ 0,2,8,#2 # [ 0,5,#3 [ 0,4…