Hadoop,Hive 数据预处理CR

记录一次大材小用,我在将.csv电影数据集
电影json数据
导入MySQL时,出现了报错:
err1
很明显,意味着.csv中的数据有非utf8编码的,
尝试使用file查看了下.csv文件的编码格式:

如果不确定原始编码,可以先用file命令尝试检测一下:

file -i input.csv

该命令会显示文件的MIME类型和字符编码信息。
utf
猜测可能是特殊格式的问题导致的!
首先想到了是使用iconv命令强转下编码格式,来实现数据的预处理

iconv -f utf-8 -t utf-8 -c movieSet.csv > movies.csv

解释下:

  • -f utf-8 表示原始文件编码是UTF-8
  • -t utf-8 由于你想要保持UTF-8编码不变,所以目标编码也是UTF-8。虽然这个设置在这种情况下看起来可能多余,但结合-c选项,它可以帮助过滤掉任何非法的UTF-8序列。
  • -c 参数表示在转换过程中丢弃无效字符(即无法转换为UTF-8的字符)。
    movieSet.csv 是源文件名。
  • movies_utf8_cleaned.csv 将转换后的内容重定向到新的文件movies_utf8_cleaned.csv
  • 如果movieSet.csv实际不是UTF-8编码,请先确定其实际编码,然后替换-f utf-8后的编码类型。

与此同时,也看了下MySQL的编码:
utf8

其实,感觉用Python预处理会好点
利用codecs模块或正则表达式来清除非法的UTF-8编码序列:
给出了之前使用的代码:

import codecs
import re# 定义清理非法UTF-8编码序列的函数
def clean_utf8_string(input_str)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/745277.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hive3.0.0安装初始化过程,schematool -dbType mysql -initSchema报错

详细如下: 从字面意思理解,是在hive-site.xml文件3213行出现了非法字符,处理步骤如下 1、使用vi 3213 hive-site.xml打开文件 2、删除“&#8”,保存文件 3、再次执行初始化命令 schematool -dbType mysql -initSchema 4、登…

Xcode15.3 -Library ‘iconv2.4.0‘ not found

今天升级了一下Mac mini 和Xcode15.3,运行项目就报 Library ‘iconv2.4.0’ not found的错误 xcode升级到:15.3(15A240d) 项目在旧版本下,是能通过编译 并且能运行的。 解决方法: 方案1:在Build Phases --> Link…

华为OD技术C卷“测试用例执行计划”Java解答

描述 示例 算法思路1 整体思路是,先读取特性的优先级和测试用例覆盖的特性列表,然后计算每个测试用例的优先级,并将其与测试用例的索引存储到二维数组中。最后按照优先级和索引排序,输出测试用例的索引,即为执行顺序。…

游戏测试 - 面经 - 创梦天地科技

2024.3.6 Boss直聘 2024.3.13 面试 2024.3.14 电话通知约第二轮面试 自我介绍 平时有玩过什么游戏 射击类有玩过吗 实习时是测试岗是吗 自动化的测试化脚本有自己编写过吗 有没有做过其他功能测试的部分 有没有测试用例之类的 测试用例表头有哪些内容 你们在写用例之…

Maven 命令保存log、 2>1 和 maven项目打包及命令

一.maven项目打包及命令 (1).先把命令行切换到Maven项目的根目录, 例如:/data/springcloud/eureka,然后执行命令:mvn clean package [rootlocalhost ~]# cd /data/springcloud/eureka [rootlocalhost eureka]# mvn clean packag…

网络编程套接字(4)——Java套接字(TCP协议)

目录 一、Java流套接字通信模型 二、TCP流套接字编程 1、ServerSocket ServerSocket构造方法: ServerSocket方法: 2、Socket Socket构造方法: Socket方法: 三、代码示例:回显服务器 1、服务器代码 代码解析 2、客户端…

配置阿里云加速器

国内镜像中心常用阿里云或者网易云。在本地docker中指定要使用国内加速器的地址后&#xff0c;就可以直接从阿里云镜像中心下载镜像。 2024阿里云-上云采购季-阿里云 [rootlocalhost /]# mkdir -p /etc/docker [rootlocalhost /]# tee /etc/docker/daemon.json <<-EOF &…

windows 安装 gitlab-runner CICD

点击搜索图标 手动输入PowerShell, 右键点击管理员权限打开&#xff0c; 一、安装 安装 gitlab runner 文档参考地址 1、下载exe执行文件 我这里是 win64 https://gitlab-runner-downloads.s3.amazonaws.com/latest/binaries/gitlab-runner-windows-amd64.exe 2、创建 gitla…

论文研读笔记2

1.Han异构图网络看不懂。。。正在看 https://zhuanlan.zhihu.com/p/346658317 https://www.bilibili.com/video/BV1fc411z7mx?p19&vd_source6fb54905ed1c5c332b7a606643d8525c 2. 阅读论文&#xff1a;Learning Long- and Short-Term User Literal-Preference with Mu…

Java日志框架Log4j 2详解

有时希望能够以文件的形式记录执行过程中出现的异常信息&#xff0c;甚至记录程序正常运行的关键步骤&#xff0c;以便日后查看&#xff0c;那么该如何处理呢? 答:显然&#xff0c;可以自行编程实现这个需求&#xff0c;但是&#xff0c;从更注重效率和性能的方面考虑&#x…

PyTorch学习笔记(七)

5. 基本数学运算 5.1 torch.add()函数 torch.add() 是 PyTorch 中的一个函数&#xff0c;用于执行逐元素的加法操作。这个函数可以接受多个张量&#xff08;tensors&#xff09;作为输入&#xff0c;并返回一个新的张量&#xff0c;其中每个元素都是输入张量对应元素之和。 …

freemarker if 判断list 中的元素是否为null

判断item.totalPrice 是否为null, 如果不为null 直接传递值, 为null则置0 <table><tr><th>排名</th><th>商品名</th><th>成交金额</th></tr><#list items as item><tr><td>${item?index 1}</td…

物联网终端telegraf采集设备信息

背景 低功耗设备上资源有限&#xff0c;但又比较重要。对其的管理难度很大&#xff0c;有些时候又必须时刻了解其运行状况。我们自然想到的是能否有办法监控它呢&#xff1f;当时是有的&#xff01;而且很成熟的解决方案。TICK技术栈&#xff0c;那TICK是什么呢&#xff1f; TI…

Hive中的NVL函数与COALESCE函数

1.NVL函数 1.1 函数语法 -- nvl(value,default_value) - Returns default value if value is null else returns value Example:> SELECT nvl(null,bla) FROM src LIMIT 1;bla Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFNvl Function type:BUILTIN…

【剪枝实战】使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型

摘要 本次剪枝实战是基于下面这篇论文去复现的&#xff0c;主要是实现对BN层的γ/gamma进行剪枝操作&#xff0c;本文用到的代码和数据集都可以在我的资源中免费下载到。 相关论文&#xff1a;Learning Efficient Convolutional Networks through Network Slimming (ICCV 2017…

【好玩的经典游戏】Docker环境下部署双人网页小游戏

【好玩的经典游戏】Docker环境下部署双人网页小游戏 一、项目介绍1.1 项目简介1.2 项目特点二、本次实践介绍二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍三、本地环境检查3.1 安装Docker环境3.2 检查Docker服务状态3.3 检查Docker版本3.4 检查docker compose 版本四、构…

Ubuntu18.04下opencv基础操作(打开图片及视频)

文章目录 一、认识opencv一、编写一个打开图片进行特效显示的代码二、使用opencv库编写打开摄像头压缩视频的程序2.1 虚拟机获取摄像头权限2.2 播放视频2.3 录制视频 三、总结四、参考资料 一、认识opencv 开源计算机视觉(OpenCV)是一个主要针对实时计算机视觉的编程函数库。 …

WanAndroid(鸿蒙版)开发的第四篇

前言 DevEco Studio版本&#xff1a;4.0.0.600 WanAndroid的API链接&#xff1a;玩Android 开放API-玩Android - wanandroid.com 其他篇文章参考&#xff1a; 1、WanAndroid(鸿蒙版)开发的第一篇 2、WanAndroid(鸿蒙版)开发的第二篇 3、WanAndroid(鸿蒙版)开发的第三篇 …

Gitee 服务器

Git 服务器集成 1. 创建仓库 2. 远程仓库简易操作指令 # Git 全局设置&#xff0c;修改成自己的信息 git config --global user.name "Muko" git config --global user.email "txk0x7d2163.com" # 创建 git 仓库&#xff0c;基本操作指令和其他远程仓库一…

ES6 数组常用方法

实例方法 at() 长久以来&#xff0c;JavaScript 不支持数组的负索引&#xff0c;如果要引用数组的最后一个成员&#xff0c;不能写成arr[-1]&#xff0c;只能使用arr[arr.length - 1]。 这是因为方括号运算符[]在 JavaScript 语言里面&#xff0c;不仅用于数组&#xff0c;还用…