Ruby:字符集和编码学习总结

背景

Ruby直到1.9版本才很好的支持了多字节编码,本文简单总结了今天学习的关于Ruby编码方面的知识。

字符串可以使用不同的编码

在.NET中字符串的编码是一致的,Ruby允许字符串有不同的编码,当时我就在想:如果两个不同编码的字符串相加会出现什么结果?

测试程序

 1 # coding: utf-8
 2 
 3 str_utf8 = "hi 段"
 4 puts str_utf8.size                                # 4
 5 puts str_utf8.bytesize                            # 6
 6 puts str_utf8 .encoding                         # UTF-8
 7 str_utf8.each_byte {|b| print "%02X," % [b]}      # 68,69,20,E6,AE,B5,
 8 puts
 9 
10 puts
11 
12 str_gb2312 = "hi 段".encode("gb2312")
13 puts str_gb2312.size                            # 4
14 puts str_gb2312.bytesize                        # 5
15 puts str_gb2312 .encoding                         # GB2312
16 str_gb2312.each_byte {|b| print "%02X," % [b]}     # 68,69,20,B6,CE,
17 puts

输出结果

1 4
2 6
3 UTF-8
4 68,69,20,E6,AE,B5,
5 
6 4
7 5
8 GB2312
9 68,69,20,B6,CE,

备注:UTF-8对英文采用1个字节,对中文采用三个字节。GB2312对英文采用1个字节,对中文采用两个字节。

编码转换

编码转换可以采用String::encode("目标编码名称")来完成,如果编码之间的转换兼容,返回编码后的字符串,否则会抛出编码转换异常。

测试程序

1 begin
2     puts "".encode("ascii")
3 rescue Exception => e
4     puts e.class
5 end
6 
7 puts "".encode("gb2312")

输出结果

1 Encoding::UndefinedConversionError
2

备注:encode会返回一个和元字符串序列一样的字符串序列,只是内部的字节序列改变了。

编码强制

编码强制是指在不改变字节序列的情况下改变对字节的解释方式,编码强制:String::force_encoding("强制编码")。

测试程序

 1 utf8_str = "\xE6\xAE\xB5".encode("utf-8")
 2 puts utf8_str.encoding() # UTF-8
 3 puts utf8_str.size # 1
 4 puts utf8_str.bytesize # 3
 5 
 6 ascii_str = "\xE6\xAE\xB5".force_encoding("ascii")
 7 puts ascii_str.encoding() # US-ASCII
 8 puts ascii_str.size # 3
 9 puts ascii_str.bytesize # 3
10 puts ascii_str.valid_encoding? # false

输出结果

1 UTF-8
2 1
3 3
4 US-ASCII
5 3
6 3
7 false

备注:String::valid_encoding?可以判定是否是有效的强制。

不同编码的字符串相加后是啥结果?

这个问题的答案很简单:如果两个字符串的编码兼容,则返回字符集最大的编码,否则跑出不兼容异常。你可以自己检查兼容性:Encoding.compatible?。

测试程序

1 str_ascii = "hi ".encode("ascii")
2 str_utf8 = ""
3 puts str_ascii.encoding
4 puts str_utf8.encoding
5 puts Encoding.compatible?(str_ascii.encoding, str_utf8.encoding)
6 puts (str_ascii + str_utf8).encoding
7 puts (str_utf8 + str_ascii).encoding

运行结果

1 US-ASCII
2 UTF-8
3 UTF-8
4 UTF-8
5 UTF-8

一直没使用过的\u和\x

几乎所有的语言都支持这两个转义字符,允许我们使用\uXXXX指定Unicode码点对于的字符,通用也运行我们使用\xXX指定字节。

测试程序

1 puts "" #
2 puts "\xE6\xAE\xB5" #
3 puts "\u6BB5" #

输出结果

1 #
2 #
3 #

使用Sublime开发Ruby时,输出到控制台的字符串为啥不能使用多种编码?

测试程序

1 puts ""
2 puts "".encode("GB2312")

在Sublime中的输出结果

1 [Decode error - output not utf-8]

在控制台的输出结果

原因分析

Sublime之所以失败是因为Sublime重定位了默认标准输出流,而重定位后的流不支持混合多种编码,说白了:你没法在一个文件中保存两种编码的字符串。

备注:Sublime中的失败不是Ruby导致的,是Sublime自身的问题。

如何解决?

Sublime默认只能接收UTF8编码,因此必须转换为UTF8编码。

1 # 默认是UTF8编码,不用处理。
2 puts ""
3 # 执行windows命令必须使用GB2312编码。
4 command = "echo 段".encode("GB2312")
5 # 命令执行的结果想输出到Sublime必须使用UTF8编码。
6 puts `#{command}`.encode("utf-8")

输出结果

1  # 输出结果
2 3

备注

字符串、字符集和编码算是刚入门,有机会还得继续学习。

 

转载于:https://www.cnblogs.com/happyframework/p/3275367.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/295028.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android之退出应用关闭项目每个Activity的总结

思路 我们先封装好一个类叫MyApplication这个类,把这个类设置为单例模式,只有一个对象,然后在这个类里面写一个能装Activity的集合,相当于一个栈,然后每次有activity的时候,就去压进栈,当我要退出应用程序的时候,我们就把不为空的Activity都finish()掉,然后再杀死进程…

Redis持久化RDB和AOF区别

RDBRDB是Redis内存到硬盘的快照,用于redis持久化,创建RDB二进制文件,将存储在内存中的数据,持久化的放到硬盘中,当我们需要这些数据的时候,启动载入RDB文件,数据将会被存入内存中,其…

央视力荐的这套书,让5岁孩子看漫画,秒懂物理,学习早“开窍”!

▲ 点击查看今年的高考,不得不说,一度被浙江学霸刷屏!他总分720分,物理等3门满分的成绩,最终获得“浙江高考状元”。状元能摘得桂冠,除了日积月累的不断努力外,最重要的是,不断调整自…

linux c语言编程内嵌汇编,gcc编译c语言中内嵌汇编

gcc编译c语言中内嵌汇编--AT&T and Intel 汇编语法对照寄存器命名:AT&T: %eaxIntel: eaxAT&T 语法源地址在左侧,目的地址在右侧与Intel 方式语法相反将eax值传入ebxAT&T: movl %eax, %ebxIntel: mov ebx, eaxAT&T 语法在立即数前有…

fstab各项参数及ls-l 长格式各项信息

/etc/fstab 下各个参数的解释 #############################################################################[rootlinux-svn ~]# cat /etc/fstab LABEL/ / ext3 defaults 1 1LABEL/boot /boot …

ajax跨域请求的问题

使用getJson跨域请求,需要向服务器发送一个参数callback? $.getJSON("http://appcenter.mobitide.com/admin/appSearch.php?callback?",{keyboard: keyboardval,searchget:1,page:1}.... $(function(){$(#search_btn).click(function (){var keyboardva…

栈和队列之设计一个有getMin(得到最小值)功能的栈

有2中方案,分别用类和内部类实现了 import java.util.Stack;/*** @author chenyu 第一种设计:* 题目:设计一个有getMin功能的栈,设计一个特殊的栈,在实现栈的基本功能的基础上,再实现返回栈中最小元素的操作* 要求:1 pop push getMin操作的时间复杂度都是O(1)* …

MongoDB基本操作(增删改查)

2019独角兽企业重金招聘Python工程师标准>>> 基本操作 基本的“增删查改“,在DOS环境下输入mongo命令打开shell,其实这个shell就是mongodb的客户端,同时也是一个js的编译器,默认连接的是“test”数据库。 【出错】 首先…

Kubernetes + .NET Core 的落地实践

1容器化背景本来生活网(benlai.com)是一家生鲜电商平台,公司很早就停止了烧钱模式,开始追求盈利。既然要把利润最大化,那就要开源节流,作为技术可以在省钱的方面想想办法。我们的生产环境是由 IDC 机房的 1…

传说中的宇宙最水诺奖得主:本科历史学,却凭借“一纸”博士论文摘取诺贝尔物理学奖,出道即巅峰!...

全世界只有3.14 % 的人关注了爆炸吧知识他,到底是不是最水的诺奖得主?超模君曾经介绍了学历史,最终成为数学、物理大牛的威滕(传送门),然而竟出现了德布罗意姥爷的高分点赞!那今天,超…

linux 连接两个异构网,如何在Linux(或异构)网络上共享计算机?

在有关共享计算机的这两篇文章中的第 1 部分中,我描述了我的异构本地网络以及如何使用它来比较和测试不同操作系统和体系结构上的应用程序。有几种技术使一台工作站上的用户可以运行位于另一台工作站上的应用程序。SSH 提供到远程计算机的文本终端;可以使…

图片处理--熔铸特效

1、算法 r r*128/(gb 1);g g*128/(rb 1);b b*128/(gr 1);2、代码实现 public Bitmap render(Bitmap bitmap){if(bitmap null)return null;int width bitmap.getWidth();int height bitmap.getHeight();int[] pixels new int[width * height];bitmap.getPixels(pixels ,0…

栈和队列之用2个栈实现一个队列

import java.util.Stack;/*** @author chenyu* 题目:编写一个类,用2个栈实现一个队列,支持队列的基本操作(add poll peek)* 思路:栈的特点是先进后出,而队列是先进先出,我们用两个栈真好把顺序反过来实现类似队列的操作,如下,将1-5依次压入stackPush,* 再讲5-1倒入st…

Windows按名称排序问题

偶然发现一个按名称排序的文件夹内,文件顺序是混乱的,例如: 在一个文件夹内建立如下三个文件: 0F.txt 1A.txt 02.txt 按名称/升序排列, 将得到上述结果,0F在最前,02在最后。 百思不得其解&#…

作业四:产品同质化问题

产品同质化问题 首先,产品同质化的定义:产品在消费者选择购买的过程中由于其功能性利益与竞争产品相同可以被竞争对手所替代,竞争对手就成为我们的替代性产品。我们的产品和竞争对手的产品形成了产品的同质化(引用自百度百科 如今…

基于事件驱动架构构建微服务第13部分:使用来自Apache KAFKA的事件并将投影流传输到ElasticSearch...

原文链接:https://logcorner.com/building-microservices-through-event-driven-architecture-part13-read-model-projection-project-streams-into-elasticsearch/在本教程中,我将展示如何从KAFKA读取流并将流投影到ElasticSearch中。我必须使用来自KAF…

惊呆了!这篇论文全文都是脏话,可编辑部居然对它评价极佳并发表了!

全世界只有3.14 % 的人关注了爆炸吧知识本文转自:募格学术你见过最奇奇怪怪的论文是什么?一教授为了抗议三流科学杂志发送垃圾邮件,回复了一篇全文只重复七个脏话字眼的论文,可没想到的是,它竟然还被 出!版…

linux daemon守护线程,线程8--守护线程Daemon

packagebook.thread;/*** Daemon(守护)线程* Daemon线程区别一般线程之处是:* 只有虚拟机中的用户线程(非Daimon线程)全部结束,Daemon线程就会立即结束,并且也不会调用finally里的语句。* daemon线程所产生的所有线程都是daemon的*/publicclassDaemon {s…

单IP无TMG拓扑Lync Server 2013:前端服务器

在前面的基础架构和活动目录两篇文章中,我们已经准备好了Lync Server的所有环境。其实今天虽然部署的是Lync Server 2013的Preview版,但实际上与我们部署Lync的步骤以及规范是完全一样的,所以大家完全可以抛开Lync Server 2013 Preview版本本…

栈和队列之仅用递归函数和栈操作逆序一个栈

import java.util.Stack;/*** recursion 递归的意思* @author chenyu* 题目:仅用递归函数和栈操作逆序一个栈,列如一次压入1、2、3、4、5 栈顶到栈底是5、4、3、2、1* 将这个栈转置后栈顶到栈底依次为1、2、3、4、5* * 思路:需要两递归函数 * 第一个递归函数是去除栈…