php去掉多字节字符,PHP 面试题 - 如果没有 mb 系列函数,如何切割多字节字符串...

需求

如果需要将可能含有中文的字符串进行拆分成数组,我们下面以 utf-8 编码为例。

解决方案一

我习惯的方法可能是:mb_internal_encoding("UTF-8");

$str = "周梦康";

$array = [];

for ($i=0,$l = mb_strlen($str); $i < $l; $i++) {

array_push($array, mb_substr($str, $i, 1));

}

var_export($array);

假如我们没装mb扩展怎么办?

解决方案二

今天看到一份代码,别人是这么写的:/*

* 将可能含有中文的字符串进行拆分成数组

*/

function str_split_utf8($str)

{

$split = 1;

$array = array();

for ($i = 0; $i < strlen($str);) {

$value = ord($str[$i]);

if ($value > 127) {

if ($value >= 192 && $value <= 223) {

$split = 2;

} elseif ($value >= 224 && $value <= 239) {

$split = 3;

} elseif ($value >= 240 && $value <= 247) {

$split = 4;

}

} else {

$split = 1;

}

$key = null;

for ($j = 0; $j < $split; $j++, $i++) {

$key .= $str[$i];

}

array_push($array, $key);

}

return $array;

}

代码解读

strlen计算的是字节数,而直接使用$str[x]就沿用了c语言里面char数组和字符串的习惯,表示按字节来读取$str,也就是说每次读取的数据的ascii码值不可能大于255。而php里使用ord来获取ascii码值。

切割规则如下ascii 码范围切割偏移量0 ~ 1271 字节

192 ~ 2232 字节

224 ~ 2393 字节

240 ~ 2474 字节

为什么呢?

Unicode

Unicode 只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。

UTF-8

UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8 的编码规则很简单,只有二条:对于单字节的符号,字节的第一位设为0,后面7位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的(能容纳0~127)。

对于n字节的符号(n > 1),第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。

下表总结了编码规则,字母x表示可用编码的位:Unicode 符号范围(十六进制)UTF-8 编码方式(二进制)UTF-8 首字节范围0000 0000-0000 007F0xxxxxxx0 ~ 127

0000 0080-0000 07FF110xxxxx 10xxxxxx(128+64) ~ (255-32) 也就是 192 ~ 223

0000 0800-0000 FFFF1110xxxx 10xxxxxx 10xxxxxx(128+64+32) ~ (255-16) 也就是 224 ~ 239

0001 0000-0010 FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx(128+64+32+16) ~ (255-8) 也就是 240 ~ 247

想必看了这个表,大家就能明白了吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/308359.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java用TCP手写聊天室 可以 私聊版加群聊版

一&#xff1a;引言 想要私聊必须有规定的格式&#xff1a;名字&#xff1a;要说的话 二&#xff1a;上码 1.服务端 package com.wyj.talkhome; /** * 实现一个用户可以接发多条消息 * * */ import java.io.DataInputStream; import java.io.DataOutputStream; import ja…

macbook oracle 工具,Navicat for Oracle Mac 四种实用工具

Navicat for Oracle Mac 凭借精心设计的用户界面&#xff0c;可以简便快捷地以安全且简单的方法创建、组织、访问和共享信息&#xff0c;优化 Oracle 管理。除了 Oracle 的核心功能外&#xff0c;Navicat for Oracle Mac 也提供了一些丰富的增强功能&#xff0c;包括数据模型工…

7-42 整型关键字的散列映射 (25 分)(思路加详解)兄弟们 来呀 写题呀

一&#xff1a;题目 给定一系列整型关键字和素数P&#xff0c;用除留余数法定义的散列函数H(Key)Key将关键字映射到长度为P的散列表中。用线性探测法解决冲突。 输入格式: 输入第一行首先给出两个正整数N&#xff08;≤1000&#xff09;和P&#xff08;≥N的最小素数&#xf…

TIOBE 8 月榜单:C 力压 Java 夺得第一,Java掉了1.6 个点

喜欢就关注我们吧&#xff01;TIOBE 已公布 2020 年 8 月的编程语言排行榜。本月编程语言界无大事发生。增长指数最高的是排在第八位的 R 语言&#xff0c;TIOBE 猜测它有可能成为 2020 年的年度编程语言。年初的时候 R 语言排名 18&#xff0c;之后一直保持上升趋势&#xff0…

oracle删除本地文件权限,使用 UNIX 权限保护文件

使用 UNIX 权限保护文件通过 UNIX 文件权限和 ACL 可保证文件安全。带 sticky 位的文件和可执行文件要求特殊的安全措施。用于查看和保证文件安全的命令下表介绍了用于监视以及保证文件和目录安全的命令。表 7-1 保证文件和目录安全的命令命令说明手册页ls列出目录中的文件及其…

7-43 字符串关键字的散列映射 (25 分)(思路+详解+不懂的兄弟们来呀)兄弟们我干了5个小时,一个一个测试点过的

一&#xff1a;题目 7-43 字符串关键字的散列映射 (25 分) 给定一系列由大写英文字母组成的字符串关键字和素数P&#xff0c;用移位法定义的散列函数H(Key)将关键字Key中的最后3个字符映射为整数&#xff0c;每个字符占5位&#xff1b;再用除留余数法将整数映射到长度为P的散列…

C#刷剑指Offer | 在O(1)时间删除链表节点

【C#刷题】| 作者 / Edison Zhou我们来用之前学到的数据结构知识来刷《剑指Offer》的一些核心题目&#xff08;精选了其中30道题目&#xff09;&#xff0c;希望对你有帮助&#xff01;本文题目为&#xff1a;在O(1)时间删除链表节点。1题目介绍题目&#xff1a;给定单向链表的…

oracle计算最大与最小之间数,oracle 分析函数

oracle分析函数&#xff0c;主要五大类一等级函数:row_number();DENSE_RANK();Rank()主要就是遇到相同排名时的区别&#xff0c;查询各部门职位级别最高的2个人select * from (select rybm,rymc,zzjgid,zwdj,row_number() over(partition by zzjgid order by zwjb desc ) rw f…

7-44 基于词频的文件相似度 (30 分)(思路加详解+set容器简便做法)兄弟们冲呀呀呀呀呀 今天你AC了吗

一&#xff1a;题目 实现一种简单原始的文件相似度计算&#xff0c;即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题&#xff0c;这里不考虑中文&#xff08;因为分词太难了&#xff09;&#xff0c;只考虑长度不小于3、且不超过10的英文单词&#xff0c;长度超过…

堪称艺术品级的应用开发框架,Abp有望超越Spring?

ABP是ASP.NET Boilerplate的简称&#xff0c;是一个开源且文档友好的应用程序框架。ASP.NET Boilerplate是一个用最佳实践和流行技术开发现代WEB应用程序的新起点&#xff0c;它旨在成为一个通用的WEB应用程序框架和项目模板。ASP.NET Boilerplate 基于DDD的经典分层架构思想&a…

7-45 航空公司VIP客户查询 (25 分)(思路+详解+map用法解释+超时解决)兄弟们来呀冲压呀呀呀呀

一&#xff1a;题目 不少航空公司都会提供优惠的会员服务&#xff0c;当某顾客飞行里程累积达到一定数量后&#xff0c;可以使用里程积分直接兑换奖励机票或奖励升舱等服务。现给定某航空公司全体会员的飞行记录&#xff0c;要求实现根据身份证号码快速查询会员里程积分的功能…

linux sed 写文件,使用sed对文件进行操作

使用sed对文件进行操作[日期&#xff1a;2012-12-07]来源&#xff1a;Linux社区作者&#xff1a;bobo12082119[字体&#xff1a;大 中 小]一.附加文本使用a\在指定行后面附加1行或多行&#xff1b;若不指定放置的位置&#xff0c;则默认放到每一行的后面。附加文本时&#xff0…

修复被破坏的 vs 工程设置(续)

缘起 在上一篇文章——《修复被破坏的 vs 工程设置》中&#xff0c;我分享了修复被破坏的 vs 工程设置的实战。本以为圆满解决了问题&#xff0c;没想到另有玄机。所以又来分享一篇刨根问底的文章。查看文件 打开 Microsoft.Cpp.Win32.user.props 一看&#xff0c;里面并没有任…

linux find查找文件然后删除,linu查找find命令及删除7天前的文件

在/ l o g s目录中查找更改时间在7日以前的文件并删除它们&#xff1a; $ find logs/ -type f -mtime 7 -exec rm -f {} \; 在/ l o g s目录中查找更改时间在7日以内的文件并删除它们&#xff1a; $ find logs/ -type f -mtime -7 -exec rm -f {} \; 然后加入的计划任务中每日执…

7-46 新浪微博热门话题 (30 分)(思路+详解+set + map)pta逐个点过的 来呀兄弟们

一 &#xff1a;题目 新浪微博可以在发言中嵌入“话题”&#xff0c;即将发言中的话题文字写在一对“#”之间&#xff0c;就可以生成话题链接&#xff0c;点击链接可以看到有多少人在跟自己讨论相同或者相似的话题。新浪微博还会随时更新热门话题列表&#xff0c;并将最热门的…

工作十余年,还是一直被问 委托和事件 有什么区别? 真是够了

一&#xff1a;背景1. 讲故事前几天公司一个妹子问我&#xff0c;事件和委托有什么区别&#xff1f;先由衷感叹一下&#xff0c;编码十余年&#xff0c;年轻的时候常被面试官问起&#xff0c;现在年长了&#xff0c;却被后辈们时常问候&#xff0c;看样子逃离编码生涯之前是跑不…

7-47 打印选课学生名单 (25 分)(两种做法)(思路加详解+map+vector做法+最后一个点超时解决)+兄弟们冲丫丫

一&#xff1a;题目 假设全校有最多40000名学生和最多2500门课程。现给出每个学生的选课清单&#xff0c;要求输出每门课的选课学生名单。 输入格式: 输入的第一行是两个正整数&#xff1a;N&#xff08;≤40000&#xff09;&#xff0c;为全校学生总数&#xff1b;K&#xf…

linux取设备分辨率,linux 获取系统屏幕分辨率

三步将Node应用部署到Heroku上Heroku是一个提供快速部署服务的云平台.支持Node,Ruby,Java,PHP,Python,Go多种语言,今天体验了下,简直不要太爽.下面简单的介绍一下. 首先还是要注册一个账号:https: ...jQuery操作Table tr td常用的方法虽然现在DIVCSS进行页的布局大行其道,但是很…

SwaggerUI看烦了,IGeekFan.AspNetCore.Knife4jUI 帮你换个新皮肤

背景好像是上周四&#xff0c;看到微信群有人说java有轮子swagger-bootstrap-ui&#xff0c;而c#&#xff0c;就是找不到。于是我一看&#xff0c;就说大话&#xff1a;“这个只是一套UI&#xff0c;他这个有开源地址么”被at说:你试试...当天晚上就把swagger-ui, Knife4j,Swas…

7-48 银行排队问题之单窗口“夹塞”版 (30 分)(思路和详解+map做法)来呀Baby!

一&#xff1a;题目 排队“夹塞”是引起大家强烈不满的行为&#xff0c;但是这种现象时常存在。在银行的单窗口排队问题中&#xff0c;假设银行只有1个窗口提供服务&#xff0c;所有顾客按到达时间排成一条长龙。当窗口空闲时&#xff0c;下一位顾客即去该窗口处理事务。此时如…