一文详解Rust中的字符串

有人可能会说,字符串这么简单还用介绍?但是很多人学习rust受到的第一个暴击就来自这浓眉大眼、看似毫无难度的字符串。

请看下面的例子。

fn main() {let my_name = "World!";greet(my_name);
}fn greet(name: String) {println!("Hello, {}!", name);
}

这段简单Hello world的代码看起来没什么问题,但是在rust里却编译不了。

error[E0308]: mismatched types--> src/main.rs:3:11|
3 |     greet(my_name);|           ^^^^^^^|           ||           expected struct `std::string::String`, found `&str`|           help: try using a conversion method: `my_name.to_string()`error: aborting due to previous error

报错的意思是,greet函数需要一个String类型的参数,但是提供了一个&str类型的实参。

这下不觉得字符串简单了吧?

学习Rust你必须理解&str和String的区别。别急,你还经常会在代码里看到 &'static str&[u8]&[u8; N]Vec<u8>OsStrOsStringCStrCString

这张图很好地描绘了学习Rust后再谈到字符串的情形:
在这里插入图片描述

本文就介绍一下这些字符串相关的类型。

先来说说&str

&str

str类型也叫字符串切片,是最基本的字符器类型,通常是借用的试出现,也就是&str

什么是切片?

在rust里,切片是连续序列[T]的动态大小视图 ,切片是内存块的视图,表示为指针和长度。 这样的定义会让人难以理解。其实slice就是一种引用,允许你对一个连续序列中元素进行引用。

fn main() {let a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10];let slice = &a[3..7];println!("{:#?}", slice);
}

let slice = &a[3..7];这一行我们创建了一个slice。它的内容是:

[4,5,6,7,
]

slice的中文翻译切片这个词,很容易让人认为是从一个连续序列中下来一段,很难与引用联想在一起,我认为翻译成片段可能更合适。

理解了slice,&str就好理解了,&str就是字符串的slice。Rust负责保证str是有效的UTF-8。因为通常是以借用引用(&str)的方式出现,因此是不可变的。

在其它语言中常用的字符串操作,如split、find、trim,大小写转换等操作,都是str的方法,并不是由String类型提供。

在这里要注意,在对字符串使用切片语法时需要格外小心。因为字符串的内部是[u8]数组,每个数组的元素是一个u8,所以数组的长度就是字符串的长度,跟你看到的字符串的长度可能是不一样的。

let s = "我是中国人";
println!("{}",s.len());

你以为结果会是5,但是结果是15; 为什么是15,因为这个字符串的字节数是15。

let s = "我是中国人";   
println!("{:?}",s.bytes())

结果是:

Bytes(Copied { it: Iter([230, 136, 145, 230, 152, 175, 228, 184, 173, 229, 155, 189, 228, 186, 186]) })

字符串的len()返回的是字节数,不是UTF-8字符数。

let s = "我是中国人";
println!("{}",s.chars().count());

这时输出的才是5。
所以当直接对字符串对切片时,一定要注意切片的索引必须落在字符之间的边界位置。

let s = "我是中国人";
let a = &s[0..2];
println!("{}",a);

这段代码可以编译,但是在运行时会报错

Compiling playground v0.0.1 (/playground)Finished dev [unoptimized + debuginfo] target(s) in 0.39sRunning `target/debug/playground`
thread 'main' panicked at src/main.rs:4:15:
byte index 2 is not a char boundary; it is inside '我' (bytes 0..3) of `我是中国人`
note: run with `RUST_BACKTRACE=1` environment variable to display a backtrace

每个汉字占用3个字节,&s[0..2]只取了前两个节点,所以报错信息告诉你,index 2是不是字符的边界。所以对字符串使用切片语法时需要格外谨慎。

注意: Rust里字符串字面量的类型是&'static str,这涉及到静态生命周期,有兴趣同学可以参考生命周期相关的文章。

String

在rust中String不是基本类型,是个复合类型,它包含了一个私有的u8的vec。

pub struct String {vec: Vec<u8>,
}

因为它的唯一字段vec是私有的,所以只能通过String类型提供的构建函数创建String,因此let my_name = "Rust";这样语句创建出来的不是String类型。

因为它的底层是一个vec,所以String支持改变它自身的一些操作,比如push、pop、clear,可以看出来都是针对vec的操作。

let mut s = String::from("abc");s.push('1');
s.push('2');
s.push('3');assert_eq!("abc123", s);let mut s = String::from("abč");assert_eq!(s.pop(), Some('č'));
assert_eq!(s.pop(), Some('b'));
assert_eq!(s.pop(), Some('a'));assert_eq!(s.pop(), None);let mut s = String::from("foo");s.clear();assert!(s.is_empty());
assert_eq!(0, s.len());
assert_eq!(3, s.capacity());

&[u8]

&[u8]是一个切片,指向一段连续的内存区域,其中存储着 u8 类型的值(字节)。它不拥有数据,只是借用了数据的引用。

由于不拥有数据,&[u8] 通常用于不可变的字符串操作。可以从 String 或其他字节数组中创建&[u8] 切片。

let mut my_string = String::from("Hello, world!");// 获取 &[u8] 切片
let my_bytes: &[u8] = my_string.as_bytes();// 将 &[u8] 转换为 String (需要确保是有效的 UTF-8 编码)
let new_string = String::from_utf8(my_bytes.to_vec()).unwrap();

&[u8;N]

&[u8; N] 表示一个指向长度为 N 的 u8 类型数组的切片。

&[u8]的区别是,&[u8] 是一个指向任意长度u8 类型数组的切片,可以指向不同长度的数组。&[u8; N]是一个指向固定长度为 N 的字节数组的切片,只能指向长度为 N 的数组。

一个特别常用的场景就是网络协议栈的解析,数据包头通常都是固定长度的,非常适合用&[u8; N]来保存。

Vec<u8>

Vec<u8> 是String类型的底层存储,可以通过String::from_utf8这个方法创建一个String。

&u8

&u8只是 &[u8]切片中的一个元素,也不展开介绍。

OsStr和OsString

这两个类型包含在std::ffi这个模块里,ffi 的意思是 Foreign Function Interface ,外部函数接口,用来调用其它语言(如C语言)编写的函数。因为目前主流的操作系统都是用C语言写的,所以ffi可以用来调用系统接口和处理与操作系统相关的操作。

为什么需要OsStrOsString呢?

因为在不同的操作系统中,字符串的编码是有差异的。
在 Unix 系统上,字符串通常是非零字节的任意序列,通常情况下,这些字符串会被解释为 UTF-8 编码的文本,但并非总是如此。

在 Windows 上,字符串通常是非零 16 位值的任意序列,通常情况下,这些字符串会被解释为 UTF-16 编码的文本,也并非总是如此。

在 Rust 中,字符串始终是有效的 UTF-8 编码,可以包含零。 这意味着 Rust 字符串只能包含有效的 UTF-8 编码的字节序列,但可以包含 0 字节。

因为操作系统原生字符串与Rust字符串的这种差异,因此需要有一种类型能同时表示这两种字符串,并可以在需要时进行相互转换,这种类型就是OsStringOsStr

注意, OsStringOsStr 内部不一定以平台原生的形式保存字符串;

use std::env;
use std::ffi::OsString;fn main() {// 获取命令行参数let args: Vec<OsString> = env::args_os().collect();// 获取第一个参数(文件名)let filename = &args[1];// 打印文件名println!("Filename: {:?}", filename);
}

Path 和PathBuf

Path 结构表示底层文件系统中的文件路径。有两种样式: Path posix::Path ,用于类 UNIX 系统,以及 windows::Path ,用于 Windows。只所以有两种形式,是因为windows和Unix的路径差别很大,比如路径分隔符就不一样,windows用\,Unix用/
prelude.rs会根据当前平台导出相应的特定于平台 Path 的变体。

Path这个类型是一个切片,是不可变的(immutable),它的owned版本的类型是PathBufPathPathBuf的关系跟strString的关系相似。

因为Path是与操作系统相关的,因此它内部使用的是OsStr

pub struct Path {inner: OsStr,
}

下面是Path的代码示例。

use std::path::Path;
use std::ffi::OsStr;// 注意: 下面代码不能运行在windows下
let path = Path::new("./foo/bar.txt");let parent = path.parent();
assert_eq!(parent, Some(Path::new("./foo")));let file_stem = path.file_stem();
assert_eq!(file_stem, Some(OsStr::new("bar")));let extension = path.extension();
assert_eq!(extension, Some(OsStr::new("txt")));

PathBuf是 Path的 owned版本,是可变的。

use std::path::PathBuf;let mut path = PathBuf::new();path.push(r"C:\");
path.push("windows");
path.push("system32");path.set_extension("dll");

CStr和CString

在C语言中字符串是NUL(\0)为结尾的一维字符数组。
Rust中的CStr表示对以 nul 结尾的字节数组的借用引用,也就是C语言的字符串在Rust中的对应类型。
它可以安全地从 &[u8] 切片构建,也可以不安全地(unsafely)从原始 *const c_char 构建。

因为Rust的字符串必须是UTF-8的,所以CStr要转换为String,需要通过 UTF-8 验证,以保证每个字符都是UTF-8的。

use std::ffi::CStr;
use std::os::raw::c_char;extern "C" { fn my_string() -> *const c_char; }unsafe {let slice = CStr::from_ptr(my_string());println!("string buffer size without nul terminator: {}", slice.to_bytes().len());
}

总结

在Rust语言中有几种字符串相关的类型,&strString是Rust字符串最常用的类型,前者是一个slice,是借用引用,后者则是它的owned版本,可变。OsStrOsString是Rust的字符串和操作系统原生字符串的桥,通过这个桥,Rust的字符串和操作系统原生字符串可以相互转换。PathPathBuf则是Rust为不同的操作系统提供的统一的路径(Path)类型,在内部使用的是OsStr。而CStr则是C语言中以NUL(\0)为结尾的一维字符数组在Rust语言的一种表示。

本文为原创,未经同意不得转载。本文亦发表于https://www.renhl.com/posts/2024/03/17/rust-string-osstring-cstring/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/767645.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[leetcode] 240. 搜索二维矩阵 II

编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性&#xff1a; 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,22],[10,13,14,17,…

LeetCode讲解算法2-数据结构[栈和队列](Python版)

文章目录 一、栈1.1 栈的定义1.2 栈的实现分析步骤1.3 栈的应用匹配圆括号匹配符号模2除法&#xff08;十进制转二进制&#xff09;进制转换 二、队列2.1 单向队列2.2 双端队列2.3 队列的应用验证回文串滑动窗口最大值 一、栈 1.1 栈的定义 栈是一种线性数据结构&#xff0c;栈…

机器人路径规划:基于鳑鲏鱼优化算法(BFO)的机器人路径规划(提供MATLAB代码)

一、机器人路径规划介绍 移动机器人&#xff08;Mobile robot&#xff0c;MR&#xff09;的路径规划是 移动机器人研究的重要分支之&#xff0c;是对其进行控制的基础。根据环境信息的已知程度不同&#xff0c;路径规划分为基于环境信息已知的全局路径规划和基于环境信息未知或…

如何在C语言中使用命令行参数

C语言文章更新目录 C语言学习资源汇总&#xff0c;史上最全面总结&#xff0c;没有之一 C/C学习资源&#xff08;百度云盘链接&#xff09; 计算机二级资料&#xff08;过级专用&#xff09; C语言学习路线&#xff08;从入门到实战&#xff09; 编写C语言程序的7个步骤和编程…

Negative Sampling with Adaptive DenoisingMixup for Knowledge Graph Embedding

摘要 知识图嵌入(Knowledge graph embedding, KGE)的目的是通过对比正负三元组&#xff0c;将知识图中的实体和关系映射到一个低维、密集的向量空间中。在kge的训练过程中&#xff0c;由于kge只包含正三元组&#xff0c;因此负采样对于找到高质量的负三元组至关重要。大多数现…

如何申请代码签名证书

代码签名证书也是数字证书的一种&#xff0c;其主要作用是对可执行脚本、软件代码和内容进行数字签名的数字证书。代码签名证书用于验证开发者身份真实性、保护代码的完整性。用户下载软件时&#xff0c;能通过数字签名验证软件来源&#xff0c;确认软件、代码没有被非法篡改或…

有道翻译实现接口加密解密

文章目录 目标简单逆向分析源码深度逆向分析参考文献目标 实现对网易有道 sign 等参数的加密 及 返回的密文数据解密实现 简单逆向分析 首先在右上角提前登录好账号信息。 输入中文:你好 要求翻译成:英文 全局搜索:你好 或 hello,结果没有发现什么。 切换 Fetch/XHR …

关于YOLOv9项目的使用说明。

​ 专栏介绍&#xff1a;YOLOv9改进系列 | 包含深度学习最新创新&#xff0c;助力高效涨点&#xff01;&#xff01;&#xff01; 使用说明 1. 下载解压 首先&#xff0c;在进群之后&#xff0c;使用群公告中的百度云链接进行下载。 下载完成后解压打开&#xff0c;会得到一个…

代码随想录算法训练营第三十二天 | 122. 买卖股票的最佳时机 II、55. 跳跃游戏、45. 跳跃游戏 II

代码随想录算法训练营第三十二天 | 122. 买卖股票的最佳时机 II、55. 跳跃游戏、45. 跳跃游戏 II 122. 买卖股票的最佳时机 II题目解法 55. 跳跃游戏题目解法 45. 跳跃游戏 II题目解法 感悟 122. 买卖股票的最佳时机 II 题目 解法 贪心&#xff1a;局部最优&#xff1a;收集每…

你虽然不一定用得到但一定要知道的ChatGPT五大功能

ChatGPT拥有许多功能&#xff0c;但很多人并没有充分利用这些功能&#xff0c;从而错失了这个全球领先的AI聊天机器人的全部潜力。 以下是你绝对应该尝试的五个ChatGPT功能。 朗读功能 2024 年 3 月&#xff0c;OpenAI 推出了 ChatGPT的朗读功能&#xff0c;使这个AI工具能够…

C#学习笔记1:C#基本文件结构与语法

现在开始我的C#学习之路吧&#xff0c;这也许不适合0编程基础的人看&#xff0c;因为我会C语言了&#xff0c;笔记做的可能有思维上的跳跃&#xff0c;如果0基础可能会觉得有些地方转折得莫名奇妙&#xff0c;但我的学习笔记实操还是比较多的&#xff0c;基本都是真实运行程序结…

vue3项目初始化

初始化项目newsapp VSCode 打开终端&#xff0c;newsapp项目目录&#xff0c;可自定义 vue create newsapp 有提示“因为在此系统上禁止运行脚本”的话&#xff0c;请执行 set-ExecutionPolicy RemoteSigned 执行后再重复执行vue create newsapp 注意选择Vue 3版本 测试项…

vector类详解及重要函数实现

&#x1fa90;&#x1fa90;&#x1fa90;欢迎来到程序员餐厅&#x1f4ab;&#x1f4ab;&#x1f4ab; 今日主菜&#xff1a;vector类 主厨&#xff1a;邪王真眼 所属专栏&#xff1a;c专栏 主厨的主页&#xff1a;Chef‘s blog 坚持下去&#xff0c;成功不是目的&a…

【每周赠书活动第1期】Python编程 从入门到实践 第3版(图灵出品)

编辑推荐 适读人群 &#xff1a;本书适合对Python感兴趣的所有读者阅读。 编程入门就选蟒蛇书&#xff01; 【经典】Python入门经典&#xff0c;常居Amazon等编程类图书TOP榜 【畅销】热销全球&#xff0c;以12个语种发行&#xff0c;影响超过 250 万读者 【口碑】好评如潮…

手撕算法-删除有序数组中的重复项 II

描述 例如&#xff1a;输入&#xff1a;nums [1,1,1,2,2,3]输出&#xff1a;5, nums [1,1,2,2,3]解释&#xff1a;函数应返回新长度 length 5, 并且原数组的前五个元素被修改为 1, 1, 2, 2, 3。 不需要考虑数组中超出新长度后面的元素。 分析 双指针, fast, slow。nums[…

Python并发编程:线程和多线程的使用

前面的文章&#xff0c;我们讲了什么Python的许多基础知识&#xff0c;现在我们开始对Python并发编程进行学习。我们将探讨 Python 中线程和多线程的使用。帮助大家更好地理解如何使用这种技术。 目录 1. 线程&#xff08;Threads&#xff09; 1.1 Python 中的线程工作原理 …

CSP-S 真题:格雷码

原文链接&#xff1a;CSP-S 真题第二讲&#xff1a;格雷码 说明&#xff1a;CSDN和公众号文章同步发布&#xff0c;需要第一时间收到最新内容&#xff0c;请关注公众号【比特正传】。 一、题目背景 题目来源&#xff1a;CSP-S 2019年 T1 题目考察点&#xff1a;递归、搜索 …

C语言:实现使用malloc函数模拟开辟一个二维数组

目录 解题思路 步骤一&#xff1a;开辟空间 步骤二&#xff1a;使用空间 步骤三&#xff1a;释放空间 图解 完整代码展示&#xff1a;注意看注释 在C语言编程中&#xff0c;处理多维数据结构时&#xff0c;我们通常会遇到二维数组。然而&#xff0c;对于特定大小或需要动…

Java秘笈

一、缩略 二、详版 【CDN分发】||----【跳板机】---SSH&#xff1a;(^_^) 管理员/运维Iptables【防火墙】要求&#xff1a;HA||----【等保系统】||----【蜜罐系统】【反向代理】Nginx/Lvs【静态服务器】【边际路由】要求&#xff1a;HA||Gateway/Zull【Api网关】要求&#xff1…

JS精度计算的几种解决方法,1、转换成整数计算后再转换成小数,2、toFixed,3、math.js,4、bignumber.js,5、big.js

提示&#xff1a;学习express&#xff0c;搭建管理系统 文章目录 前言一、转换成整数计算后再转换成小数二、toFixed三、math.js四、bignumber.js五、big.js总结 前言 原始计算 let aNum 6.6 0.3;let bNum 6.6 - 0.2;let cNum 6.6 * 0.3;let dNum 6.6 / 0.2;console.log(…