【POSIX】使用iconv库将UTF-8字符串转换为UTF-16字符串

 使用<iconv.h>来进行字符串编码的转换

#include <iconv.h>
#include <iostream>
#include <string.h>
#include <unistd.h>
#include <memory>
#include <fcntl.h>// 需要链接iconv库// iconv -l 命令可列出所有支持的格式
// example: iconv将UTF-16转换为UTF-8
// iconv -f UTF-16 -t UTF-8 myfile// 注意: UTF-16 默认使用的是 UTF-16 BEvoid print_str_bytes(const char* str, size_t len) {for (int i = 0; i < len; i++) {char s = str[i];std::cout << i << ": " << ((int)s & 0xff) << std::endl;}
}int convert_encoding(char** dst, size_t* dst_len, const char* src, size_t src_len, const char* to_encoding, const char* from_encoding) {iconv_t cd = iconv_open(to_encoding, from_encoding);if (cd == reinterpret_cast<iconv_t>(-1)) {std::cerr << "iconv_open error: " << strerror(errno) << std::endl;return -1;}size_t sl = src_len;size_t total = 2 * src_len; // BOM头占2字节 FEFF(UTF-16 BE)size_t tmp = total;char* outbuf = new char[total];std::unique_ptr<char[]> ptr(outbuf);    // 用智能指针控制内存自动释放int res = iconv(cd, const_cast<char**>(&src), &sl, &outbuf, &tmp);if (res == -1) {std::cerr << "iconv error: " << strerror(errno) << std::endl;iconv_close(cd);return -1;}// FIXME 此处使用的是全部重新转换方案,比较浪费性能,仅适用于演示,实际应该注重src未转换的长度值while (sl != 0) {total *= 2;  // 倍乘tmp = total;ptr.release();delete[] outbuf;outbuf = new char[total];    // 重新申请内存ptr = std::unique_ptr<char[]>(outbuf);res = iconv(cd, const_cast<char**>(&src), &sl, &outbuf, &tmp);if (res == -1) {std::cerr << "iconv error: " << strerror(errno) << std::endl;iconv_close(cd);return -1;}}std::cout << "use bytes: " << total - tmp << std::endl;*dst_len = total - tmp;*dst = ptr.release();   // 不再需要智能指针管控内存res = iconv_close(cd);if (res == -1) {std::cerr << "iconv_close error: " << strerror(errno) << std::endl;return -1;}return 0;
}int main(int argc, char* argv[]) {if (argc != 2) {std::cout << "./iconv <src-str>" << std::endl;return 0;}char* str = argv[1];print_str_bytes(str, strlen(str));char* dst = nullptr;size_t dst_len = 0;int res = convert_encoding(&dst, &dst_len, str, strlen(str), "UTF-16", "UTF-8");if (res == -1) {std::cerr << "oops..." << std::endl;exit(-1);}std::cout << "dst_len: " << dst_len << std::endl;print_str_bytes(dst, dst_len);// 写入到文件int fd = open("out.txt", O_RDWR| O_CREAT | O_TRUNC, S_IRWXU);if (fd == -1) {std::cerr << "open out.txt error: " << strerror(errno) << std::endl;exit(-1);}write(fd, dst, dst_len);return 0;
}

编译:

c++ -std=c++14 -liconv iconv.cpp -o iconv

输出:

./iconv 你hao,世界
0: 228
1: 189
2: 160
3: 104
4: 97
5: 111
6: 239
7: 188
8: 140
9: 228
10: 184
11: 150
12: 231
13: 149
14: 140
use bytes: 16
dst_len: 16
0: 254
1: 255
2: 79
3: 96
4: 0
5: 104
6: 0
7: 97
8: 0
9: 111
10: 255
11: 12
12: 78
13: 22
14: 117
15: 76

使用iconv -l命令

ANSI_X3.4-1968 ANSI_X3.4-1986 ASCII CP367 IBM367 ISO-IR-6 ISO646-US ISO_646.IRV:1991 US US-ASCII CSASCII
UTF-8 UTF8
UTF-8-MAC UTF8-MAC
ISO-10646-UCS-2 UCS-2 CSUNICODE
UCS-2BE UNICODE-1-1 UNICODEBIG CSUNICODE11
UCS-2LE UNICODELITTLE
ISO-10646-UCS-4 UCS-4 CSUCS4
UCS-4BE
UCS-4LE
UTF-16
UTF-16BE
UTF-16LE
UTF-32
UTF-32BE
UTF-32LE
UNICODE-1-1-UTF-7 UTF-7 CSUNICODE11UTF7
UCS-2-INTERNAL
UCS-2-SWAPPED
UCS-4-INTERNAL
UCS-4-SWAPPED
C99
JAVA
CP819 IBM819 ISO-8859-1 ISO-IR-100 ISO8859-1 ISO_8859-1 ISO_8859-1:1987 L1 LATIN1 CSISOLATIN1
ISO-8859-2 ISO-IR-101 ISO8859-2 ISO_8859-2 ISO_8859-2:1987 L2 LATIN2 CSISOLATIN2
ISO-8859-3 ISO-IR-109 ISO8859-3 ISO_8859-3 ISO_8859-3:1988 L3 LATIN3 CSISOLATIN3
ISO-8859-4 ISO-IR-110 ISO8859-4 ISO_8859-4 ISO_8859-4:1988 L4 LATIN4 CSISOLATIN4
CYRILLIC ISO-8859-5 ISO-IR-144 ISO8859-5 ISO_8859-5 ISO_8859-5:1988 CSISOLATINCYRILLIC
ARABIC ASMO-708 ECMA-114 ISO-8859-6 ISO-IR-127 ISO8859-6 ISO_8859-6 ISO_8859-6:1987 CSISOLATINARABIC
ECMA-118 ELOT_928 GREEK GREEK8 ISO-8859-7 ISO-IR-126 ISO8859-7 ISO_8859-7 ISO_8859-7:1987 ISO_8859-7:2003 CSISOLATINGREEK
HEBREW ISO-8859-8 ISO-IR-138 ISO8859-8 ISO_8859-8 ISO_8859-8:1988 CSISOLATINHEBREW
ISO-8859-9 ISO-IR-148 ISO8859-9 ISO_8859-9 ISO_8859-9:1989 L5 LATIN5 CSISOLATIN5
ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 ISO_8859-10:1992 L6 LATIN6 CSISOLATIN6
ISO-8859-11 ISO8859-11 ISO_8859-11
ISO-8859-13 ISO-IR-179 ISO8859-13 ISO_8859-13 L7 LATIN7
ISO-8859-14 ISO-CELTIC ISO-IR-199 ISO8859-14 ISO_8859-14 ISO_8859-14:1998 L8 LATIN8
ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 ISO_8859-15:1998 LATIN-9
ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16 ISO_8859-16:2001 L10 LATIN10
KOI8-R CSKOI8R
KOI8-U
KOI8-RU
CP1250 MS-EE WINDOWS-1250
CP1251 MS-CYRL WINDOWS-1251
CP1252 MS-ANSI WINDOWS-1252
CP1253 MS-GREEK WINDOWS-1253
CP1254 MS-TURK WINDOWS-1254
CP1255 MS-HEBR WINDOWS-1255
CP1256 MS-ARAB WINDOWS-1256
CP1257 WINBALTRIM WINDOWS-1257
CP1258 WINDOWS-1258
850 CP850 IBM850 CSPC850MULTILINGUAL
862 CP862 IBM862 CSPC862LATINHEBREW
866 CP866 IBM866 CSIBM866
MAC MACINTOSH MACROMAN CSMACINTOSH
MACCENTRALEUROPE
MACICELAND
MACCROATIAN
MACROMANIA
MACCYRILLIC
MACUKRAINE
MACGREEK
MACTURKISH
MACHEBREW
MACARABIC
MACTHAI
HP-ROMAN8 R8 ROMAN8 CSHPROMAN8
NEXTSTEP
ARMSCII-8
GEORGIAN-ACADEMY
GEORGIAN-PS
KOI8-T
CP154 CYRILLIC-ASIAN PT154 PTCP154 CSPTCP154
MULELAO-1
CP1133 IBM-CP1133
ISO-IR-166 TIS-620 TIS620 TIS620-0 TIS620.2529-1 TIS620.2533-0 TIS620.2533-1
CP874 WINDOWS-874
VISCII VISCII1.1-1 CSVISCII
TCVN TCVN-5712 TCVN5712-1 TCVN5712-1:1993
ISO-IR-14 ISO646-JP JIS_C6220-1969-RO JP CSISO14JISC6220RO
JISX0201-1976 JIS_X0201 X0201 CSHALFWIDTHKATAKANA
ISO-IR-87 JIS0208 JIS_C6226-1983 JIS_X0208 JIS_X0208-1983 JIS_X0208-1990 X0208 CSISO87JISX0208
ISO-IR-159 JIS_X0212 JIS_X0212-1990 JIS_X0212.1990-0 X0212 CSISO159JISX02121990
CN GB_1988-80 ISO-IR-57 ISO646-CN CSISO57GB1988
CHINESE GB_2312-80 ISO-IR-58 CSISO58GB231280
CN-GB-ISOIR165 ISO-IR-165
ISO-IR-149 KOREAN KSC_5601 KS_C_5601-1987 KS_C_5601-1989 CSKSC56011987
EUC-JP EUCJP EXTENDED_UNIX_CODE_PACKED_FORMAT_FOR_JAPANESE CSEUCPKDFMTJAPANESE
MS_KANJI SHIFT-JIS SHIFT_JIS SJIS CSSHIFTJIS
CP932
ISO-2022-JP CSISO2022JP
ISO-2022-JP-1
ISO-2022-JP-2 CSISO2022JP2
CN-GB EUC-CN EUCCN GB2312 CSGB2312
GBK
CP936 MS936 WINDOWS-936
GB18030
ISO-2022-CN CSISO2022CN
ISO-2022-CN-EXT
HZ HZ-GB-2312
EUC-TW EUCTW CSEUCTW
BIG-5 BIG-FIVE BIG5 BIGFIVE CN-BIG5 CSBIG5
CP950
BIG5-HKSCS:1999
BIG5-HKSCS:2001
BIG5-HKSCS BIG5-HKSCS:2004 BIG5HKSCS
EUC-KR EUCKR CSEUCKR
CP949 UHC
CP1361 JOHAB
ISO-2022-KR CSISO2022KR
CP856
CP922
CP943
CP1046
CP1124
CP1129
CP1161 IBM-1161 IBM1161 CSIBM1161
CP1162 IBM-1162 IBM1162 CSIBM1162
CP1163 IBM-1163 IBM1163 CSIBM1163
DEC-KANJI
DEC-HANYU
437 CP437 IBM437 CSPC8CODEPAGE437
CP737
CP775 IBM775 CSPC775BALTIC
852 CP852 IBM852 CSPCP852
CP853
855 CP855 IBM855 CSIBM855
857 CP857 IBM857 CSIBM857
CP858
860 CP860 IBM860 CSIBM860
861 CP-IS CP861 IBM861 CSIBM861
863 CP863 IBM863 CSIBM863
CP864 IBM864 CSIBM864
865 CP865 IBM865 CSIBM865
869 CP-GR CP869 IBM869 CSIBM869
CP1125
EUC-JISX0213
SHIFT_JISX0213
ISO-2022-JP-3
BIG5-2003
ISO-IR-230 TDS565
ATARI ATARIST
RISCOS-LATIN1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/23192.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python之排序函数np.argsort()函数介绍

np.argsort()是NumPy库中的一个函数&#xff0c;用于返回数组中元素排序后的索引值数组。它根据数组的值从小到大进行排序&#xff0c;并返回相应的索引数组。 1. 基本语法 下面是np.argsort()的语法&#xff1a; numpy.argsort(a, axis-1, kindNone, orderNone) 参…

【python】ModuleNotFoundError: No module named ‘timm’

成功解决“ModuleNotFoundError: No module named ‘timm’”错误的全面指南 一、引言 在Python编程中&#xff0c;经常会遇到各种导入模块的错误&#xff0c;其中“ModuleNotFoundError: No module named ‘timm’”就是一个典型的例子。这个错误意味着你的Python环境中没有安…

springboot项目Redis统计在线用户

springboot项目Redis统计在线用户 我的项目有个显示用户的遗忘曲线&#xff0c;需要统计在线用户以计算他们的曲线 思考了两种方案&#xff0c;但都是用Redis的bitmap数据结构Bitmap是一种特殊类型的数组&#xff0c;其中每个元素只能存储0或1。在Redis中&#xff0c;Bitmap实际…

Python程序判断变量名是否符合标识符的定义

在 Python 中&#xff0c;标识符&#xff08;如变量名、函数名等&#xff09;必须遵循一些规则。这些规则包括&#xff1a; 标识符的第一个字符必须是字母&#xff08;a-z 或 A-Z&#xff09;或下划线&#xff08;_&#xff09;。标识符的其余部分可以由字母、数字或下划线组成…

UML的用例图

UML用例图 用例图示例 假设我们要描述一个图书馆管理系统的UML用例图。 参与者&#xff1a; Librarian&#xff08;图书管理员&#xff09;Member&#xff08;会员&#xff09;Guest&#xff08;访客&#xff09; 用例&#xff1a; Borrow Book&#xff08;借书&#xff09;R…

Web安全:Web体系架构存在的安全问题和解决方案

「作者简介」&#xff1a;2022年北京冬奥会网络安全中国代表队&#xff0c;CSDN Top100&#xff0c;就职奇安信多年&#xff0c;以实战工作为基础对安全知识体系进行总结与归纳&#xff0c;著作适用于快速入门的 《网络安全自学教程》&#xff0c;内容涵盖系统安全、信息收集等…

【毕业设计之微信小程序系列】基于微信小程序的餐厅点餐小程序的设计与实现

《基于微信小程序的餐厅点餐小程序的设计与实现》 项目效果图 目录大纲 摘要 1、选题及其意义 1.1、设计项目的名称 1.2、研究意义 2、需求分析 2.1、用户需求分析 2.2、功能需求分析 2.3、非功能需求分析 3、系统相关技术概述 3.1、餐饮平台开发相关技术 3.1.1、微信小程序 …

【BP时序预测】基于鱼鹰算法OOA优化BP神经网络实现温度数据预测算法研究附matlab代码

以下是一个大致的步骤和MATLAB代码框架&#xff1a; 数据准备&#xff1a;准备用于训练和测试的温度数据集。 初始化BP神经网络&#xff1a;定义神经网络的结构&#xff08;如隐藏层的数量和每层的神经元数量&#xff09;。 定义适应度函数&#xff1a;这是优化算法的目标函数…

读AI未来进行式笔记04数字医疗与机器人

1. 数字医疗 1.1. 20世纪的“现代医学”得益于史无前例的科学突破&#xff0c;使得医疗的方方面面都得到改善&#xff0c;让人类预期寿命从1900年的31岁提高到2017年的72岁 1.2. 现有的医疗数据库和流程将实现数字化 1.2.1. 患者记录 1.2.…

实时语音交互数字人解决方案,满足不同场景需求

北京美摄网络科技有限公司凭借其领先的实时语音交互数字人解决方案&#xff0c;为企业带来了全新的沟通体验与商业机遇。 一、技术革新&#xff0c;开启交互新篇章 美摄科技实时语音交互数字人解决方案&#xff0c;以先进的人工智能和机器学习技术为基础&#xff0c;实现了文…

速盾:网站使用cdn后,如何做动静分离?

动静分离是指将网站的静态资源&#xff08;如图片、CSS、JS等&#xff09;与动态内容&#xff08;如数据库查询、服务器脚本等&#xff09;分别存放在不同的服务器或环境中&#xff0c;以提高网站的性能和稳定性。而CDN&#xff08;Content Delivery Network&#xff09;是一种…

批量提取 Word 文档中的全部图片

步骤 1、打开 WinRAR 任选一个现成的压缩包双击打开 WinRAR &#xff0c;或从开始菜单打开 WinRAR 2、直接把要提取图片的 Word 文档拖入 WinRAR 菜单区域 1 → 2 → 3&#xff0c;WinRAR 资源管理目录中的 media 就是该 Word 文档所要提取的全部图片所在文件夹 按住&#x…

人工智能任务5-高级算法工程师需要学习哪些课程与掌握哪些能力

大家好&#xff0c;我是微学AI&#xff0c;今天给大家介绍一下人工智能的任务5-高级算法工程师需要学习哪些课程&#xff0c;需要掌握哪些能力。高级算法工程师需要掌握的算法模型有&#xff1a;人脸检测模型MTCNN&#xff0c;人脸识别方法Siamese network、center loss、softm…

基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答

文章目录 CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery摘要方法实验结果 CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery 摘要…

Python利用列表、字典和zip函数处理数据

最近重温Python基础语法&#xff0c;一道练习题巩固下列表、字典、循环 给定下面两个列表 attributes 和 values&#xff0c;要求针对 values 中每一组子列表 value&#xff0c;输出其和 attributes 中的键对应后的字典&#xff0c;最后返回字典组成的列表,请分别用一行和多行…

今日份动态规划学习(二维01背包+01背包变形)

目录 P1877 [HAOI2012] 音量调节 P1877 [HAOI2012] 音量调节 题解&#xff1a;一个入门级别的01背包问题&#xff0c;首先就是为什么能看出是01背包&#xff0c;因为只有两种状态&#xff0c;要不增大音量&#xff0c;要不减小音量&#xff0c;和01背包的选与不选非常近似。但…

next.js 的几种渲染方式

静态生成 (Static Generation)、服务器端渲染 (Server-Side Rendering) 和客户端渲染 (Client-Side Rendering) 是在构建 web 应用时常用的三种渲染策略。它们各自有不同的使用场景和优缺点。下面详细介绍它们的使用场景、差异和适用的情况。 静态生成 (Static Generation) 特…

探索SQL:从基础到高级的全面入门教程

SQL(Structured Query Language,结构化查询语言)是关系数据库管理系统中用于操作和查询数据的标准语言。它在数据管理和分析中扮演着至关重要的角色,无论是初学者还是有经验的开发者,都需要熟练掌握SQL的基本概念和高级功能。本文将从基础入门开始,逐步深入介绍SQL的语法…

酱菜产业:传承美味,点亮生活

酱菜&#xff0c;这道深受人们喜爱的传统美食&#xff0c;以其独特的风味和营养价值&#xff0c;点亮了我们的日常生活。酱菜产业作为美食文化的重要组成部分&#xff0c;正以其独特的魅力&#xff0c;吸引着越来越多的消费者。 酱菜产业的赵总说&#xff1a;酱菜的制作过程&am…

C++结合OpenCV进行图像处理与分类

⭐️我叫忆_恒心&#xff0c;一名喜欢书写博客的在读研究生&#x1f468;‍&#x1f393;。 如果觉得本文能帮到您&#xff0c;麻烦点个赞&#x1f44d;呗&#xff01; 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧&#xff0c;喜欢的小伙伴给个三…