windows下ANSI、Unicode、UTF-8编码转换代码
windows下ANSI、Unicode、UTF-8编码转换 1 几种编码方式的说明
(1)ANSI :一般的txt编码都是ANSI(可以通过另存为指定其它编码方式),在c/c++中的char、unsigned char等均属于该类型;
(2)Unicode :分为UTF-8、UTF-16和UTF-32,一般在Windows里面提到Unicode编码方式,默认指的是UTF-16;
1)UTF-8:使用1-4字节来
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
示字符,常用的ASCII字符使用1字节,汉字
一般都是3字节;
2)UTF-16:统一使用2字节表示所有字符(不考虑所谓的代理),现在广泛
的应用于Windows系统;
3)UTF-32:统一使用4字节表示所有字符。
2 转换前准备
string、wstring #include
cout、 wcout
char、 wchar_t
使用wcout输出wstring时,需要加上
setlocale(LC_ALL, ".936");
设置输出窗口的编码方式,否则无法输出。
3 编码转换
采用Windows提供的API接口函数MultiByteToWideChar和
MultiByteToWideChar来实现便慢慢转换,程序如下:
(1) ANSI和Unicode的相互转换,Windows下Unicode指的是UTF-16 void string2wstring( const string& _str, wstring& _wstr )
{
if ( _str == "" )
return;
_wstr = L"";
int wlen = MultiByteToWideChar( CP_ACP, 0, _str.c_str(), -1, NULL, 0 );
wchar_t* pwc = new wchar_t[wlen];
memset( (char*)pwc, 0, wlen*2 );
MultiByteToWideChar( CP_ACP, 0, _str.c_str(), -1, pwc, wlen );
_wstr = pwc;
/*unsigned char* p = (unsigned char*)pwc;
for ( int i=0; i 3 &&
(unsigned char)_str[0] == 0xEF &&
(unsigned char)_str[1] == 0xBB &&
(unsigned char)_str[2] == 0xBF)
str = _str.substr( 3 );
else
str = _str;
_wstr = L"";
int len = _str.size() + 1;
int wlen = MultiByteToWideChar( CP_UTF8, 0, str.c_str(), -1, NULL, 0 );
wchar_t* pwc = new wchar_t[wlen];
memset( (char*)pwc, 0, wlen*2 );
MultiByteToWideChar( CP_UTF8, 0, str.c_str(), -1, pwc, wlen );
_wstr = pwc;
/*unsigned char* p = (unsigned char*)pwc;
for ( int i=0; i
本文档为【windows下ANSI、Unicode、UTF-8编码转换代码】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。