c语言编码方法：C语言编程之unicode编码与ansi编码

火客 2023-03-10 17:23:24 645

c语言编码方法：C语言编程之unicode编码与ansi编码Unicode：CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR在编程时经常遇到的数据类型：Ansi：char、char * 、const char *

c语言编码方法：C语言编程之unicode编码与ansi编码(1)

在学习字符串时一定会碰到CString的字符串要转换为char*的问题，在此总结一下Unicode工程下的字符串处理问题。

ANSI与Unicode简要说明及各自的优缺点。

他们是两种字符的编码格式，Ansi表示窄字节，Unicode表示宽字节，Ansi用char格式表示一个字符，占用一个字节的存储空间，最多表示255个字符，表示英文还可以，但对于中文、日文、韩文等语言来说就不够用了，所以如果你的程序是Ansi编码的话，那么你写的中文语言的程序拿到日文、韩文等系统上面就会出现乱码。所以有了Unicode，用二个字节去表示一个字符，格式是 unsigned short，被定义成 wchar_t 格式这样就可以表示世界上绝大多数的语言了！但有利就有弊，缺点呢？就是空间占用翻倍了，网络传输的数据量也增大了。

不同编码格式下的字符串处理及相互转化。

在编程时经常遇到的数据类型：

Ansi：

char、char * 、const char *

CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR

Unicode：

wchar_t、wchar_t * 、const wchar_t *

WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR

T 通用类型：

TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR

以上，其中：P代表指针的意思，STR代表字符串的意思，L是长指针的意思，在WIN32平台下可以忽略，C代表const常量的意思，W代表wide宽字节的意思，T表示模板，也就是通用的意思，在使用时系统会根据当前的工程性质进行转换。例如在unicode下，TCHAR其实就是wchar_t，否则就被定义成char。

字符串类型的对象的定义：

Ansi：char *pAnsiStr = "hello";

Unicode：wchar_t *pUnicodeStr = "hello";

通用类型：TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");（_T _TEXT是一个意思）

动态申请内存：TCHAR *pszBuf = new TCHAR[100];

Ansi 与 Unicode 字符串类型的互相转换：

上面给大家介绍的都是窄字节就是窄字节，宽字节就是宽字节，那么下面就给大家介绍下他们两个之间的转换。

在程序中还是不建议大家来回来去的进行字符串编码的转换，要么就都使用Ansi，要么就都使用Unicode，

但是呢，往往有些 API 函数只提供了窄字节版本（比如：GetProcAddress，见MSDN）或者只提供宽字节版本（比如：CommandLineToArgvW，见MSDN），

这个时候就要进行字符串编码格式的转换了。

但是，这里提醒下大家，不是所有的都需要转换，有一些是不需要转换的，比如 socket 中的 send 或者 recv 函数.

字符串占用字节数：

Ansi：

char szStr[] = "abc";

占用字节数求法：sizeof(szStr);

char *psz = "defgh";

占用字节数求法：strlen(psz)*sizeof(char);

Unicode：

wchar_t szwStr[] = L"abc";

占用字节数求法：sizeof(szwStr);

wchar_t *pwsz = L"defgh";

占用字节数求法：wcslen(pwsz)*sizeof(wchar_t);

通用函数：

TCHAR szStr[] = _T("abc");

占用字节数求法：sizeof(szStr);

TCHAR *psz = _T("defgh");

占用字节数求法：_tcslen(psz)*sizeof(TCHAR);

转换用到的最根本的 API 函数：

WideCharToMultiByte 实现宽字节转换到窄字节

MultiByteToWideChar 实现窄字节转换到宽字节

A2W、W2A、T2A、T2W 宏的使用以及注意事项：

其实这些宏根本上还是用到了上面的两个函数。

[1]、这些函数都是在栈中分配空间的。例如:A2W("abc")，就会在栈中分配一块内存存放'abc'

[2]使用上面的宏之前都要使用USES_CONVERSION宏

*unicode下CString与char*的转换：

CString转换为char*：使用wcstombs()函数

例子：

CString str;

str="你好，hello"；

char ch[50];

wcstombs(ch str siezof(ch));

这样的转换会出现问题，原因是str带有中文，如果带有中文还在之前使用setlocale(LC_ALL "") 要包含头文件<locale.h>;设置一下默认语言。

char*转换为CString:使用A2T()函数：

例子：

USES_CONVERSION;

char ch[5]="what";

CString str;

str=A2T(ch);

~~~end~~~

网站首页

返回栏目

c语言编码方法：C语言编程之unicode编码与ansi编码

猜您喜欢：

相关文章