快捷搜索:  汽车  科技

c语言编码方法:C语言编程之unicode编码与ansi编码

c语言编码方法:C语言编程之unicode编码与ansi编码Unicode:CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR在编程时经常遇到的数据类型:Ansi:char、char * 、const char *

c语言编码方法:C语言编程之unicode编码与ansi编码(1)


在学习字符串时一定会碰到CString的字符串要转换为char*的问题,在此总结一下Unicode工程下的字符串处理问题。

  • ANSI与Unicode简要说明及各自的优缺点。

他们是两种字符的编码格式,Ansi表示窄字节,Unicode表示宽字节,Ansi用char格式表示一个字符,占用一个字节的存储空间,最多表示255个字符,表示英文还可以,但对于中文、日文、韩文等语言来说就不够用了,所以如果你的程序是Ansi编码的话,那么你写的中文语言的程序拿到日文、韩文等系统上面就会出现乱码。所以有了Unicode,用二个字节去表示一个字符,格式是 unsigned short,被定义成 wchar_t 格式这样就可以表示世界上绝大多数的语言了!但有利就有弊,缺点呢?就是空间占用翻倍了,网络传输的数据量也增大了。

  • 不同编码格式下的字符串处理及相互转化。

  • 在编程时经常遇到的数据类型:

    Ansi:

    char、char * 、const char *

    CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR

    Unicode:

    wchar_t、wchar_t * 、const wchar_t *

    WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR

    T 通用类型:

    TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR

    以上,其中:P代表指针的意思,STR代表字符串的意思,L是长指针的意思,在WIN32平台下可以忽略,C代表const常量的意思,W代表wide宽字节的意思,T表示模板,也就是通用的意思,在使用时系统会根据当前的工程性质进行转换。例如在unicode下,TCHAR其实就是wchar_t,否则就被定义成char。

    字符串类型的对象的定义:

    Ansi:char *pAnsiStr = "hello";

    Unicode:wchar_t *pUnicodeStr = "hello";

    通用类型:TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");(_T _TEXT是一个意思)

    动态申请内存:TCHAR *pszBuf = new TCHAR[100];

    • Ansi 与 Unicode 字符串类型的互相转换:

    上面给大家介绍的都是窄字节就是窄字节,宽字节就是宽字节,那么下面就给大家介绍下他们两个之间的转换。

    在程序中还是不建议大家来回来去的进行字符串编码的转换,要么就都使用Ansi,要么就都使用Unicode,

    但是呢,往往有些 API 函数只提供了窄字节版本(比如:GetProcAddress,见MSDN)或者只提供宽字节版本(比如:CommandLineToArgvW,见MSDN),

    这个时候就要进行字符串编码格式的转换了。

    但是,这里提醒下大家,不是所有的都需要转换,有一些是不需要转换的,比如 socket 中的 send 或者 recv 函数.

    字符串占用字节数:

    Ansi:

    char szStr[] = "abc";

    占用字节数求法:sizeof(szStr);

    char *psz = "defgh";

    占用字节数求法:strlen(psz)*sizeof(char);

    Unicode:

    wchar_t szwStr[] = L"abc";

    占用字节数求法:sizeof(szwStr);

    wchar_t *pwsz = L"defgh";

    占用字节数求法:wcslen(pwsz)*sizeof(wchar_t);

    通用函数:

    TCHAR szStr[] = _T("abc");

    占用字节数求法:sizeof(szStr);

    TCHAR *psz = _T("defgh");

    占用字节数求法:_tcslen(psz)*sizeof(TCHAR);

    转换用到的最根本的 API 函数:

    WideCharToMultiByte 实现宽字节转换到窄字节

    MultiByteToWideChar 实现窄字节转换到宽字节

    A2W、W2A、T2A、T2W 宏的使用以及注意事项:

    其实这些宏根本上还是用到了上面的两个函数。

    [1]、这些函数都是在栈中分配空间的。例如:A2W("abc"),就会在栈中分配一块内存存放'abc'

    [2]使用上面的宏之前都要使用USES_CONVERSION宏

    *unicode下CString与char*的转换:

    CString转换为char*:使用wcstombs()函数

    例子:

    CString str;

    str="你好,hello";

    char ch[50];

    wcstombs(ch str siezof(ch));

    这样的转换会出现问题,原因是str带有中文,如果带有中文还在之前使用setlocale(LC_ALL "") 要包含头文件<locale.h>;设置一下默认语言。

    char*转换为CString:使用A2T()函数:

    例子:

    USES_CONVERSION;

    char ch[5]="what";

    CString str;

    str=A2T(ch);


    ~~~end~~~

    猜您喜欢: