解决读取文件乱码问题
2016-06-24 15:08
706 查看
一般在windows上的txt文本文件要么以ANSI编码要么以Unicode编码,而用C ,C++,MFC编写的程序一般人只会处理一种编码格式的文本,因为不懂怎么判断读取的文件是以哪种编码格式存储的。那么重点就是判断读取的文件是以哪种方式存储的!有两种方式解决。
一.用二进制方式打开文件,前两个字节为FFFE就是Unicode文件,ANSI则无格式定义.
如图:
这是以16进制打开Unicode文件,很明显看到前两个字节是FFFE
再来,用C语言读取文件,如图:
把buf的地址在内存中显示出来,其内容是FFFE两个字节
因为编译器是32位的,所以最后显示如图:
所以现在基本确定判断Unicode的方法了.
例如:
IsUnicode函数实现如下:
判断完之后就是用相应的方法进行读写了,这样一个程序就能实现两种文件的读写。有兴趣的还可以判断UFT-8的。
二.用ANSI方式读写,如果读到Unicode的,就会出现乱码,并且截断,我试了很多,发现不管多大文件,都出来的长度都是10以下,所以根据这个性质,可以判断读出来的是哪种方式编码.但是记住,不能用Unicode方式读写来判断,因为它读出来的虽然是乱码,但是长度却是不确定的.
这里我用文件映射的方法读取,这个比较方便转换编码方式.直接上代码吧,也没有什么可以说的了。如果不懂文件映射的,可以看看前面的文章.
这个函数自我觉得封装得还不错,可以直接用于各种场合.这个函数有两个版本其实,一个是MFC的CString版本和C++的string版本.
还有一个需要注意的问题就是,因为Unicode多了两个字节的标记,所以Unicode比ANSI多一个字(Unicode是双字节编码),就是文本头,有兴趣的可以去试试.
一.用二进制方式打开文件,前两个字节为FFFE就是Unicode文件,ANSI则无格式定义.
如图:
这是以16进制打开Unicode文件,很明显看到前两个字节是FFFE
再来,用C语言读取文件,如图:
把buf的地址在内存中显示出来,其内容是FFFE两个字节
因为编译器是32位的,所以最后显示如图:
所以现在基本确定判断Unicode的方法了.
例如:
int main(void) { if (IsUnicode("H:\\Unicode.txt")) printf("打开的是Unicode文件\n"); else printf("打开的是ANSI文件\n"); return 0; }
IsUnicode函数实现如下:
bool IsUnicode(char* fileName) { FILE* fp = fopen(fileName, "rb"); if (!fp) { printf("打开文件失败!\n"); return 1; } char buf[2] = { 0 }; fread(buf, 1, 2, fp); char byte1[10] = { 0 }; char byte2[10] = { 0 }; sprintf(byte1, "%X", buf[0]); sprintf(byte2, "%X", buf[1]); int iLen1 = strlen(byte1); int iLen2 = strlen(byte2); if (byte1[iLen1 - 2] == 'F'&&byte1[iLen1 - 1] == 'F'&& byte2[iLen2 - 2] == 'F'&&byte2[iLen2 - 1] == 'E') return true; else return false; fclose(fp); }
判断完之后就是用相应的方法进行读写了,这样一个程序就能实现两种文件的读写。有兴趣的还可以判断UFT-8的。
二.用ANSI方式读写,如果读到Unicode的,就会出现乱码,并且截断,我试了很多,发现不管多大文件,都出来的长度都是10以下,所以根据这个性质,可以判断读出来的是哪种方式编码.但是记住,不能用Unicode方式读写来判断,因为它读出来的虽然是乱码,但是长度却是不确定的.
这里我用文件映射的方法读取,这个比较方便转换编码方式.直接上代码吧,也没有什么可以说的了。如果不懂文件映射的,可以看看前面的文章.
/* @function ReadFileOfMapping 以内存映射的方式读取文件 @param strFileName 要读取的文件名称 @param strContent 存放读取出来的内容 @return TRUE OR FALSE 成功返回TRUE,失败返回FALSE */ BOOL ReadFileOfMapping(_In_ const CString strFileName, _Out_ CString& strContent) { BOOL bRet = FALSE; CStringA strA; do { //创建文件对象 HANDLE hFile = ::CreateFile(strFileName, GENERIC_READ, FILE_SHARE_READ, 0, OPEN_EXISTING, FILE_FLAG_SEQUENTIAL_SCAN, 0); if (hFile == INVALID_HANDLE_VALUE) { AfxMessageBox(TEXT("Open file faile!")); break; } //创建文件映射对象 HANDLE hFileMapping = ::CreateFileMapping(hFile, 0, PAGE_READONLY, 0, 0, nullptr); if (!hFileMapping) { AfxMessageBox(TEXT("Mapping faile!")); break; } //将文件的数据映射到进程的地址空间 void* basepointer = ::MapViewOfFile(hFileMapping, FILE_MAP_READ, 0, 0, 0); if (!basepointer) { AfxMessageBox(TEXT("View faile!")); CloseHandle(hFile); CloseHandle(hFileMapping); break; } //将进程空间的数据读到编辑框中 strA = (char*)basepointer; strContent = strA; if (strContent.GetLength() < 10) //如果是Unicode则把它转换为LPTSTR strContent = (LPTSTR)basepointer; //从进程的地址空间撤销对文件数据的映射 UnmapViewOfFile(basepointer); //关闭文件映射对象 CloseHandle(hFileMapping); //关闭文件对象 CloseHandle(hFile); } while (FALSE); return bRet; }
这个函数自我觉得封装得还不错,可以直接用于各种场合.这个函数有两个版本其实,一个是MFC的CString版本和C++的string版本.
还有一个需要注意的问题就是,因为Unicode多了两个字节的标记,所以Unicode比ANSI多一个字(Unicode是双字节编码),就是文本头,有兴趣的可以去试试.
相关文章推荐
- Sql Server之旅——第五站 确实不得不说的DBCC命令
- auto类型说明符
- NotificationManager和Notification的使用总结
- singleTop和singleTask的区别(附带 Activity 四种加载模式简介)
- 视频码率
- 将数据库文件导入mysql并输出为txt文件
- 通过url获取图片尺寸的几种方法:JS和php
- 实验四 主存空间的分配和回收
- React Native Life Cycle and Communication
- mysql批量导入sql
- C#指定窗口显示位置的方法
- qtp执行文本中的sql语句/脚本
- js正则表达式的运用
- Android studio导出的apk在真机上安装提示“文件不存在或已失效”的解决方法
- Java实验(11) 网页分析
- Using the D3.js Visualization Library with AngularJS
- 线程的生命周期
- mysql 2003 (113)
- python的执行过程
- appCloud学习积累