您的位置：首页 > 其它

解决读取文件乱码问题

2016-06-24 15:08 706 查看

一般在windows上的txt文本文件要么以ANSI编码要么以Unicode编码，而用C ,C++，MFC编写的程序一般人只会处理一种编码格式的文本，因为不懂怎么判断读取的文件是以哪种编码格式存储的。那么重点就是判断读取的文件是以哪种方式存储的！有两种方式解决。

一.用二进制方式打开文件，前两个字节为FFFE就是Unicode文件,ANSI则无格式定义.

如图：

这是以16进制打开Unicode文件，很明显看到前两个字节是FFFE

再来，用C语言读取文件，如图：

把buf的地址在内存中显示出来，其内容是FFFE两个字节

因为编译器是32位的，所以最后显示如图:

所以现在基本确定判断Unicode的方法了.

例如：

int main(void)
{
if (IsUnicode("H:\\Unicode.txt"))
printf("打开的是Unicode文件\n");
else
printf("打开的是ANSI文件\n");
return 0;
}

IsUnicode函数实现如下：

bool IsUnicode(char* fileName)
{
FILE* fp = fopen(fileName, "rb");
if (!fp)
{
printf("打开文件失败!\n");
return 1;
}
char buf[2] = { 0 };
fread(buf, 1, 2, fp);
char byte1[10] = { 0 };
char byte2[10] = { 0 };
sprintf(byte1, "%X", buf[0]);
sprintf(byte2, "%X", buf[1]);
int iLen1 = strlen(byte1);
int iLen2 = strlen(byte2);
if (byte1[iLen1 - 2] == 'F'&&byte1[iLen1 - 1] == 'F'&&
byte2[iLen2 - 2] == 'F'&&byte2[iLen2 - 1] == 'E')
return true;
else
return false;
fclose(fp);
}

判断完之后就是用相应的方法进行读写了,这样一个程序就能实现两种文件的读写。有兴趣的还可以判断UFT-8的。

二.用ANSI方式读写，如果读到Unicode的，就会出现乱码，并且截断，我试了很多，发现不管多大文件，都出来的长度都是10以下，所以根据这个性质，可以判断读出来的是哪种方式编码.但是记住，不能用Unicode方式读写来判断，因为它读出来的虽然是乱码，但是长度却是不确定的.

这里我用文件映射的方法读取，这个比较方便转换编码方式.直接上代码吧，也没有什么可以说的了。如果不懂文件映射的，可以看看前面的文章.

/*
@function    ReadFileOfMapping 以内存映射的方式读取文件
@param       strFileName       要读取的文件名称
@param       strContent        存放读取出来的内容
@return      TRUE OR FALSE     成功返回TRUE，失败返回FALSE
*/

BOOL ReadFileOfMapping(_In_ const CString strFileName,
_Out_ CString& strContent)
{
BOOL bRet = FALSE;
CStringA strA;
do
{
//创建文件对象
HANDLE hFile = ::CreateFile(strFileName, GENERIC_READ, FILE_SHARE_READ, 0,
OPEN_EXISTING, FILE_FLAG_SEQUENTIAL_SCAN, 0);
if (hFile == INVALID_HANDLE_VALUE)
{
AfxMessageBox(TEXT("Open file faile!"));
break;
}
//创建文件映射对象
HANDLE hFileMapping = ::CreateFileMapping(hFile, 0, PAGE_READONLY, 0, 0, nullptr);
if (!hFileMapping)
{
AfxMessageBox(TEXT("Mapping faile!"));
break;
}
//将文件的数据映射到进程的地址空间
void* basepointer = ::MapViewOfFile(hFileMapping, FILE_MAP_READ, 0, 0, 0);
if (!basepointer)
{
AfxMessageBox(TEXT("View faile!"));
CloseHandle(hFile);
CloseHandle(hFileMapping);
break;
}
//将进程空间的数据读到编辑框中
strA = (char*)basepointer;
strContent = strA;
if (strContent.GetLength() < 10)    //如果是Unicode则把它转换为LPTSTR
strContent = (LPTSTR)basepointer;
//从进程的地址空间撤销对文件数据的映射
UnmapViewOfFile(basepointer);
//关闭文件映射对象
CloseHandle(hFileMapping);
//关闭文件对象
CloseHandle(hFile);
} while (FALSE);

return bRet;
}

这个函数自我觉得封装得还不错，可以直接用于各种场合.这个函数有两个版本其实，一个是MFC的CString版本和C++的string版本.

还有一个需要注意的问题就是，因为Unicode多了两个字节的标记，所以Unicode比ANSI多一个字(Unicode是双字节编码)，就是文本头，有兴趣的可以去试试.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航