您的位置:首页 > 其它

解决读取文件乱码问题

2016-06-24 15:08 706 查看
一般在windows上的txt文本文件要么以ANSI编码要么以Unicode编码,而用C ,C++,MFC编写的程序一般人只会处理一种编码格式的文本,因为不懂怎么判断读取的文件是以哪种编码格式存储的。那么重点就是判断读取的文件是以哪种方式存储的!有两种方式解决。

一.用二进制方式打开文件,前两个字节为FFFE就是Unicode文件,ANSI则无格式定义.

如图:

这是以16进制打开Unicode文件,很明显看到前两个字节是FFFE



再来,用C语言读取文件,如图:

把buf的地址在内存中显示出来,其内容是FFFE两个字节



因为编译器是32位的,所以最后显示如图:



所以现在基本确定判断Unicode的方法了.

例如:

int main(void)
{
if (IsUnicode("H:\\Unicode.txt"))
printf("打开的是Unicode文件\n");
else
printf("打开的是ANSI文件\n");
return 0;
}


IsUnicode函数实现如下:

bool IsUnicode(char* fileName)
{
FILE* fp = fopen(fileName, "rb");
if (!fp)
{
printf("打开文件失败!\n");
return 1;
}
char buf[2] = { 0 };
fread(buf, 1, 2, fp);
char byte1[10] = { 0 };
char byte2[10] = { 0 };
sprintf(byte1, "%X", buf[0]);
sprintf(byte2, "%X", buf[1]);
int iLen1 = strlen(byte1);
int iLen2 = strlen(byte2);
if (byte1[iLen1 - 2] == 'F'&&byte1[iLen1 - 1] == 'F'&&
byte2[iLen2 - 2] == 'F'&&byte2[iLen2 - 1] == 'E')
return true;
else
return false;
fclose(fp);
}


判断完之后就是用相应的方法进行读写了,这样一个程序就能实现两种文件的读写。有兴趣的还可以判断UFT-8的。

二.用ANSI方式读写,如果读到Unicode的,就会出现乱码,并且截断,我试了很多,发现不管多大文件,都出来的长度都是10以下,所以根据这个性质,可以判断读出来的是哪种方式编码.但是记住,不能用Unicode方式读写来判断,因为它读出来的虽然是乱码,但是长度却是不确定的.

这里我用文件映射的方法读取,这个比较方便转换编码方式.直接上代码吧,也没有什么可以说的了。如果不懂文件映射的,可以看看前面的文章.

/*
@function    ReadFileOfMapping 以内存映射的方式读取文件
@param       strFileName       要读取的文件名称
@param       strContent        存放读取出来的内容
@return      TRUE OR FALSE     成功返回TRUE,失败返回FALSE
*/

BOOL ReadFileOfMapping(_In_ const CString strFileName,
_Out_ CString& strContent)
{
BOOL bRet = FALSE;
CStringA strA;
do
{
//创建文件对象
HANDLE hFile = ::CreateFile(strFileName, GENERIC_READ, FILE_SHARE_READ, 0,
OPEN_EXISTING, FILE_FLAG_SEQUENTIAL_SCAN, 0);
if (hFile == INVALID_HANDLE_VALUE)
{
AfxMessageBox(TEXT("Open file faile!"));
break;
}
//创建文件映射对象
HANDLE hFileMapping = ::CreateFileMapping(hFile, 0, PAGE_READONLY, 0, 0, nullptr);
if (!hFileMapping)
{
AfxMessageBox(TEXT("Mapping faile!"));
break;
}
//将文件的数据映射到进程的地址空间
void* basepointer = ::MapViewOfFile(hFileMapping, FILE_MAP_READ, 0, 0, 0);
if (!basepointer)
{
AfxMessageBox(TEXT("View faile!"));
CloseHandle(hFile);
CloseHandle(hFileMapping);
break;
}
//将进程空间的数据读到编辑框中
strA = (char*)basepointer;
strContent = strA;
if (strContent.GetLength() < 10)    //如果是Unicode则把它转换为LPTSTR
strContent = (LPTSTR)basepointer;
//从进程的地址空间撤销对文件数据的映射
UnmapViewOfFile(basepointer);
//关闭文件映射对象
CloseHandle(hFileMapping);
//关闭文件对象
CloseHandle(hFile);
} while (FALSE);

return bRet;
}


这个函数自我觉得封装得还不错,可以直接用于各种场合.这个函数有两个版本其实,一个是MFC的CString版本和C++的string版本.

还有一个需要注意的问题就是,因为Unicode多了两个字节的标记,所以Unicode比ANSI多一个字(Unicode是双字节编码),就是文本头,有兴趣的可以去试试.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: