FileReader读取文件中文乱码问题
2017-02-07 16:41
543 查看
有一个UTF-8编码的文本文件,用FileReader读取到一个字符串,然后转换字符集:str=newString(str.getBytes(),"UTF-8");结果大部分中文显示正常,但最后仍有部分汉字显示为问号!
Java代码
public static List<String> getLines(String fileName){
List<String> lines=newArrayList<String>();
try {
BufferedReader br = new BufferedReader(new FileReader(fileName));
String line= null;
while ((line= br.readLine()) != null) {
lines.add(newString(line.getBytes("GBK"),"UTF-8"));
}
br.close();
} catch (FileNotFoundException e){
}catch (IOException e){}
return lines;
}
public staticList<String> getLines(String fileName){
List<String> lines=new ArrayList<String>();
try {
BufferedReader br = new BufferedReader(newFileReader(fileName));
String line = null;
while ((line = br.readLine()) != null) {
lines.add(newString(line.getBytes("GBK"),"UTF-8"));
}
br.close();
} catch (FileNotFoundException e) {
}catch (IOException e) {}
return lines;
}
文件读入时是按OS的默认字符集即GBK解码的,我先用默认字符集GBK编码str.getBytes(“GBK”),此时应该还原为文件中的字节序列了,然后再按UTF-8解码,生成的字符串按理说应该就应该是正确的。
为什么结果中还是有部分乱码呢?
问题出在FileReader读取文件的过程中,FileReader继承了InputStreamReader,但并没有实现父类中带字符集参数的构造函数,所以FileReader只能按系统默认的字符集来解码,然后在UTF-8
-> GBK-> UTF-8的过程中编码出现损失,造成结果不能还原最初的字符。
原因明确了,这个问题解决起来并不困难,用InputStreamReader代替FileReader,InputStreamReaderisr=new
InputStreamReader(new FileInputStream(fileName),"UTF-8");这样读取文件就会直接用UTF-8解码,不用再做编码转换。
Java代码
public static List<String> getLines(String fileName){
List<String> lines=newArrayList<String>();
try {
BufferedReader br=new BufferedReader(new InputStreamReader(newFileInputStream(fileName),"UTF-8"));
String line= null;
while ((line= br.readLine()) != null) {
lines.add(line);
}
br.close();
} catch (FileNotFoundException e){
}catch (IOException e){}
return lines;
}
Java代码
public static List<String> getLines(String fileName){
List<String> lines=newArrayList<String>();
try {
BufferedReader br = new BufferedReader(new FileReader(fileName));
String line= null;
while ((line= br.readLine()) != null) {
lines.add(newString(line.getBytes("GBK"),"UTF-8"));
}
br.close();
} catch (FileNotFoundException e){
}catch (IOException e){}
return lines;
}
public staticList<String> getLines(String fileName){
List<String> lines=new ArrayList<String>();
try {
BufferedReader br = new BufferedReader(newFileReader(fileName));
String line = null;
while ((line = br.readLine()) != null) {
lines.add(newString(line.getBytes("GBK"),"UTF-8"));
}
br.close();
} catch (FileNotFoundException e) {
}catch (IOException e) {}
return lines;
}
文件读入时是按OS的默认字符集即GBK解码的,我先用默认字符集GBK编码str.getBytes(“GBK”),此时应该还原为文件中的字节序列了,然后再按UTF-8解码,生成的字符串按理说应该就应该是正确的。
为什么结果中还是有部分乱码呢?
问题出在FileReader读取文件的过程中,FileReader继承了InputStreamReader,但并没有实现父类中带字符集参数的构造函数,所以FileReader只能按系统默认的字符集来解码,然后在UTF-8
-> GBK-> UTF-8的过程中编码出现损失,造成结果不能还原最初的字符。
原因明确了,这个问题解决起来并不困难,用InputStreamReader代替FileReader,InputStreamReaderisr=new
InputStreamReader(new FileInputStream(fileName),"UTF-8");这样读取文件就会直接用UTF-8解码,不用再做编码转换。
Java代码
public static List<String> getLines(String fileName){
List<String> lines=newArrayList<String>();
try {
BufferedReader br=new BufferedReader(new InputStreamReader(newFileInputStream(fileName),"UTF-8"));
String line= null;
while ((line= br.readLine()) != null) {
lines.add(line);
}
br.close();
} catch (FileNotFoundException e){
}catch (IOException e){}
return lines;
}
相关文章推荐
- FileReader读取中文txt文件编码丢失问题(乱码)(转)
- FileReader读取中文txt文件编码丢失问题(乱码)
- FileReader读取中文字符乱码问题
- BufferedReader和FileReader读取txt文件乱码问题
- FileReader读取文件编码丢失问题(乱码)
- (好文!!)FileReader读取文件,由于不确定源文件的编码格式不同,导致读出的文件乱码的问题
- (好文!!)FileReader读取文件,由于不确定源文件的编码格式不同,导致读出的文件乱码的问题
- php读取淘宝数据包csv文件 unicode ucs-2 utf-16 中文乱码问题解决
- flex调用js写文件时,传递的参数包含中文,读取乱码问题
- android解决读取中文文件乱码的问题
- 读取TXT文件中文乱码问题
- 解決BufferedReader读取UTF-8文件中文乱码
- 解決BufferedReader读取UTF-8文件中文乱码
- SpringSecurity3 读取中文消息资源(properties)文件,输出乱码的问题
- spring使用@Value标签读取.properties文件的中文乱码问题的解决
- python读取txt文件时的中文乱码问题
- 关于Spring boot中读取属性配置文件出现中文乱码的问题的解决
- 读取Properties文件以及中文乱码问题
- python读取\t\n的文件转换成html表格发送邮件(解决中文乱码问题)
- NodeJS读取windows下文件中文乱码的问题