您的位置:首页 > 其它

使用cpdetector检测文件编码格式

2018-01-21 12:05 851 查看
/**
* 读文件,根据文件名,返回文件内容字符串;
* 读文件之前会探测编码格式,按准确的编码格式进行读取;若编码格式探测失败,则默认按照"UTF-8"进行读取
*/
public static String readFileToStringByPath(String filePath) {
String fileContent = null;
File file = new File(filePath);
if (file.isFile()) {
/* 
* 探测编码格式;http://cpdetector.sourceforge.net/;

        * detector是探测器,它把探测任务交给具体的探测实现类的实例完成。 
        * cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法 加进来,如ParsingDetector、 
        * JChardetFacade、ASCIIDetector、UnicodeDetector。 
        * detector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的字符集编码。 
        * 使用需要用到三个第三方JAR包:antlr.jar,chardet.jar,jargs-1.0.jar和cpdetector.jar 
        * cpDetector是基于统计学原理的,不保证完全正确。 
        */
       CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
       /*
        * ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于
        * 指示是否显示探测过程的详细信息,为false不显示。
        */
       detector.add(new ParsingDetector(false));
       /*
        * JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码
        * 测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以
        * 再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
        */
       detector.add(JChardetFacade.getInstance());// 用到antlr.jar、chardet.jar
       // ASCIIDetector用于ASCII编码测定,
       //JChardetFacade已可满足大多数项目的要求,ASCIIDetector暂不用
   //    detector.add(ASCIIDetector.getInstance());
       // UnicodeDetector用于Unicode家族编码的测定 
     //JChardetFacade已可满足大多数项目的要求,UnicodeDetector暂不用
   //    detector.add(UnicodeDetector.getInstance());
       
       //编码格式
       String encoding = null;
       java.nio.charset.Charset charset = null; 
       try {
           charset = detector.detectCodepage(file.toURI().toURL());
       } catch (Exception ex) {
           ex.printStackTrace();
       }
       if (charset != null) {
       
encoding = charset.name();
       }else {
       
//若编码格式探测失败,则默认按照"UTF-8"进行读文件
       
encoding = "UTF-8";
       }

    try {

    fileContent = FileUtils.readFileToString(file,encoding);

    } catch (IOException e) {

    e.printStackTrace();

    }
}
return fileContent;
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: