java爬取网页Unicode 转 utf-8 汉字
2016-08-13 14:11
501 查看
废话少说直接上代码
package util;
import java.nio.ByteBuffer;
import java.nio.charset.Charset;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* @author stone
package util;
import java.nio.ByteBuffer;
import java.nio.charset.Charset;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* @author stone
*<p>Unicode 转utf-8 * */ public class CharSetUtil { /** * 解码 Unicode \\uXXXX * @param str * @return */ public static String decodeUnicode(String str) { Charset set = Charset.forName("UTF-16"); Pattern p = Pattern.compile("\\\\u([0-9a-fA-F]{4})"); Matcher m = p.matcher( str ); int start = 0 ; int start2 = 0 ; StringBuffer sb = new StringBuffer(); while( m.find( start ) ) { start2 = m.start() ; if( start2 > start ){ String seg = str.substring(start, start2) ; sb.append( seg ); } String code = m.group( 1 ); int i = Integer.valueOf( code , 16 ); byte[] bb = new byte[ 4 ] ; bb[ 0 ] = (byte) ((i >> 8) & 0xFF ); bb[ 1 ] = (byte) ( i & 0xFF ) ; ByteBuffer b = ByteBuffer.wrap(bb); sb.append( String.valueOf( set.decode(b) ).trim() ); start = m.end() ; } start2 = str.length() ; if( start2 > start ){ String seg = str.substring(start, start2) ; sb.append( seg ); } return sb.toString() ; } public static void main(String[] args) { System.out.println( decodeUnicode("\\u5907abbbbbs\\u5907")); } }
相关文章推荐
- java Unicode 转 utf-8 汉字
- java中unicode utf-8以及汉字之间的转换工具类
- java进行汉字unicode转变成utf-8汉字
- Android Java中将unicode的汉字码转换成utf-8格式的汉字
- java中unicode utf-8以及汉字之间的转换工具类
- JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础
- 关于JAVA中汉字和Unicode的值之间的转换
- JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换
- JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础
- java unicode to utf-8
- JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础
- 将unicode编码的中文汉字转变成UTF-8编码的php程序
- JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础[引]
- ANSI,Unicode,UTF-8网页编码的区别【转】
- 转: JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础
- UTF-8, Unicode, GB2312三种编码方式解析, 深入研究汉字编码
- Unicode,UTF-8编码,汉字编码
- JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础
- JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换[引]
- 用java实现把汉字转换为Unicode