java 正则表达式替换img标签的src路径
2015-03-04 11:13
826 查看
需求:由于系统切换,要求将存在数据库中的网页内容中的img标签的src属性进行修补,举例:
content="<p><img title=\"122444234\" src=\"/files/post/122444234.jpg\"/><p>其他字符";
要求替换后为:
content="<p><img title=\"122444234\" src=\"http://xxx.xxx.com/files/post/122444234_500.jpg\" /><p>其他字符";
使用正则即可解决,代码如下(ApiUtil.java静态方法)
Java代码
/**
* 将img标签中的src进行二次包装
* @param content 内容
* @param replaceHttp 需要在src中加入的域名
* @param size 需要在src中将文件名加上_size
* @return
*/
public static String repairContent(String content,String replaceHttp,int size){
String patternStr="<img\\s*([^>]*)\\s*src=\\\"(.*?)\\\"\\s*([^>]*)>";
Pattern pattern = Pattern.compile(patternStr,Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(content);
String result = content;
while(matcher.find()) {
String src = matcher.group(2);
logger.debug("pattern string:"+src);
String replaceSrc = "";
if(src.lastIndexOf(".")>0){
replaceSrc = src.substring(0,src.lastIndexOf("."))+"_"+size+src.substring(src.lastIndexOf("."));
}
if(!src.startsWith("http://")&&!src.startsWith("https://")){
replaceSrc = replaceHttp + replaceSrc;
}
result = result.replaceAll(src,replaceSrc);
}
logger.debug(" content == " +content);
logger.debug(" result == " + result);
return result;
}
测试代码:
Java代码
public static void main(String[] args) {
String content = "<p><img title=\"10010001\" src=\"/files/post/10010001.gif\" width=\"200\" height=\"300\" />" +
"</p><p><img title=\"10010002\" src=\"/files/post/10010002.gif\" width=\"500\" height=\"300\" /><p> </p>"+
"</p><p><img title=\"10010003\" src=\"/files/post/10010003.gif\" width=\"600\" height=\"300\" /><p> </p>";
String replaceHttp = "http://www.baidu.com";
int size = 500;
String result = ApiUtil.repairContent(content, replaceHttp, size);
System.out.println(result);
}
关键在于正则表达式:<img\\s*([^>]*)\\s*src=\\\"(.*?)\\\"\\s*([^>]*)>
特别是 ([^>]*) 不能用.*代替,否则只会从<img匹配到字符串最后一个">"符号为止,如果每个src的内容不一样,就只会替换最后一个src
参考链接:http://senon.iteye.com/blog/1591522
content="<p><img title=\"122444234\" src=\"/files/post/122444234.jpg\"/><p>其他字符";
要求替换后为:
content="<p><img title=\"122444234\" src=\"http://xxx.xxx.com/files/post/122444234_500.jpg\" /><p>其他字符";
使用正则即可解决,代码如下(ApiUtil.java静态方法)
Java代码
/**
* 将img标签中的src进行二次包装
* @param content 内容
* @param replaceHttp 需要在src中加入的域名
* @param size 需要在src中将文件名加上_size
* @return
*/
public static String repairContent(String content,String replaceHttp,int size){
String patternStr="<img\\s*([^>]*)\\s*src=\\\"(.*?)\\\"\\s*([^>]*)>";
Pattern pattern = Pattern.compile(patternStr,Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(content);
String result = content;
while(matcher.find()) {
String src = matcher.group(2);
logger.debug("pattern string:"+src);
String replaceSrc = "";
if(src.lastIndexOf(".")>0){
replaceSrc = src.substring(0,src.lastIndexOf("."))+"_"+size+src.substring(src.lastIndexOf("."));
}
if(!src.startsWith("http://")&&!src.startsWith("https://")){
replaceSrc = replaceHttp + replaceSrc;
}
result = result.replaceAll(src,replaceSrc);
}
logger.debug(" content == " +content);
logger.debug(" result == " + result);
return result;
}
测试代码:
Java代码
public static void main(String[] args) {
String content = "<p><img title=\"10010001\" src=\"/files/post/10010001.gif\" width=\"200\" height=\"300\" />" +
"</p><p><img title=\"10010002\" src=\"/files/post/10010002.gif\" width=\"500\" height=\"300\" /><p> </p>"+
"</p><p><img title=\"10010003\" src=\"/files/post/10010003.gif\" width=\"600\" height=\"300\" /><p> </p>";
String replaceHttp = "http://www.baidu.com";
int size = 500;
String result = ApiUtil.repairContent(content, replaceHttp, size);
System.out.println(result);
}
关键在于正则表达式:<img\\s*([^>]*)\\s*src=\\\"(.*?)\\\"\\s*([^>]*)>
特别是 ([^>]*) 不能用.*代替,否则只会从<img匹配到字符串最后一个">"符号为止,如果每个src的内容不一样,就只会替换最后一个src
参考链接:http://senon.iteye.com/blog/1591522
相关文章推荐
- PHP用正则批量替换Img中src内容,用正则表达式获取图片路径实现缩略图功能
- 正则表达式提取字符串内所有的img标签下的src路径
- C#中使用 正则表达式 替换img中src路径但保留图片名
- 怎么用正则表达式获取文章内容中的&lt;img标签和 src的路径
- 原来java的正则也很强大,搜索html文档,根据要求替换img标签中的src属性
- PHP用正则批量替换Img中src内容,用正则表达式获取图片路径实现缩略图功能
- java正则替换img标签中src值的方法
- PHP用正则批量替换Img中src内容,用正则表达式获取图片路径实现缩略图功能
- 正则表达式提取HTML中img标签的src地址
- 匹配html img 标签的正则表达式 java
- java使用replaceall中的正则表达式剔除掉img标签里的class
- Java替换HTML标签正则表达式
- C#正则表达式提取HTML中IMG标签中的SRC地址
- java正则表达式获得html字符串中<img src>的src中的url地址
- java 正则表达式 替换过滤HTML标签
- C#正则表达式提取HTML中IMG标签的SRC地址
- ASP.NET正则替换html标签中img src/href
- jse.正则表达式--JAVA正则表达式,提取img的src问题!!!
- 用正则表达式替换图片地址img标签
- 提取img标签src属性中的图片路径正则 (php)