C#从html网页内容中提取指定个数的汉字
2016-08-11 20:42
267 查看
<span style="white-space:pre"> </span><strong><span style="color:#6633ff;">提取html网页中指定个数的汉字</span></strong>
<span style="white-space:pre"> </span>/// <summary> /// 返回指定数量的汉字 /// </summary> /// <param name="content">通知或文章内容</param> /// <param name="num">返回汉字的数量</param> /// <returns></returns> public static string getProContent(string content, int num) { string result = ""; if (string.IsNullOrEmpty(content)) return ""; //去除\r\n\t result = content.Replace("\r", " "); result = result.Replace("\n", " "); result = result.Replace("\t", " "); //去除<>以内的内容 result = Regex.Replace(result, @"<[^>]*>", string.Empty, RegexOptions.IgnoreCase); //去掉特殊转义字符 result = Regex.Replace(result, @"&", "&", RegexOptions.IgnoreCase); result = Regex.Replace(result, @" ", " ", RegexOptions.IgnoreCase); result = Regex.Replace(result, @"<", "<", RegexOptions.IgnoreCase); result = Regex.Replace(result, @">", ">", RegexOptions.IgnoreCase); result = Regex.Replace(result, @"&(.{2,6});", string.Empty, RegexOptions.IgnoreCase); //去除多余的空行空格 result = Regex.Replace(result, @" ( )+", " "); result = Regex.Replace(result, "(\r)( )+(\r)", "\r\r"); result = Regex.Replace(result, @"(\r\r)+", "\r\n"); if (result.Length < num) { return result; } return result.Substring(0, num) + "..."; }
相关文章推荐
- HTML to Image in C#指定网页地址,获取内容为图片
- java中使用WebView提取指定网页的HTML内容
- C# 获取指定HTML网页中的标签内容
- java中使用WebView提取指定网页的HTML内容
- 菜鸟练习C#htmlparser----C#正则加htmlDOM进行网页解析腾讯新闻帖子列表相关信息提取
- C#正则表达式通过HTML提取网页中的图片src
- js replace 全局替换 以表单的方式提交参数 判断是否为ie浏览器 将jquery.qqFace.js表情转换成微信的字符码 手机端省市区联动 新字体引用本地运行可以获得,放到服务器上报404 C#提取html中的汉字 MVC几种找不到资源的解决方式 使用Windows服务定时去执行一个方法的三种方式
- C# 正则提取网页内容
- C#获取网页源代码,去除html标签,提取文字源码
- 如何提取网页上的内容(C#)
- 利用javascript打印html网页内容中的指定内容
- C#提取html中的汉字
- 菜鸟练习C#htmlparser----C#正则加htmlDOM进行网页解析腾讯新闻帖子列表相关信息提取
- C#提取TXT文档指定内容
- JS提取网页中表格内容,将特定列内的html文本中id,href,onclick属性提取出来
- C#获取网页指定内容
- 根据网页的HTML内容提取网页的Encoding
- 【HTML】使用iframe标签显示目标网页(内容)的指定区域
- HTML 转文本及HTML内容提取(C#)
- gprs连接成功以后,如何通过socket获取网页html内容(C#)