Cuyahoga代码的研究之一:Cuyahoga.Corel项目
2005-10-19 12:29
281 查看
Text.Css里定义了一个用于文本处理的类,它只有一个静态方法TruncateText(string FullText,int numberofCharacters)
源代码如下:
public static string TruncateText(string fullText, int numberOfCharacters)
{
string text;
if (fullText.Length > numberOfCharacters)
{
int spacePos = fullText.IndexOf(" ", numberOfCharacters);
if (spacePos > -1)
{
text = fullText.Substring(0, spacePos) + "";
}
else
{
text = fullText;
}
}
else
{
text = fullText;
}
Regex regexStripHTML = new Regex("<[^>]+>",RegexOptions.IgnoreCase|RegexOptions.Compiled);
text = regexStripHTML.Replace(text, " ");
return text;
}这个静态方法接收两个参数,第一个是要处理的字符串(这个字符串可能是HTML格式的),第二个是要保留多少个字符,处理的过程如下:
1.先判断长度是否大于要保留的字符个数,不大于,则执行第三步
2.如果要处理的字符串长度大于要保留的字符数,从要保留的字符数索引位置开始,查找下一个空格位,然后取出从第一个字符到这个空格位的字符
3.使用正则表达式将字符串中的HTML标记剔除掉
这里有两个小小的技巧:
第一个 int spacepost=fulltext.indexOf(" ",numberOfCharacters)
这就取出了从某位置往后的第一个空格,这样做的目的是为了断词,例如,要取得25个字符,但是从第23个字符开始出现了一个单词"programe",现在的问题是,如果你硬取前25个,则会拆掉programe这个词,这里的方法很灵活,把位置延缓到单词的结尾,这样就取得完整些
第二个就是正则表达式"<[^>]+>"这个表达式代表了所有标记,中间的^>意思是除了>以外的所有字符,而且后面的+就限制了<>间必定有一个字符,经过正则表达式的替换,就把取出的字符串中的HTML标记再次剔除了
上面的方法是不错,但是,我觉得不够完美,对于一般性的非段落带格式的HTML文本,他可以处理的很好,因为HTML标记不见了,等于是去除带格式文本的格式,但是,如果是一段带有文本以外标记(如IMG,Button)的字符串,那取出的结果就不尽人意了
这种场景用的非常多,相信许多开发新闻系统的朋友都遇到过,因为我们需要生成新闻的摘要内容
不过,我所建议的方法是,对于摘要性质的内容,最灵活也是最具有扩展性的方法是增加一个摘要栏目和字段,让采编人员可以自由的来录入摘要内容,这样的好处是两方面:一是,摘要内容更准确,二是摘要内容的字数更容易控制,更灵活)
源代码如下:
public static string TruncateText(string fullText, int numberOfCharacters)
{
string text;
if (fullText.Length > numberOfCharacters)
{
int spacePos = fullText.IndexOf(" ", numberOfCharacters);
if (spacePos > -1)
{
text = fullText.Substring(0, spacePos) + "";
}
else
{
text = fullText;
}
}
else
{
text = fullText;
}
Regex regexStripHTML = new Regex("<[^>]+>",RegexOptions.IgnoreCase|RegexOptions.Compiled);
text = regexStripHTML.Replace(text, " ");
return text;
}这个静态方法接收两个参数,第一个是要处理的字符串(这个字符串可能是HTML格式的),第二个是要保留多少个字符,处理的过程如下:
1.先判断长度是否大于要保留的字符个数,不大于,则执行第三步
2.如果要处理的字符串长度大于要保留的字符数,从要保留的字符数索引位置开始,查找下一个空格位,然后取出从第一个字符到这个空格位的字符
3.使用正则表达式将字符串中的HTML标记剔除掉
这里有两个小小的技巧:
第一个 int spacepost=fulltext.indexOf(" ",numberOfCharacters)
这就取出了从某位置往后的第一个空格,这样做的目的是为了断词,例如,要取得25个字符,但是从第23个字符开始出现了一个单词"programe",现在的问题是,如果你硬取前25个,则会拆掉programe这个词,这里的方法很灵活,把位置延缓到单词的结尾,这样就取得完整些
第二个就是正则表达式"<[^>]+>"这个表达式代表了所有标记,中间的^>意思是除了>以外的所有字符,而且后面的+就限制了<>间必定有一个字符,经过正则表达式的替换,就把取出的字符串中的HTML标记再次剔除了
上面的方法是不错,但是,我觉得不够完美,对于一般性的非段落带格式的HTML文本,他可以处理的很好,因为HTML标记不见了,等于是去除带格式文本的格式,但是,如果是一段带有文本以外标记(如IMG,Button)的字符串,那取出的结果就不尽人意了
这种场景用的非常多,相信许多开发新闻系统的朋友都遇到过,因为我们需要生成新闻的摘要内容
不过,我所建议的方法是,对于摘要性质的内容,最灵活也是最具有扩展性的方法是增加一个摘要栏目和字段,让采编人员可以自由的来录入摘要内容,这样的好处是两方面:一是,摘要内容更准确,二是摘要内容的字数更容易控制,更灵活)
相关文章推荐
- Cuyahoga代码的研究之一:Cuyahoga.Corel项目
- 在Eclipse中的Android项目里实现代码“.NET研究”复用
- DIOCP开源项目出炉,附带<IOCP退出资源的管控研究代码>
- Web项目代码架构研究
- DIOCP开源项目出炉,附带<IOCP退出资源的管控研究代码>
- 游戏项目中运用到的设计模式(二)...策略模式(strategy)(《重构-改善既有代码的设计》读后做)
- eclipse项目(代码正确,却无法执行正确)+磁盘利用率100%
- Java项目源码为什么要做代码混淆(解释的很好)
- ios查看项目代码量--总行数
- 对于在网络上请教项目代码问题
- 第十八周项目实践3.1(3)编程处理c代码
- 如果你参与到一个项目中,发现他们使用 Tab 来缩进代码,但是你喜欢空格,你会怎么做?
- SourceTree的基本使用 1. SourceTree是什么 拥有可视化界面的项目版本控制软件,适用于git项目管理 window、mac可用 2. 获取项目代码 1. 点击克隆/新建 2
- iOS开发之 Xcode svn更新代码后,不能打开.xcodeproj,因为该项目文件不能被解析
- IntelliJ IDEA开发Java web项目,JSP无代码提示或自动补全 问题
- PDA打印处罚单系统项目模块设计--开发代码
- 项目文件.NET下编译C++代码时出现fatal error C1083: 无法打开包括文件:“xuhk_JNIHelloWorld.h”: No such file or directory错误的解决方法。
- C语言中main函数的研究,以及对代码断点调试的研究(王爽老师 汇编语言)
- Green.AgileMapper项目-新增DO和DTO代码生成
- 架构免费的在线项目管理与代码托管服务