[原创]从RTF格式 的文件中提取文本。
2008-01-24 20:19
239 查看
因为需要提高《资料收集库》的查找速度,所以需要从RTF格式的内容中提取所有的文本出来,
注意,是文本,不带格式,也不带图片。实际上只要知道RTF的控制符号可能出现的字符就能搞定了。
贡献给有需要的人,实际上,如果需要取得图片,只要处理一下控制符号就行了。自己搞定吧。
如果您修改后有改进效率,或者增加了导出图片等功能,能否也给我来一份?谢谢。
附件请看这里:
http://www.9ele.com/bbs/a/a.asp?B=400&ID=63&AUpflag=1&ANum=1
注意,是文本,不带格式,也不带图片。实际上只要知道RTF的控制符号可能出现的字符就能搞定了。
贡献给有需要的人,实际上,如果需要取得图片,只要处理一下控制符号就行了。自己搞定吧。
如果您修改后有改进效率,或者增加了导出图片等功能,能否也给我来一份?谢谢。
附件请看这里:
http://www.9ele.com/bbs/a/a.asp?B=400&ID=63&AUpflag=1&ANum=1
相关文章推荐
- word存为txt文本、rtf格式的文件
- [置顶] [原创]自己动手写博客园博文提取器,提取文件保存支持PDF、doc、txt三种格式
- 导入导出:数据库导出Txt文本文件格式校验[原创]
- 文本文件内容按格式提取
- 从伪word格式的doc文件中提取文本内容
- [置顶] [原创]自己动手写CSDN博客提取器,提取文件保存支持PDF、doc、txt三种格式
- python处理文本文件实现生成指定格式文件的方法
- 将Oracle数据库中某张表的内容导出成文本格式文件
- Python实现把json格式转换成文本或sql文件
- lib文件格式分析,以及从lib文件提取obj的思路和源码
- Python批量提取PDF文件中的文本
- 记录这一刻:百度搜索结果“文件格式:-HTML文本”
- 自己动手写CSDN博客提取器,提取文件保存支持PDF、doc、txt三种格式
- python处理文本文件实现生成指定格式文件的方法
- Windows & Linux 文件格式之迷 < VI下删除文本中的^M>
- Python批量提取PDF文件中文本的脚本
- RTF格式文件初探
- RTF文本格式解析-西班牙语乱码问题
- 文本格式报文转换为pcap文件的方法
- 【NLP】Tika 文本预处理:抽取各种格式文件内容