[JAVA]清洗latex数据
2015-07-04 11:02
399 查看
首先,找出符合条件的文章。
一.清洗公式
格式为
\\begin{equation}...\\end{equation}
\\begin{eqnarray}...\\end{eqnarray}
二.以每段为准,将句子连接,接着进行分句(每行为一个句子)。(暂时不分句)
三.清洗标签
1.清洗公式标签,格式为
(\\$$.*?\\$$)?
(\\$.*?\\$)?
2.清洗文献引用,斜体
\cite{...}
\footnote{...}
{\em ...}
\item
\begin{enumerate} \end{enumerate}
四、词根化
Porterstemmer
五、去停用词
FileExcludeStopWord
另附获取web的文章id与subjects对应信息
保存网页
一.Test
从网页解析数据,通过匹配字符信息来获取文章id、Title、subjects。
二.subjectindex
document-subjects数字化,将subject标注,doc转化。
三、countsort
统计每个subjects包含几个文件,并排序。
四、chooseK
选择符合条件的数据集,选择与K线性增大的数据集。
一.清洗公式
格式为
\\begin{equation}...\\end{equation}
\\begin{eqnarray}...\\end{eqnarray}
二.以每段为准,将句子连接,接着进行分句(每行为一个句子)。(暂时不分句)
三.清洗标签
1.清洗公式标签,格式为
(\\$$.*?\\$$)?
(\\$.*?\\$)?
2.清洗文献引用,斜体
\cite{...}
\footnote{...}
{\em ...}
\item
\begin{enumerate} \end{enumerate}
四、词根化
Porterstemmer
五、去停用词
FileExcludeStopWord
另附获取web的文章id与subjects对应信息
保存网页
一.Test
从网页解析数据,通过匹配字符信息来获取文章id、Title、subjects。
二.subjectindex
document-subjects数字化,将subject标注,doc转化。
三、countsort
统计每个subjects包含几个文件,并排序。
四、chooseK
选择符合条件的数据集,选择与K线性增大的数据集。
相关文章推荐
- 2015070403 - EffactiveJava笔记 - 第56条 遵守普遍命名规范(2)
- eclipse如何开启/关闭代码提示功能
- java基础------存取大文件数据
- java深入解析-第1章 基本概念2
- Spring MVC @Transactional注解方式事务失效的解决办法
- javassis在spring初始化前修改class文件。
- eclipse快捷键(含Debug调试)
- 2015070402 - EffactiveJava笔记 - 第56条 遵守普遍命名规范(1)
- Java单例模式复习(三)
- Java单例模式复习(二)
- Java单例模式复习(-)
- java 简体转繁体
- Spring 从零开始-02
- eclipse不能创建java虚拟机-解决方法
- Java记录 -2- 原生数据类型
- spring4.1+springmvc4.1+mybatis3.2.8+spring-security3.2.5集成环境建设
- Java知多少(112)数据库之删除记录
- eclipse打开过的工程信息保存路径
- 如何看待java的this???
- 2015070401 - EffactiveJava笔记 - 第55条 谨慎地进行优化(4)