NPL学习之:分词相关 摘选zz from 52npl`
2010-08-06 13:53
176 查看
分词相关
a) Tokenization
i. 目标(Goal):将文本切分成单词序列(divide text into a sequence of words)
ii. 单词指的是一串连续的字母数字并且其两端有空格;可能包含连字符和撇号但是没有其它标点符号
b) 什么是词(What’s a word)?
i. English:
1. “Wash. vs wash”
2. “won’t”, “John’s”
3. “pro-Arab”, “the idea of a child-as-required-yuppie-possession must be motivating them”, “85-year-old grandmother”
ii. 东亚语言
1. 词之间没有空格
c) 分词
i. 基于规则的方法 : 基于词典和语法知识的形态分析
ii. 基于语料库的方法: 从语料中学习
iii. 需要考虑的问题: 覆盖面,歧义,准确性
d) 统计切分方法的动机
i. 未登录词问题:
——存在领域术语和专有名词
ii. 语法约束可能不充分
——例子(Example): 名词短语的交替切分
iii. 举例一
1. Segmentation:sha-choh/ken/gyoh-mu/bu-choh
2. Translation:“president/and/business/general/manager”
iv. 举例二
1. Segmentation:sha-choh/ken-gyoh/mu/bu-choh
2. Translation:“president/subsidiary business/Tsutomi[a name]/general manag
e) 一个切分算法:
i. 核心思想(Key idea): 对于每一个候选边界,比较这个边界邻接的n元序列的频率和跨过这个边界的n元序列的频率。
f) 实验框架(Experimental Framework)
i. 语料库(Corpus): 150兆1993年Nikkei新闻语料
ii. 人工切分: 用于开发集的50条序列(调节参数)和用于测试集的50条序列
iii. 基线算法(Baseline algorithms): Chasen和Juma的形态分析器
g) 评测方法(Evaluation Measures)
i. tp — true positive (真正, TP)被模型预测为正的正样本;
ii. fp — false positive (假正, FP)被模型预测为正的负样本;
iii. tn — true negative (真负 , TN)被模型预测为负的负样本 ;
iv. fn — false negative (假负 , FN)被模型预测为负的正样本;
v. 准确率(Precision) — the measure of the proportion of selected items that the system got right:
P = tp / ( tp + fp)
vi. 召回率(Recall) — the measure of the target items that the system selected:
R = tp / ( tp + fn )
vii. F值(F-measure):
F = 2 ∗ PR / (R + P)
viii. Word precision (P) is the percentage of proposed brackets that match word-level brackets in the annotation;
ix. Word recall (R) is the percentage of word-level brackets that are proposed by the algorithm.
完整原文:请参考http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part
a) Tokenization
i. 目标(Goal):将文本切分成单词序列(divide text into a sequence of words)
ii. 单词指的是一串连续的字母数字并且其两端有空格;可能包含连字符和撇号但是没有其它标点符号
b) 什么是词(What’s a word)?
i. English:
1. “Wash. vs wash”
2. “won’t”, “John’s”
3. “pro-Arab”, “the idea of a child-as-required-yuppie-possession must be motivating them”, “85-year-old grandmother”
ii. 东亚语言
1. 词之间没有空格
c) 分词
i. 基于规则的方法 : 基于词典和语法知识的形态分析
ii. 基于语料库的方法: 从语料中学习
iii. 需要考虑的问题: 覆盖面,歧义,准确性
d) 统计切分方法的动机
i. 未登录词问题:
——存在领域术语和专有名词
ii. 语法约束可能不充分
——例子(Example): 名词短语的交替切分
iii. 举例一
1. Segmentation:sha-choh/ken/gyoh-mu/bu-choh
2. Translation:“president/and/business/general/manager”
iv. 举例二
1. Segmentation:sha-choh/ken-gyoh/mu/bu-choh
2. Translation:“president/subsidiary business/Tsutomi[a name]/general manag
e) 一个切分算法:
i. 核心思想(Key idea): 对于每一个候选边界,比较这个边界邻接的n元序列的频率和跨过这个边界的n元序列的频率。
f) 实验框架(Experimental Framework)
i. 语料库(Corpus): 150兆1993年Nikkei新闻语料
ii. 人工切分: 用于开发集的50条序列(调节参数)和用于测试集的50条序列
iii. 基线算法(Baseline algorithms): Chasen和Juma的形态分析器
g) 评测方法(Evaluation Measures)
i. tp — true positive (真正, TP)被模型预测为正的正样本;
ii. fp — false positive (假正, FP)被模型预测为正的负样本;
iii. tn — true negative (真负 , TN)被模型预测为负的负样本 ;
iv. fn — false negative (假负 , FN)被模型预测为负的正样本;
v. 准确率(Precision) — the measure of the proportion of selected items that the system got right:
P = tp / ( tp + fp)
vi. 召回率(Recall) — the measure of the target items that the system selected:
R = tp / ( tp + fn )
vii. F值(F-measure):
F = 2 ∗ PR / (R + P)
viii. Word precision (P) is the percentage of proposed brackets that match word-level brackets in the annotation;
ix. Word recall (R) is the percentage of word-level brackets that are proposed by the algorithm.
完整原文:请参考http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part
相关文章推荐
- zzfrom水木-Linux环境学习和开发心得(作者:lunker)
- 数据挖掘学习笔记:挖掘频繁模式、关联和相关[ZZ]
- jQuery学习笔记--JqGrid相关操作 方法列表 备忘 重点讲解(超重要) from:jpr1990
- 高等概率论的一些学习心得兼推荐一些相关书籍 zz
- RxJava操作符相关学习资料
- IntelliJ IDEA 学习笔记 - 缓存和索引相关
- zk相关学习资料整理
- halcon例程学习笔记(3)----一维函数相关算子总结
- 深度学习相关学习资料
- C/C++ 学习笔记:类相关
- Kernel Configuration: dealing with the unexpected (zz from Linux magazine)
- lucene.net学习三——与索引优化相关的几个参数
- 重建索引的相关内容(from itpub)
- 迁移学习的相关概念
- 深度学习在自然语言处理相关文章
- 嵌入式学习-linux系统-lesson2-内核相关
- 进程学习相关整理
- 学习相关软件下载及破解
- 转自牛客网-JVM的相关知识整理和学习
- ARMv8-A系列学习笔记(1)--Chapter 1 Introduction.The change from 32-bit to 64-bit