您的位置：首页 > 其它

机器学习之自然语言处理理解

2017-05-06 00:36 225 查看

大数据的机会使得更容易去做自然语言处理，人工智能闭环：数据驱动机器学习，有一个系统用户产生大量数据，基于数据建立模型服务客户。自然语言处理核心想法基于机器学习，统计机器学习方法分类为：分类、匹配、翻译、结构预测、马尔可夫决策过程。

逼近人的性能，考虑实用性，技术的上界和性能的下界。看具体应用场景。

具有代表性的技术：

机器翻译。问答系统。搜索匹配排序，q&a。传统字面上的匹配，现在深度学习技术下，把问句用向量表示，实数值向量序列，应用卷积神经网络，判断两句话语义上是否相似。二维卷积神经网络推断两句话里的语义表示，模型学习大量真实训练，学好参数，用于判断两句话是否构成问答。想法不仅实现在文本。还包括图像识别上。文字与图片结合起来，一种是文态，一种是像素表达。卷积神经网络，将图片文字表达成向量，多层神经网络匹配度多高。

自然语言对话，深层次模型。聊天系统，准备大量q&a 检索到里面的问答。大量数据训练产生无穷的回复。微博爬取400w数据，训练系统，产生自然语言对话（有意思）。理论上可以回答任意问题。产生一句话的比例是96。形成一段有意义的回答是76。泛化能力，它能记住输入。它能记住很多训练数据的样本。对于未知的能自动组织新的对话。单轮对话系统，重复性工作。实用性未知。

自然语言很多问题源于翻译，中文翻译成英文。序列对序列学习，对语义的表示，使用实数值向量。分解成回复的话，编码解码。

机器翻译，并行处理，模型分割数据分割。架构强大。翻译准确率超过了传统的统计机器翻译。

未来的自然语言发展趋势：规则！长尾现象。人名地名专业术语识别不好，低频现象，罕见词做法不好。现在的学习方法普遍使用统计的，需要通过看到才能学习。方法具有局限性。特定不特定，马尔可夫决策过程。单轮堆积起来。

理解自然语言很难，五类问题，ai闭环，提高性能算法能力。机器翻译应用深度学习，序列对序列，表现的很好。

分类，选好规则进行匹配。排序。

同声翻译，局部模式匹配，不经过理解，经过大量训练，直接得出翻译内容。与深度学习端对端学习，中间处理过程不知具有类似原理。

脑细胞激活，进行学习，联想。

神经生物学。大脑对非的处理很有意思。不要想红色的苹果，不要哭了，不要难过。。。

知识库：怎么定义知识。领域知识库，解决实际问题。

指令类，客服类语音系统。

通过自然语言分析处理文本知识库，发觉规律，检验学习，发觉机遇。

《应用驱动》

（李航教授）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 自然语言处理

相关文章推荐

新的分享

章节导航