您的位置:首页 > 其它

机器学习之自然语言处理理解

2017-05-06 00:36 225 查看
大数据的机会使得更容易去做自然语言处理,人工智能闭环:数据驱动机器学习,有一个系统用户产生大量数据,基于数据建立模型服务客户。自然语言处理核心想法基于机器学习,统计机器学习方法分类为:分类、匹配、翻译、结构预测、马尔可夫决策过程。

逼近人的性能,考虑实用性,技术的上界和性能的下界。看具体应用场景。

具有代表性的技术:

机器翻译。问答系统。搜索匹配排序,q&a。传统字面上的匹配,现在深度学习技术下,把问句用向量表示,实数值向量序列,应用卷积神经网络,判断两句话语义上是否相似。二维卷积神经网络推断两句话里的语义表示,模型学习大量真实训练,学好参数,用于判断两句话是否构成问答。想法不仅实现在文本。还包括图像识别上。文字与图片结合起来,一种是文态,一种是像素表达。卷积神经网络,将图片文字表达成向量,多层神经网络匹配度多高。

自然语言对话,深层次模型。聊天系统,准备大量q&a 检索到里面的问答。大量数据训练产生无穷的回复。微博爬取400w数据,训练系统,产生自然语言对话(有意思)。理论上可以回答任意问题。产生一句话的比例是96。形成一段有意义的回答是76。泛化能力,它能记住输入。它能记住很多训练数据的样本。对于未知的能自动组织新的对话。单轮对话系统,重复性工作。实用性未知。

自然语言很多问题源于翻译,中文翻译成英文。序列对序列学习,对语义的表示,使用实数值向量。分解成回复的话,编码解码。

机器翻译,并行处理,模型分割数据分割。架构强大。翻译准确率超过了传统的统计机器翻译。

未来的自然语言发展趋势:规则!长尾现象。人名地名专业术语识别不好,低频现象,罕见词做法不好。现在的学习方法普遍使用统计的,需要通过看到才能学习。方法具有局限性。特定不特定,马尔可夫决策过程。单轮堆积起来。

理解自然语言很难,五类问题,ai闭环,提高性能算法能力。机器翻译应用深度学习,序列对序列,表现的很好。

分类,选好规则进行匹配。排序。

同声翻译,局部模式匹配,不经过理解,经过大量训练,直接得出翻译内容。与深度学习端对端学习,中间处理过程不知具有类似原理。

脑细胞激活,进行学习,联想。

神经生物学。大脑对非的处理很有意思。不要想红色的苹果,不要哭了,不要难过。。。

知识库:怎么定义知识。领域知识库,解决实际问题。

指令类,客服类语音系统。

通过自然语言分析处理文本知识库,发觉规律,检验学习,发觉机遇。

《应用驱动》

(李航教授)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  自然语言处理