您的位置：首页 > 理论基础 > 计算机网络

模式识别和时间序列杂想

2009-05-18 11:01 274 查看

一
人工智能在模拟人类逻辑思维方面战功赫赫，许多方面已经远远超过人类。然而在模拟人类形象思维方面一直举步维艰。比如在图像识别方面，一个小孩都能在几秒内识别一张脸，而计算机却要花很长时间去计算这张脸的各个部位尺寸，人在识别的时候并没有那么做，明显和计算机的识别过程走的不是一个路子。
钱学森先生指出应该和心理学家合作，可惜心理学许多东西还找不到和计算机结合的方法。许多自然科学的东西和人文科学的东西（也可以说逻辑思维和形象思维）似乎难于找到结合的方法，而是各行其是，无法进行学科交叉。
二
在气象、地震、股市、彩票的预测中，神经网络（ANN）和支持向量机（SVM）等取得了一系列令人瞩目的成果。然而其准确度还远远达不到人们的预期。原因是这些数据模型拟合能力不够强大或者泛化能力不够吗？我曾经这么认为过。我甚至怀疑有些问题是不能用时间序列方法来解的，比如彩票，对其历史数据的分析未必有助于对未来的预测，因为他是完全随机的，历史并不对未来产生任何影响。
但是我现在更倾向于说，这是因为对问题的特征提取有问题，也可以说是情景描述或者说知识表达问题，包括彩票也不是什么完全随机，只不过是一种模式识别，只要能准确描述彩票机的初始行为就能得出中奖号码。
【修改】：彩票的预测不能用时间序列方法，因为下一次的中奖号码与历史号码并无任何联系，只和彩票摇奖机器的当前状态有关。股票也类似，主要和当前政治经济等因素有关，与历史数据关系不大。所以说股票和彩票的预测还是不能用时间序列的思路来解，当今市场上这方面的软件明显走入了死胡同（相关作者别仍臭鸡蛋，俺只是希望大家试试多种办法）。
用神经网络或svm等方法搞这些预测是不可行的，除非输入数据是摇奖机器状态数据（对股票来说是描述当前政治经济形式的数据），很明显要得到这些数据是难如登天。
三
在对骰子的预测中，就发生过许多辩论。自然科学家认为：只要能得到骰子踯出时的方向力度旋转，以及空气湿度风向等等所有因素，就能准确算出骰子的结果。可见连骰子也不是什么随机过程，这是决定论，克拉克等人为代表。那么是不是说，概率随机等玩意只是权宜之计，暂时用来解决那些难于完全把握的问题？
四
蝴蝶效应同样如此，由于过程太复杂难于测出每一步每一个物理量所以无法预测，于是就把它神秘化了。
五
在考察了气象、地震、股市、彩票、骰子、蝴蝶效应这些复杂的，至今困扰科学界的问题之后，发现一个问题（考察之后能找到一点结论这才是关键），就是这些问题的解决不仅仅是靠提高cup速度或者建构比神经网络更强大的工具就能解决的，知识表达才是突破口。陆汝钤院士提出的知件与硬件软件并列大概正是认识到知识表示重要性的高瞻远瞩的提议。
六
上述几个问题代表了时间序列预测的难题，共同点是，对他们的描述极其困难。比如气象，气象卫星、雷达、高空气球等等手段收集到的数据量无比巨大，然而就算是这么巨大的数据量也无法保证对大气地球的完整描述。当今最大型的计算机均用于气象和地震数据分析，就是因为数据太多，且抓不到重点，不知道哪些数据更重要些，能不能给每个数据赋予权重。结果就是气象和地震预测从来没有准确过。各种预测软件在股市预测中也同样遭遇滑铁卢。这些问题都属于当今最难的问题，属于复杂巨系统的例子。中科院戴汝为院士对包括人类社会和网络虚拟社会在内的复杂巨系统研究不知有么有什么新突破。
七
复杂性问题作为新兴的科学最前沿，是产生图灵奖得主最多的领域。以上几个难题之所以难于解决，我曾说过是知识表达问题，说的更本质些，我想应该是复杂性问题，他们是NP难题，过于复杂的描述使得它们的求解成为指数复杂度，ANN，SVM之类的联结解法面对庞大的数据同样无可奈何。数据挖掘又成为了一个可能的突破口。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 网络数据挖掘数据分析工具

相关文章推荐

新的分享

章节导航