「机器学习和大数据计算都是学数学应该干的,学计算机的相比毫无优势」
2013-06-13 10:13
489 查看
「机器学习和大数据计算都是学数学应该干的,学计算机的相比毫无优势」这种说法是否正确?为什么?
陈怀临前辈今天在微博上说的,各位是否赞同这种观点?我在本科阶段学的软件,学的数学确实不多,后来发现机器学习是自己的乐趣所在,看到陈怀临前辈的言论,让我比较担忧是否计算机出身是否不好、是否出现瓶颈。
高英恺,格格不入工科不闷骚男~
17 票,来自知乎用户、田野、知乎用户
更多
首先想说的是别把学计算机的和学数学的划分的太清。学数学的可以不了解计算机,但如果你想在计算机科学(注意是科学)领域做出点成就的话不可能不精通数学。
另外,机器学习和大数据也分很多方面啊,最简单的分类就可以分成理论研究和工程应用。
对理论研究来说,比如说提出新的算法啦,改善核函数,研究概率模型之类的工作,肯定是数学感觉好的人占优势。
而对工程应用来说,计算机工程师需要考虑的就不仅仅是算法的问题了,还要考虑整个系统的种种因素。现在这些大的网站哪个不是大数据多层分布式架构,哪个没有一些机器学习的应用?让纯玩数学的人来做能搞好?
最
后补充一点,记得在微博上看到MSRA的一个大牛(对不起我忘了是哪位了)解释为什么科研中提出的新(好)算法,在工程应用中不一定好用。他说,因为工程
中不仅仅是一个机器学习的模块在跑,而是整个系统在跑,整个系统的各个模块之间的配合需要考虑很多因素,而不仅仅是一个模块。
------------------------------------------------------------
半夜从床上爬起来答的,讲的凌乱见谅。。。
2012-08-23
1 条评论
王栋,爱编程,爱敏捷,爱互联网,爱NLP,爱机…
6 票,来自章鱼哥、知乎用户、涛吴
更多
要说数学功底,大学里计算机系和数学系本来就是一墙之隔,CS学生的数学功底一般还不错,如果不是去搞特别高深的理论研究,再加上一点自学肯定是够用的了。 计算机系的学生绝不应该与数学绝缘,即使离开校园,数学的充电也不能间断。
另
外,机器学习并不涉及数学的各个方面,与数学的交集主要是统计学(严格讲,统计学也不完全属于数学)、线性代数、应用数学(如运筹学),一部分数学分析
等,当然不排除对其他数学分支的深入研究会有助于机器学习理论的突破,但数学绝不是机器学习的全部(就像数学之于物理学)。
如果简单的把
机器学习分成理论和应用,起码在目前阶段,理论还只是它的一小部分,而且我觉得很长一段时间内机器学习都将是一个实验性质很强的学科,所以计算机系的学生
不仅是没有优势,而且还有很大的优势。多去交一些统计系、数学系、心理学系、社会学系、 经济学系的朋友,伟大的成就总是在那些交叉口产生的。
2012-09-28
1 条评论
知乎用户,计算机科学、历史和逻辑
4 票,来自王小小、余露、黎明
更多
我觉得这种说法非常不专业,无论从计算机科学还是计算机工程角度。或许有这种想法是因为陈怀临在计算机工程方面的项目经验有限。
在拿到硕士学位后,我也犹豫过是到底是转离散数学PhD还是继续在机器学习领域做研究,最终放弃了前者。我不确定[b]是否世界上所有问题都可以通过数学语言描述,计算机科学的研究不应是纯理论研究,我希望我的研究至少在有生之年可以造福周围的人,哪怕只是很少的人。[/b]
近几年的实践表明,在统计机器学习领域,统计学在很多时候不能完全解决实际问题,虽然它确实可以提供方向和理论基础。
举
一个简单的例子,自然语言处理中利用语料训练分词模型,HMM和CRF算是主流模型。但在新词发现上,如果原有语料完全没有包含新词,那么分词结果远不如
一个手工添加过新词词典的普通匹配算法。从本质上说,统计机器学习的过拟合现象,其根源就是统计数学模型无法很好地预测训练集之外的现实情况。这就导致了
在机器学习中很多数学模型需要加入各种平滑值,而平滑值的大小往往是经验性的,如潜狄利克雷模型应用于文本聚类时需要设定α和β参数。
并
且,统计机器学习机中采用的很多模型依赖于假设,而有些假设过强。例如在模式识别中假设数据符合共轭先验(Conjugate
Prior)分布以便于可以使用Bayes公式作为训练模型,但Bayes评估的问题在于先验概率的选取有时候只是方便数学推导,而非准确地反映先验知
识。
关于大数据计算,我猜想他说的是分布式和并行计算。由于目前海量数据对存储和计算的压力,分布式存储和计算,以及并行计算的需求越来
越多(机器学习大多需要密集计算)。主要问题是计算机领域原有大量的串行算法很难简单转换为并行算法,但这里的算法并不仅仅和数学有关,很大程度上还和计
算机体系结构有关。
当然,在机器学习和数据挖掘领域想发顶级期刊和会议的paper,有良好的数学理论支撑是必须的,但这不意味着你得是数学家。
2012-09-27
1 条评论
孙文全,兄弟在河畔有几个钟头的课
3 票,来自李庚、王晓翔、Keith Li
根据个人经历来看出身于数学专业或者是计算机专业并没有太大关
系,因为机器学习和并行计算这块涉及到的数学并不需要太多时间去掌握,甚至使用coursera等在线课程平台学到能用能靠着文献撑下去大概也只需要二十
来周的时间,而且CS出身的数学一般是弱不了的,靠着这种夹生饭现学现卖的方法,发paper什么的困难,把工程推进下去是完全可以的,毕竟在工程中遇到
的问题很多前人已经有了解决方案了,拿来稍微改一改就能跑起来,比自己提出一个要容易很多,再者,在实践中做了几次之后对机器学习等等地方的认识也会逐渐
地变深刻的,到时再细细研究,深挖基础,事半功倍(希望没用反,这词错的太多了。。。)。
另外,计算机科学从来都不是计算机的科学,除非想当一辈子Coder,否则任何一个方向学下去的数学基础都是少不了的,而在解决计算机的具体问题的时候有意无意地,你的数学也会跟着提高。
2012-12-24
添加评论
石磊,计算机-网络-数码-程序
1 票,来自卓勇霖
计算机相关领域的哪个大牛数学差 都是顶呱呱的
而且常见的很多是从数学 物理转过来的
你做研究不到一定阶段根本显不出动数学和不懂的区别
如果你能做到了一定阶段了 你的数学肯定差不了
2012-09-27
1 条评论
潘屹峰,熟悉常用算法,感兴趣...
同意@高英恺的观点。就机器学习而言,如果从理论出发,
推理出实践,可以看成自底向上的过程;反之,如果从实践出发,归纳出理论可以看成是自顶向下的过程。对于一个具体问题来说,他距离顶部较近(偏向实际应
用),自顶向下的路径可以先得到收益;反过来,如果这个问题距离底部较近(偏向理论研究),那么自底向上的路径可以先得到收益。所以你要搞清楚希望从事的
机器学习工作在什么位置:如果是用机器学习问题解决实际问题,那么软件工程的背景没有问题,只不过要补充一些statistic方面的基础知识。
(p.s.上周听Jiawei Han作报告时提到,他的学生里有statistic背景的学生,做出的工作往往更突出)。
大数据计算,个人认为和实际应用关联更紧密,软件工程的同学完全可以胜任这方面的工作。
2012-08-24
添加评论
肖智博,在读博士,做个几个项目
3 票,来自曾俊瑀、ligexiao、刘峤
不赞同这种说法!
而且,也不用担心什么出身问题吧,觉得你有点想太多了。既然你觉得现在做机器学习有兴趣,那么这个就是最大的动力。说实话,即使是学数学的,在看机器学习的很多算法的时候,里面的数学知识都是听都没有听过的,都是靠自己学的。你有兴趣,就可以靠这兴趣去推动自己,去学习。
至于别人说什么,不用太往心里去,自己去做就好了啊。
2012-08-24
添加评论
张峻,新技术爱好者
2 票,来自李庚、刘峤
在自然科学的鄙视链条上,数学的排位是非常靠前的,所以不要奇怪被数学的人鄙视。
但是实际中解决问题能力谁更强就完全是一个个体性的问题了
2012-09-23
添加评论
周弋然
搞理论的话要数学好,搞应用的话需要领域知识2012-09-23
添加评论
匿名用户
首先,数据挖掘确实需要大量数学尤其是统计学知识,但是,像我认识的一个老师Jian Pei就是看到哈佛生物系的bi-clustering算法太慢了,联系上帮他们大大优化了运算速度。好像还出了改进后的论文。
否则那种上百万的microarray,真是算到计算机都吐血。
2013-05-25
添加评论
卓勇霖,数学,旅行,读书,下厨
假设只是做一般的工作而不是到科学家级别的工程师,其实用到的数学理论都能很好的去掌握,我自己是学数学的,也打算一直在机器学习相关领域做下去,反而遇到的问题也很多,比如对计算机的掌握欠火候,其他的领域知识也积
累得不够。另外,个人认为现如今机器学习也好,数据挖掘也罢,其实发展的程度还是太浅了,到底是不是数学能搞定大部分问题还要打一个大问号。
2012-09-30
添加评论
感谢
分享
收藏
相关文章推荐
- 1\玩比特币都是亏的,2\应该连接全球个人计算机进行组成超级计算机来完成计算.将绝对超越所有的千万个cpu国有超级计算机器
- Kemaswill 机器学习 数据挖掘 推荐系统 Shell之数学计算
- 机器学习应该准备哪些数学预备知识?
- 云计算的文档管理软件与过去的相比具备哪些优势?
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
- Python机器学习探索(一)——计算机学习数据的能力
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
- 和机器学习和计算机视觉相关的数学
- 06大数据内存计算spark系列贴-mllib 机器学习
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 尽管是一个CS专业的学生,小B的数学基础很好并对数值计算有着特别的兴趣,喜欢用计算机程序来解决数学问题。现在,她正在玩一个数值变换的游戏。她发现计算机中经常用不同的进制表示同一个数,如十进制数123表达为16进制时只包含两位数7、11(B),用八进制表示时为三位数1、7、3。按不同进制表达时,各个位数的和也不同,如上述例子中十六进制和八进制中各位数的和分别是18和11。
- 机器学习和计算机视觉相关的数学
- 机器学习和计算机视觉相关的数学
- 经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器库
- 理工科应该的知道的C/C++数学计算库(转)
- 和机器学习和计算机视觉相关的数学
- 经典的机器学习方面源代码库(数据挖掘,计算机视觉,模式识别,信息检索)
- 理工科应该的知道的C/C++数学计算库(转)