您的位置:首页 > 其它

Learning path

2015-06-15 11:28 176 查看

Topic model +

SVD、LSI和pLSI、LDA +

Bayesian inference +

Gibbs sampling (MCMC) +

潜在话题的自动发现,有助于对大规模的文档进行自动分类。对于若干的应用场景有着重要意义。

Elasticsearch +

Elasticsearch基本的DSL的使用 +

增加中文分词系统,提高灵活性和速度 +

Lucene +

inverted index +

Tfidf model +

ES是强大的开源搜索系统,快速且方便。发展也很迅猛。分布式的架构可以让ES的可扩展性非常厉害。可以自动地增加节点,并动态的分配角色。

Machine learning +

regression +

Naive Bayesian +

Decision Tree +

SVM +

feature engineering +

Grid search and cross validation +

PCA +

基本的机器学习算法的训练,数据的清理实际是最重要的一步,但是确实最繁杂的一步。 对于初学者,容易迷失在众多算法之中。实际上,使用一个熟悉的数据集,然后去尝试不同的算法,这样可以快速地了解大多数基本的算法。机器学习算法的效果比较是非常有意思的地方,不过要能理解很多类型的图形才可以理解不同算法的差异。当然只有简单而肤浅的认识是不够,对于机器学习理论的学习还是最为关键的。

NLP基础 -

Viterbi algorithm -

POS tag



经典的HMM计算方法,动态规划算法,可以找出最可能的隐藏状态路径

Recommendation system +

content based +

user based +

Learning to rank -

compared with recommendation-view search

Complex networks -

Community detection -

Page rank algorithm -

尽管社交性容易造成用户的反感,但是使用合适的方式可以给出体验很好的写作和阅读场景。

Language +

Ruby +

python +

jruby +

java -

C++ -

使用Ruby之后发现,代码可以写得很快。结合jruby,可以完成更多有趣的任务。python在数据科学领域应用较强,并且涌现了大量的。

Fundamental theory

数学和统计物理是两把利刃,在现在这样一个相当依赖技术的时代,仗剑走天涯必备。

矩阵理论是目前众多数据科学技术的基础,若干高效的方法也都是针对矩阵进行的优化。比如numpy,theano这样的python库,都是这样的。

物理学,目前谈论的主要是统计物理。若干解决NPhard问题的方法都是出自其中。Gibbs sampling,Spin system,Boltzmann machine 等等都是已经在几十年前开始研究的统计物理问题。而现在也已经发挥出其强大的实力了。

学习工具和资源

目前 deep learning 领域出现了好多(可能有上百个独立的研究团体,著名的会有十几个)

1. 众多行业领军公司:Google,Yahoo,Facebook,Microsoft,Baidu都有相关的 research 团队在推动这个领域的发展

2. 众多知名高校:Stanford,

他们大多数会把相关的资料放在公开的地方,鼓励大家去尝试。

在线公开课有很多

MMDS 和 neural networks

主要还是需要提供推导和代码实现能力

好 去学习theano吧
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: