您的位置:首页 > 其它

整理的机器学习资源大全

2015-10-13 10:47 477 查看


C++

计算机视觉

CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库
OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。

通用机器学习

MLPack
DLib
ecogg
shark

Java

自然语言处理

CoreNLP—斯坦福大学的CoreNLP提供一系列的自然语言处理工具,输入原始英语文本,可以给出单词的基本形式(下面Stanford开头的几个工具都包含其中)。
Stanford Parser—一个自然语言解析器。
Stanford POS Tagger —一个词性分类器。
Stanford Name Entity Recognizer—Java实现的名称识别器
Stanford Word Segmenter—分词器,很多NLP工作中都要用到的标准预处理步骤。
Tregex, Tsurgeon and Semgrex —用来在树状数据结构中进行模式匹配,基于树关系以及节点匹配的正则表达式(名字是“tree regular expressions”的缩写)。
Stanford Phrasal:最新的基于统计短语的机器翻译系统,java编写
Stanford Tokens Regex—用以定义文本模式的框架。
Stanford Temporal Tagger—SUTime是一个识别并标准化时间表达式的库。
Stanford SPIED—在种子集上使用模式,以迭代方式从无标签文本中学习字符实体
Stanford Topic Modeling Toolbox —为社会科学家及其他希望分析数据集的人员提供的主题建模工具。
Twitter Text Java—Java实现的推特文本处理库
MALLET -—基于Java的统计自然语言处理、文档分类、聚类、主题建模、信息提取以及其他机器学习文本应用包。
OpenNLP—处理自然语言文本的机器学习工具包。
LingPipe —使用计算机语言学处理文本的工具包。



通用机器学习

MLlib in Apache Spark—Spark中的分布式机器学习程序库
Mahout —分布式的机器学习库
Stanford Classifier —斯坦福大学的分类器
Weka—Weka是数据挖掘方面的机器学习算法集。
ORYX—提供一个简单的大规模实时机器学习/预测分析基础架构。

数据分析/数据可视化

Hadoop—大数据分析平台
Spark—快速通用的大规模数据处理引擎。
Impala —为Hadoop实现实时查询

Matlab

计算机视觉

Contourlets —实现轮廓波变换及其使用函数的MATLAB源代码
Shearlets—剪切波变换的MATLAB源码
Curvelets—Curvelet变换的MATLAB源码(Curvelet变换是对小波变换向更高维的推广,用来在不同尺度角度表示图像。)
Bandlets—Bandlets变换的MATLAB源码

自然语言处理

NLP —一个Matlab的NLP库

通用机器学习

Training a deep autoencoder or a classifier on MNIST digits—在MNIST字符数据集上训练一个深度的autoencoder或分类器[深度学习]。
t-Distributed Stochastic Neighbor Embedding —获奖的降维技术,特别适合于高维数据集的可视化
Spider—Matlab机器学习的完整面向对象环境。
LibSVM —支持向量机程序库
LibLinear —大型线性分类程序库
Machine Learning Module —M. A .Girolami教授的机器学习课程,包括PDF,讲义及代码。
Caffe—考虑了代码清洁、可读性及速度的深度学习框架
Pattern Recognition Toolbox —Matlab中的模式识别工具包,完全面向对象

数据分析/数据可视化

matlab_gbl—处理图像的Matlab包
gamic—图像算法纯Matlab高效实现,对MatlabBGL的mex函数是个补充。

Python

计算机视觉

SimpleCV—开源的计算机视觉框架,可以访问如OpenCV等高性能计算机视觉库。使用Python编写,可以在Mac、Windows以及Ubuntu上运行。

自然语言处理

NLTK —一个领先的平台,用来编写处理人类语言数据的Python程序
Pattern—Python可用的web挖掘模块,包括自然语言处理、机器学习等工具。
TextBlob—为普通自然语言处理任务提供一致的API,以NLTK和Pattern为基础,并和两者都能很好兼容。
jieba—中文断词工具。
SnowNLP —中文文本处理库。
loso—另一个中文断词库。
genius —基于条件随机域的中文断词库。
nut —自然语言理解工具包。

通用机器学习

Bayesian Methods for Hackers —Python语言概率规划的电子书
MLlib in Apache Spark—Spark下的分布式机器学习库。
scikit-learn—基于SciPy的机器学习模块
graphlab-create —包含多种机器学习模块的库(回归,聚类,推荐系统,图分析等),基于可以磁盘存储的DataFrame。
BigML—连接外部服务器的库。
pattern—Python的web挖掘模块
NuPIC—Numenta公司的智能计算平台。
Pylearn2—基于Theano的机器学习库。
hebel —Python编写的使用GPU加速的深度学习库。
gensim—主题建模工具。
PyBrain—另一个机器学习库。
Crab —可扩展的、快速推荐引擎。
python-recsys —Python实现的推荐系统。
thinking bayes—关于贝叶斯分析的书籍
Restricted Boltzmann Machines —Python实现的受限波尔兹曼机。[深度学习]。
Bolt —在线学习工具箱。
CoverTree —cover tree的Python实现,scipy.spatial.kdtree便捷的替代。
nilearn—Python实现的神经影像学机器学习库。
Shogun—机器学习工具箱。
Pyevolve —遗传算法框架。
Caffe —考虑了代码清洁、可读性及速度的深度学习框架
breze—深度及递归神经网络的程序库,基于Theano。

数据分析/数据可视化

SciPy —基于Python的数学、科学、工程开源软件生态系统。
NumPy—Python科学计算基础包。
Numba —Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用
NetworkX —为复杂网络使用的高效软件。
Pandas—这个库提供了高性能、易用的数据结构及数据分析工具。
Open Mining—Python中的商业智能工具(Pandas web接口)。
PyMC —MCMC采样工具包。
zipline—Python的算法交易库。
PyDy—全名Python Dynamics,协助基于NumPy, SciPy, IPython以及 matplotlib的动态建模工作流。
SymPy —符号数学Python库。
statsmodels—Python的统计建模及计量经济学库。
astropy —Python天文学程序库,社区协作编写
matplotlib —Python的2D绘图库。
bokeh—Python的交互式Web绘图库。
plotly —Python and matplotlib的协作web绘图库。
vincent—将Python数据结构转换为Vega可视化语法。
d3py—Python的绘图库,基于D3.js。
ggplot —和R语言里的ggplot2提供同样的API。
Kartograph.py—Python中渲染SVG图的库,效果漂亮。
pygal—Python下的SVG图表生成器。
pycascading
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: