您的位置：首页 > 其它

scikit-learn常用的一些函数及在实战中的用法

2017-11-27 13:35 573 查看

原文地址：http://blog.csdn.net/mmc2015/article/details/47079409

零、所有项目通用的：

http://blog.csdn.net/mmc2015/article/details/46851245（数据集格式和预测器）
http://blog.csdn.net/mmc2015/article/details/46852755（ href="http://blog.csdn.net/mmc2015/article/details/46852755" target=_blank>加载自己的原始数据）

（适合文本分类问题的整个语料库加载）
http://blog.csdn.net/mmc2015/article/details/46906409（5. href="http://blog.csdn.net/mmc2015/article/details/46906409" target=_blank>加载内置公用的数据）

（常见的很多公共数据集的加载，5.
Dataset loading utilities）
http://blog.csdn.net/mmc2015/article/details/46705983（Choosing the right estimator（你的问题适合什么estimator来建模呢））

（一张图告诉你，你的问题选什么estimator好，再也不用试了）
http://blog.csdn.net/mmc2015/article/details/46857949（ href="http://blog.csdn.net/mmc2015/article/details/46857949" target=_blank>训练分类器、预测新数据、评价分类器）
http://blog.csdn.net/mmc2015/article/details/46858009（使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参）

一、文本分类用到的：
http://blog.csdn.net/mmc2015/article/details/46857887（ href="http://blog.csdn.net/mmc2015/article/details/46857887" target=_blank>从文本文件中提取特征（tf、idf））

（CountVectorizer、TfidfTransformer）
http://blog.csdn.net/mmc2015/article/details/46866537（ href="http://blog.csdn.net/mmc2015/article/details/46866537" target=_blank>CountVectorizer提取tf都做了什么）

（深入解读CountVectorizer都做了哪些处理，指导我们做个性化预处理）
http://blog.csdn.net/mmc2015/article/details/46867773（2.5.2. href="http://blog.csdn.net/mmc2015/article/details/46867773" target=_blank>通过TruncatedSVD实现LSA（隐含语义分析））

（LSA、LDA分析）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46940373（《textanalytics》课程简单总结（1）：两种word
relations——Paradigmatic vs. Syntagmatic）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46941367（《textanalytics》课程简单总结（1）：两种word
relations——Paradigmatic vs. Syntagmatic（续））

（词粒度关系：Paradigmatic(聚合关系：同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系：协同出现、用互信息挖掘)）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46771791（特征选择方法（TF-IDF、CHI和IG））

（介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用）

二、数据预处理用到的（4.
Dataset transformations）：
http://blog.csdn.net/mmc2015/article/details/46991465（4.1. Pipeline and FeatureUnion: combining estimators（特征与预测器结合；特征与特征结合））

（特征与预测器结合、特征与特征结合）
http://blog.csdn.net/mmc2015/article/details/46992105（4.2. Feature extraction（特征提取，不是特征选择））

（loading features form dicts、feature hashing、text feature extraction、image feature
extraction）
http://blog.csdn.net/mmc2015/article/details/46997379（4.2.3. Text feature extraction）

（text feature extraction）
http://blog.csdn.net/mmc2015/article/details/47016313（4.3. Preprocessing data（standardi/normali/binari..zation、encoding、missing value））

（Standardization, or mean removal and variance scaling（标准化：去均值、除方差）、Normalization（正规化）、Feature Binarization（二值化）、Encoding
categorical features（编码类别特征）、imputation of missing values（归责缺失值））
http://blog.csdn.net/mmc2015/article/details/47066239（4.4. Unsupervised dimensionality reduction（降维））

（PCA、Random projections、Feature agglomeration（特征集聚））
http://blog.csdn.net/mmc2015/article/details/47069869（4.8. Transforming the prediction target (y)）

（Label binarization、Lable
encoding（transform non-numerical labels to numerical labels））

三、其他重要知识点：
http://blog.csdn.net/mmc2015/article/details/47099275（3.1. Cross-validation: evaluating estimator performance）

（交叉验证）
http://blog.csdn.net/mmc2015/article/details/47100091（3.2. Grid Search: Searching for estimator parameters）

（搜索最佳参数组合）
http://blog.csdn.net/mmc2015/article/details/47121611（3.3. Model evaluation: quantifying the quality of predictions）

（模型效果评估：score函数、confusion matrix、classification report等）
http://blog.csdn.net/mmc2015/article/details/47143539（3.4. Model persistence）

（保存训练好的模型到本地：joblib.dump & joblib.load pickle .dump & pickle .load）

None、常用的监督非监督模型：
http://blog.csdn.net/mmc2015/article/details/46867597（2.5. 矩阵因子分解问题）
http://blog.csdn.net/mmc2015/article/details/47271039（scikit-learn（工程中用的相对较多的模型介绍）：1.4. Support Vector Machines）

SVM（SVC、SVR）
http://blog.csdn.net/mmc2015/article/details/47271195（scikit-learn（工程中用的相对较多的模型介绍）：1.11. Ensemble methods）

Bagging meta-estimator、Forests of ranomized trees、AdaBoost、Gradient Tree Boosting（Gradient Boosted Regression Trees (GBRT) ）
http://blog.csdn.net/mmc2015/article/details/47333499（ href="http://blog.csdn.net/mmc2015/article/details/47333499" target=_blank>scikit-learn（工程中用的相对较多的模型介绍）：1.12.
Multiclass and multilabel algorithms）

Multiclass classification、Multilabel classification、Multioutput-multiclass classification and multi-task classification
http://blog.csdn.net/mmc2015/article/details/47333579（scikit-learn（工程中用的相对较多的模型介绍）：1.13. Feature selection）

Univariate feature selection（单变量特征选择）、recursive feature elimination（递归特征消除）、L1-based / ree-based features selection（这个也用的比价多）、Feature selection as part
of a pipeline
http://blog.csdn.net/mmc2015/article/details/47333839（ href="http://blog.csdn.net/mmc2015/article/details/47333839" target=_blank>

scikit-learn（工程中用的相对较多的模型介绍）：1.14. Semi-Supervised

）
http://blog.csdn.net/mmc2015/article/details/47414271（scikit-learn（工程中用的相对较多的模型介绍）：2.3. Clustering（可用于特征的无监督降维））

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部