您的位置:首页 > 其它

Weka 常用分类算法效果比较

2017-01-12 13:39 393 查看
本实验是福建矿产分布分类识别实验,使用常用的weka 分类识别算法,第一组实验只使用数据中的数值型数据,第二组实验在数值型特征基础上加上了标称属性分类。

1. 数值型数据在weka 平台上

数值型数据分布

横坐标代表类别数,一共有14类数据,纵坐标代表每类数据的样本个数分布。



在weka中采用多种传统分类方法实验结果

在weka中测试以下常用的分类方法,记录各方法的识别正确率、Kappa系数、均方根误差、相对绝对误差如下表所示:

方法名weka中对应方法Correctly Classified rateKappa 系数Root mean square errorRelative absolute error
NNlazy.IB138.9908 %0.2650.295273.1243 %
2-NNlazy.IBk(k=2)33.945 %0.20660.252677.5179 %
3-NNlazy.IBk(k=3)38.5321 %0.2610.242479.9899 %
Naive Bayesbayes.NaiveBayes30.2752 %0.21090.293384.9225 %
Bayes Netbayes.BayesNet30.2752 %0.07360.240897.0716 %
Complement Naive Bayesbayes.ComplementNaiveBayes31.1927 %0.08850.313582.471 %
Simple Logisticfunctions.SimpleLogistic42.6606 %0.26990.232683.2465 %
Logisticfunctions.Logistic38.9908 %0.26750.271276.2028 %
MultilayerPerceptronfunctions.MultilayerPerceptron44.0367 %0.30710.238280.2227 %
SMOfunctions.SMO34.4037 %0.08010.2499106.4209 %
KStarlazy.KStar43.1193 %0.30150.269569.9768 %
C4.5改进J48trees.J4840.8257 %0.28560.274974.6474 %
Simple Cart 4.5trees.SimpleCart41.7431 %0.23030.242685.4892 %
Random Foresttrees.RandomForest55.0459 %0.41490.211180.833 %
SVMfunctions.LibSVM28.8991 %-0.0110.318785.2201 %

各方法结果

最近邻算法NN



2-NN



3-NN



Naive Bayes



Bayes Net



Complement Naive Bayes



Simple Logistic



Logistic



MultilayerPerceptron



SMO



KStar



C4.5改进J48



Simple Cart 4.5



Random Forest SVM



2 添加标称性数据后实验结果

在原始数值性数据基础上添加非数值属性,同样在weka常用分类方法上检测实验结果

数据集前6个属性是标称属性



各类数据分布图:



测试以下常用的分类方法,记录各方法的识别正确率、Kappa系数、均方根误差、相对绝对误差如下表所示:

方法名weka中对应方法Correctly Classified rateKappa 系数Root mean square errorRelative absolute error
NNlazy.IB179.8165 %0.75780.169824.1915 %
2-NNlazy.IBk(k=2)76.6055 %0.71710.14929.5295 %
3-NNlazy.IBk(k=3)79.3578 %0.75080.144331.0323 %
Naive Bayesbayes.NaiveBayes45.4128 %0.37890.264767.4257 %
Bayes Netbayes.BayesNet58.7156 %0.52190.203151.7458 %
Simple Logisticfunctions.SimpleLogistic80.7339 %0.76730.141529.2145 %
Logisticfunctions.Logistic70.1835 %0.64320.201835.2254 %
MultilayerPerceptronfunctions.MultilayerPerceptron75.6881 %0.70340.159734.4279 %
SMOfunctions.SMO72.4771 %0.65470.2424103.3214 %
KStarlazy.KStar57.3394 %0.4790.233751.3496 %
C4.5改进J48trees.J4883.4862 %0.79990.145174.6474 %
Simple Cart 4.5trees.SimpleCart74.7706 %0.69370.174333.9928 %
Random Foresttrees.RandomForest87.156 %0.84370.127738.4927 %
SVMfunctions.LibSVM28.8991 %-0.0110.318785.2201 %
Random Forest



C4.5改进J48



Simple Logistic



NN



总结

针对实验一和实验二中的数据结果,我们可以知道,添加标称属性后实验整体的准确度都大幅提高了很多。

Random Forest、Multiple Layer Perceptron、C4.5、Simple Logistic 等算法的分类效果最好。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息