您的位置:首页 > 其它

step into the door of machine learning(step 1)

2015-07-08 22:25 429 查看
机器学习算法主要处理的问题模型可以分为4类:

第一、分类问题:对于离散数据集,有一些已经标注好的数据,基于这些标注好的数据进行建模,随后基于该模型对于未标注的数据进行类别区分(此类中的样本集数目要多于测试集),例如google做的垃圾邮件分类的模型;

第二、回归问题:对于连续数据集,有一些已经标注好的数据,基于这些数据进行建模,随后利用该模型对未标注的连续数据进行预测回归,该模型主要是得到一个非线性函数,能够根据输入的未知量大概得到模型结果,主要应用在股票预测、房价预测等问题上;

第三、聚类问题:对于一些输入数据集,该数据集并未标注,但是给出了一些数据间相似度的衡量标准,那么基于该标准可以对数据进行类别划分,主要模型有k均值模型等;

第四、规则提取:发现输入大量的不同类别数据的部分属性之间的统计关系,而不是进行一些类别或者趋势预测,例如超市啤酒和尿布的问题。

学习方式:

监督学习(supervised learning):输入数据都有一个类别标记或结果标记,被称作训练数据,比如垃圾邮件与非垃圾邮件、某时间点的股票价格。模型由训练过程得到,利用模型,可以对新样本做出推测,并可以计算得到这些预测的精确度等指标。训练过程往往需要在训练集上达到一定程度的精确度,不欠拟合或过拟合。监督学习一般解决的问题是分类和回归,代表算法有逻辑斯底回归(Logistic Regression)和神经网络后向传播算法(Back
Propagation Neural Network)。

无监督学习(Unsupervised Learning):输入数据没有任何标记,通过推理数据中已有的结构来构建模型。一般解决的问题是规则学习和聚类,代表算法有Apriori算法和k-means算法。

半监督学习(Semi-Supervised Learning):输入数据是标注数据和非标注数据的混合,它也是为了解决预测问题的,但是模型必须同时兼顾学习数据中已经存在的结构和作出预测,即上述监督学习和无监督学习的融合。该方法要解决的问题仍然是分类的回归,代表算法一般是在监督学习的算法上进行扩展,使之可以对未标注数据建模。

增强学习(Reinforcement Learning):在这种学习方式中,模型先被构建,然后输入数据刺激模型,输入数据往往来自于环境中,模型得到的结果称之为反馈,使用反馈对模型进行调整。它与监督学习的区别在于反馈数据更多的来自于环境的反馈而不是由人指定。该方式解决的问题是系统与机器人控制,代表算法是Q-学习(Q-learning)和时序差分算法(Temporal difference learning)。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: