人工智能中文网
  • 主页
  • 线代考研视频
  • 线性代数
  • Python机器学习与算法
  • 大数据与机器学习
  • Python基础入门教程
  • 人工智能中文网
    教程目录
    阅读:

    监督学习算法,机器学习监督算法详解

    < 上一篇:机器学习算法 下一篇:无监督学习算法 >
    前边简单介绍了监督学习(Supervised Learning)的概念,监督学习是机器学习算法中的一种重要的学习方法,

    在监督学习中,其训练样本中同时包含有特征和标签信息。分类(Classification)算法回归(Regression)算法是两类最重要的算法,两者之间最主要的区别是分类算法中的标签是离散的值,如广告点击问题中的标签为{+1,-1},分别表示广告的点击和未点击,而回归算法中的标签值是连续的值,如通过人的身高、性别、体重等信息预测人的年龄,因为年龄是连续的正整数,因此标签为 y∈N+,且 y∈[1,80]。

    监督学习的流程

    监督学习流程的具体过程如图 1所示。


    图 1 监督学习流程

    对于具体的监督学习任务,首先是获取到带有属性值的样本,假设有 m 个训练样本{(X(1),y(1) ),(X(2),y(2) ),…,(X (m),y(m) )},然后对样本进行预处理,过滤数据中的杂质,保留其中有用的信息,这个过程称为特征处理或者特征提取

    通过监督学习算法习得样本特征到样本标签之间的假设函数。监督学习通过从样本数据中习得假设函数,并用其对新的数据进行预测。

    监督学习算法

    分类问题(Classification)是指通过训练数据学习一个从观测样本到离散的标签的映射,分类问题是一个监督学习问题。典型的问题有:
    1. 垃圾邮件的分类(Spam Classification):训练样本是邮件中的文本,标签是每个邮件是否是垃圾邮件({+1,-1},+1 表示是垃圾邮件,-1 表示不是垃圾邮件),目标是根据这些带标签的样本,预测一个新的邮件是否是垃圾邮件。
    2. 点击率预测(Click-through Rate Prediction):训练样本是用户、广告和广告主的信息,标签是是否被点击({+1,-1},+1 表示点击,-1 表示未点击)。目标是在广告主发布广告后,预测指定的用户是否会点击,上述两种问题都是二分类的问题。
    3. 手写字识别,即识别是{0,1,…,9}中的哪个数字,这是一个多分类的问题。

    与分类问题不同的是,回归问题(Regression)是指通过训练数据学习一个从观测样本到连续的标签的映射,在回归问题中的标签是一系列连续的值。典型的回归问题有:
    1. 股票价格的预测,即利用股票的历史价格预测未来的股票价格。
    2. 房屋价格的预测,即利用房屋的数据,如房屋的面积、位置等信息预测房屋的价格。
    < 上一篇:机器学习算法 下一篇:无监督学习算法 >