教程目录
阅读:
机器学习及其算法分类
机器学习能够从无序的数据中提取出有用的信息,那么什么是机器学习呢?
以垃圾邮件的检测为例,垃圾邮件的检测是指能够对邮件做出判断,判断其为垃圾邮件还是正常邮件。
在人工智能技术发展的初期,人们尝试通过手写规则来解决许多问题。例如,在垃圾邮件的检测中,当邮件中出现事先指定的一些可能为垃圾邮件的词时,这条邮件很可能是垃圾邮件,同时,当邮件里出现链接时,它也很可能是垃圾邮件。这些规则在一定程度上对垃圾邮件的检测起到了一些作用,但是随着规则越来越多,这样的检测系统也变得越来越复杂。这时候,人们发现解决这种问题的根本途径是如何自动地从数据的某些特征中学习他们之间的关系,并且随着对数据的不断学习,提升垃圾检测的性能。
机器学习是从数据中学习和提取有用的信息,不断提升机器的性能。
对于一个具体的机器学习的问题,很重要的一部分是对数据的收集,我们称这部分数据为训练数据。机器学习的基本工作是从这些数据中学习规则,利用学习到的规则来预测新的数据。
监督学习(Supervised Learning)的训练数据包含了类别信息,如在垃圾邮件检测中,其训练样本包含了邮件的类别信息:垃圾邮件和非垃圾邮件。在监督学习中,典型的问题是分类(Classification)和回归(Regression),典型的算法有 Logistic Regression、BP 神经网络算法和线性回归算法。
与监督学习不同的是,无监督学习(Unsupervised Learning)的训练数据中不包含任何类别信息。在无监督学习中,其典型的问题为聚类(Clustering)问题,代表算法有K-Means算法、DBSCAN算法等。
半监督学习(Semi-Supervised Learning)的训练数据中有一部分数据包含类别信息,同时有一部分数据不包含类别信息,是监督学习和无监督学习的融合。在半监督学习中,其算法一般是在监督学习的算法上进行扩展,使之可以对未标注数据建模。
监督学习和无监督学习是使用较多的两种学习方法,而半监督学习是监督学习和无监督学习的融合,在本教程中,我们着重介绍监督学习和非监督学习。
以垃圾邮件的检测为例,垃圾邮件的检测是指能够对邮件做出判断,判断其为垃圾邮件还是正常邮件。
在人工智能技术发展的初期,人们尝试通过手写规则来解决许多问题。例如,在垃圾邮件的检测中,当邮件中出现事先指定的一些可能为垃圾邮件的词时,这条邮件很可能是垃圾邮件,同时,当邮件里出现链接时,它也很可能是垃圾邮件。这些规则在一定程度上对垃圾邮件的检测起到了一些作用,但是随着规则越来越多,这样的检测系统也变得越来越复杂。这时候,人们发现解决这种问题的根本途径是如何自动地从数据的某些特征中学习他们之间的关系,并且随着对数据的不断学习,提升垃圾检测的性能。
机器学习是从数据中学习和提取有用的信息,不断提升机器的性能。
对于一个具体的机器学习的问题,很重要的一部分是对数据的收集,我们称这部分数据为训练数据。机器学习的基本工作是从这些数据中学习规则,利用学习到的规则来预测新的数据。
机器学习算法的分类
在机器学习中,根据任务的不同,可以分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-Supervised Learning)和增强学习(Reinforcement Learning)。监督学习(Supervised Learning)的训练数据包含了类别信息,如在垃圾邮件检测中,其训练样本包含了邮件的类别信息:垃圾邮件和非垃圾邮件。在监督学习中,典型的问题是分类(Classification)和回归(Regression),典型的算法有 Logistic Regression、BP 神经网络算法和线性回归算法。
与监督学习不同的是,无监督学习(Unsupervised Learning)的训练数据中不包含任何类别信息。在无监督学习中,其典型的问题为聚类(Clustering)问题,代表算法有K-Means算法、DBSCAN算法等。
半监督学习(Semi-Supervised Learning)的训练数据中有一部分数据包含类别信息,同时有一部分数据不包含类别信息,是监督学习和无监督学习的融合。在半监督学习中,其算法一般是在监督学习的算法上进行扩展,使之可以对未标注数据建模。
监督学习和无监督学习是使用较多的两种学习方法,而半监督学习是监督学习和无监督学习的融合,在本教程中,我们着重介绍监督学习和非监督学习。