5.评估机器上算法。这宗学科作为协调到成功的率先只线上课程。本笔记内容是对斯坦福大学教学Andrew

1.机器学习的定义,兴起原因,应用领域,主要内容;线性回归模型如果函数。

前浏览Coursera上机器上点的课程,Andrew Ng的《Machine
Learning》课程评分一直非常高,于是上加于了上下一心之藏列表,但直接没学。今年本科毕业季时注册了学科开始学,基本上仍课程纲要看视频,完成练习,最后到底当课程结束前无异宏观多顺利毕业。线达教育作为教育之一个大趋势,这宗科目作为团结完美成功的首先个线达课程,自己在完成交的当儿感受及满的成就感。因为好以前为注册过无数丝上课程,但到成功有着科目视频和课后练习的,这个第一只。这是摹写这篇博文的率先独因。人生被广大重中之重之天天都值得记忆并记录,而大脑的记多辰光是短且不可靠的。写就首博文的亚个原因是纪念对协调模仿过的内容作一个梳与习,加深理解以及记。不得不说,作为机器上园地国际公认的大牛和Coursera的旅创始人,Andrew的立宗学科的视频通俗易懂,练习吧非麻烦,是一模一样门户大好的机械上入门课程。由于我正进这个领域开始学,所以就篇稿子使来啊发挥不准确的地方,还呼吁大家多多指正。

据笔记内容是针对性斯坦福大学教授Andrew
Ng课程的读过程,请点击阅读原文跳转。

2.线性回归之代价函数,梯度下降算法,特征缩放,均值由一,多项式回归,正规方程算法;逻辑回归之要函数,决策边界,逻辑回归的代价函数,多分类问题同样对准多算法。

介绍

关键内容如下:

3.正则表达式,神经网络模型如果函数,多分类处理。

嘿是机械上

以念具体的机上算法之前,对机器上的基本概念有一个清晰的认那个要紧。目前对机器上来三三两两栽于盛行的概念。一个凡是美国人造智能和机器上地方的前驱Arthur_Samuel给出的:

the Field of study that gives computers the ability to learn without
being explicitly programmed

也就是说机器上钻研的凡与计算机以从来不叫明显编程的情下一样种上的力。这是Arthur_Samuel在1959年领到出来的。另一个双重标准与重现代底定义是由于Tom
M.
Mitchell领到出来的:

A computer program is said to learn from experience E with respect to
some class of tasks T and performance measure P if its performance at
tasks in T, as measured by P, improves with experience E.

也就是说对于某类任务T和属性度量P,如果一个计算机程序于T上坐P衡量的性能就经验E而自我完善,那么称此计算机程序由经验E中学习,这种学习就是是机器上。还是稍抽象。举个手写识别系统的例证,手写识别系统的职责就是是要识别与分类图像遭到的手写文字,该体系特性好坏之裁判标准便是甄别的准确率,一些就分类的手写文字数据库就是教练经验。手写识别系统内之主次就算是采取已分类的手写文字数据库来训练,来增进对手写文字的识别率。

发生监控上:
线性回归(linear regression)、逻辑回归(logistic
regression)、神经网络(neural networks)、支持为量机(SVMs)
任监控上:
K均值(K-means)、主成分分析(PCA)、异常检测(Anomaly detection)
应用:
引进系统、大型机器上
至于创建机器上系统的建议:
方差/偏差、正则化、下一致步的选取、学习算法的评估、学习曲线、误差分析、上限分析

4.神经网络的代价函数,反向传播算法,梯度检查,初始化参数矩阵,神经网络的实施进程。

机械上的分类

冲输入的训练集的特点以及苟缓解之问题之种,机器上重大分为两杀类:监督上与非监督上。

  • 监督上:给定有一定输入和对应之没错的(或者说眷恋使的)输出的数据集,监督上就是若学来输入和输出之间的一律种植照,找到输入和输出之间的干。根据输出值的不同监督上问题还要可分为分类问题和回归题目。如果输出值是一个离散的少数集合,要缓解的便是分类问题,如果输出值是连接的,那么即便是回归问题。举个例子,把机器上运用到股票分析及,给得一个上市企业过去之各种数码,预测该企业之未来底股价。如果是想如果预计公司股价未来现实的价格,这即是一个回归问题,如果想只要预计该铺面股价在未来凡上涨还是降低,这虽是一个分拣问题。
  • 免监督上:给定的数据集只有一定的输入,没有期望之出口。非监督上的天职就是若错过发现这些数据集之间隐藏的结构涉及。一个榜首的读书是聚类,就是意识数目集中类似的东西。

以还明亮和形象地印证监督上及免监督上,举个简单的事例。一员名师用了同堆放苹果与香蕉的图为小孩子们,这堆图片中含不同状况下的苹果和香蕉,把当时堆图片让作“训练集”。如果教师事先不告知小朋友们顿时堆图片是呀事物,只是为他俩协调去押,然后归类,之后老师还独自将出另外一堆放图片(称之为“测试集”)让他俩失去判断这些图是不是属刚看罢之图形中的某某平等接近。小朋友们这种上学之历程实际上就算是同一种不监督上。如果教师事先告知小孩们训练集中之图形哪些是苹果,哪些是香蕉,然后又用出测试集,让小孩辨认哪些是苹果,哪些是香蕉,这个过程尽管是监督上。

消费了临两个月的时,终于把笔记写了。

5.评估机器上算法,模型选择,机器上诊断法,偏差和方差,学习曲线;误差分析,偏态数据处理,混淆矩阵,查准率,查全率,F1分开数,大数据集的运用规则。

监控上

力有限,可能在很多落和误读的地方,敬请谅解。

6.支撑于量机的代价函数,几哪里理解,决策边界与数学之解,kernel函数。

线性回归

极简便易行的线性回归模型是单变量线性回归,也即是起单个特征变量X的输入去预测单个输出值。构建一个若函数h(x),再构建一个代价函数J(θ)去衡量假而函数拟合的准确度,这个代价函数一般为被作“平方误差函数”。拟合的最好好的景象是所有点及拟合直线的垂直方向的离的平方和的平均值最小,也就是说拟合直线尽可能穿过所有点。在这种状况下J(θ)的值等于0。当输入的特点变量不是一个,而是多单时,就是多元线性回归题目。假设函数和代价函数的构建与单变量线性回归相同,只是变量个数不同而已。

有了若函数和代价函数,就需估计要函数中的θ参数,找有而代价函数最小之θ值。这里就是就此到了梯度下降算法。为了有利于直观地解梯度下降算法,我们描绘起代价函数J(θ)关于θ参数的图,单变量回归的情下便是曲线图,多元回归的景下虽是曲面图。找有要代价函数最小时之θ值就是祈求被最低点对应之θ值。梯度下降算法的骨干思维是先行确定一个始发的θ值和习速率α,然后对代价函数J(θ)求梯度,θ值在求出的梯度的可行性的导下,以念书速率和梯度大小的乘积为宽度进行迭代,直至消失。

设差输入特征变量之间的值域相差了怪,就会见造成梯度下降算法的周转速度颇缓慢。为了缓解是题材,常用之一模一样种植办法是特性规整,通过特征规整把输入变量变成大致相同的限定,一般变成(-1,1)或者(-0.5,0.5),但也从没一个明白的渴求。常用的风味规整的方式以出特点缩放都值归一化。特征缩放就是用输入变量值分别除为失败入值的值域区间长度。而都值归一化就是用每个输入值减去输入值的均值后,除以输入值的值域区间长度要输入值的业内各异。调试梯度下降算法时,找到一个方便的学速率很关键。可以绘出J(θ)关于迭代次数之曲线,正常状况下曲线应该是下跌之,如果观察到曲线J(θ)随着迭代次数在上升,那么可能要减小学习速率的价。也得以做活动消失测试,也就说只要J(θ)在迭代中下降的价值仅次于某个阈值就当没有,但是是阈值一般不好确定。

于特点的抉择和如函数的花样上发生多艺术。比如可以管多独特色通过相乘的方式结合成为一个特征,假要函数的形式呢不必一定是线性的,比如可以是特色的平方项、三不行项等,这便成了大多项式回归

于寻觅最优θ参数时,也得以用正式方程来一直求得θ的价,不欲经过梯度下降算法中之高频迭代,但出于需要要求矩阵的迎,如果特征了多吧,方程的求解过程也会见好缓慢。

以下也笔记链接,点击相应的链接即可跳反到相应之笔记文章。

7.聚类算法,K-mean算法,失真代价函数。

逻辑回归

虽这仿佛题材名字叫逻辑回归,这是由历史命名的故,但事实上这好像问题是分类题目。先打简单的次分拣问题开始,也就是说输出值是0或者1。逻辑回归的主导思想便是将线性回归假而函数通过Sigmoid函数映射到(0,1)区间,这样就得到了逻辑回归的使函数,为了博取离散的0,1分拣,再以借设函数值不低于0.5之照射为1,小于0.5底投射为0。对于代价函数的象征,就用了log函数,代价函数由片码组成——输出为1跟输出为0,当期输出为1时不时,假而函数的展望输出更加接近1,整个代价函数的值就是越来越小;当期输出为0时,假要函数的展望输出越接近0,整个代价函数的价值就愈小。对于逻辑回归问题之θ值的优化求解问题,仍然可为此梯度下降算法,但为还胜之算法效率,可以用更高级的算法像“共轭梯度”,“BFGS”,“L-BFGS”等。

对于多分类问题,也就算是输出值是(0,1,…,n)。基本思维是把多分类问题转化为(n+1)个伯仲分拣问题,在每个二分类问题备受,我们挑选一个类似,然后将具有其他类似都由为第二好像,这样重复(n+1)次后,就落了(n+1)个未同类的比方函数,使用就(n+1)个假而函数,返回最深的前瞻值概率的饶是我们欠预测的结果。

第一周

机械上笔记001 |
我对机器上的理解

机上笔记002 |
怎么预测及怎么准确预测

机器上笔记003 |
梯度下降算法

机械上笔记004 |
矩阵和向量,提升效率的数学工具

8.维度约减,主成分分析算法,协方差矩阵,奇异值分解,解释总变异程度的片种做法。

神经网络(NN)

当特征个数较少时,用回归模型如果可能还非是非常复杂,但就特征数增多,如果还用回归模型的话,假设函数会转换得非常复杂。神经网络应运而生。神经网络的办事原理就是是仿我们的大脑的干活方式。研究发现,大脑里其实仅仅所以一个学学模块来学学不同之效益。科学家做了如此一个试:他们隔断了动物之耳和他们大脑被听觉皮层中的神经连接,然后拿听觉皮层嫁接到视神经上,结果听觉皮层也学会了羁押。

核心的神经网络主要是因为三重叠结:输入层、输出层和隐藏层。输入层即是差之性状输入,输出层就是要函数的展望结果输出,根据神经网络复杂度的两样,可以产生多单隐藏层。每层可以由多只节点组成。在神经网络中0参数称之为“权重”,每层都发生分别的0参数,在计算下一致重叠的出口时,都设增长偏置单元。在拍卖逻辑回归问题时,也使Sigmoid函数进行映射。神经网络的代价函数的大约结构与一般的逻辑回归的代价函数一致,只是加与项又扑朔迷离。

当优化神经网络的代价函数的历程中见面为此到反向传播算法。算法本身产生硌复杂,不以本文中开展。在训练神经网络的过程遭到,为了保证反朝传来算法按照预期的方工作,需要展开“梯度检查”。另外,θ参数不能够通初始化为0,否则在推行反往传来时,所有的节点都拿履新至跟一个价值,为了避免这种情景,θ要开展自由初始化。

总一下教练神经网络的步子:

  1. 轻易初始化θ参数;
  2. 推行前望传来算法计算而函数;
  3. 计代价函数;
  4. 执行反往传播算法计算偏导数;
  5. 实施梯度检查,确保反朝传播算法工作正常,然后关门梯度检查算法;
  6. 采取梯度下降或其它内置的高等优化算法来最好小化代价函数,得到相应之θ参数。

第二周

机器上笔记005 |
多特征线性回归,更加接近现实情况的预测

机械上笔记006 |
更加准确之拟合,更加快地没有

机上笔记007 |
正规方程

机器上笔记008 |
梯度下降和正式方程的代码实现同简短以

9.非常检测算法,高斯分布,朴素贝叶斯,评估异常检测算法,多元高斯分布。

支撑于量机(SVM)

课程中支持为量机的引入是通过以逻辑回归之代价函数中之log函数换成max函数再展开局部式的转换后拿走的。与逻辑回归的假设函数输出概率值不同,支持于量机的要函数直接出口类别,比如0或1。支持为量机的代价函数的非正则项有一个系数C(C=1/λ),C值的企图与λ的打算恰恰相反。当思避免过拟合时,减小C的值。支持于量机是同一栽好距离分类器(Large
Margin
Classifiers)。也就是说支持为量机产生的仲裁边界尽可能地远离正样本及负样本。决策边界和多年来的样本中的去被作margin。

课程中尚涉嫌了核函数,支持于量机可以用不同之核函数进行归类。课程被就是选了高斯函数作为核函数的事例。

当支撑于量机的应用着,需要考虑以下的题材:

  1. 择一个参数C
  2. 摘核函数(相似度函数):

  3. 未用核函数(线性核函数),得到的是专业的线性分类器,这种状态适用于特征数森而训练样本数异常少;

  4. 采取高斯核函数,在利用高斯核函数之前需要进行特色缩放,同时需要确定标准差的尺寸,这种状况适用于特征数异常少要训练样本很多

  5. 逻辑回归和支持于量机的较(n代表特征数,m代表训练样本数):

  6. 若果n相对于m来说非常特别,使用逻辑回归或者无带核函数的SVM;

  7. 假若n很有点,m中等大大小小,使用带高斯核函数的SVM;
  8. 假如n很有点,m很酷,那么尽管手动创建有其它的风味,再运逻辑回归或者无带核函数的SVM

第三周

机械上笔记009 |
关于分类问题之预计

机上笔记010 |
分类问题之代价函数和最小化取值算法

机上笔记011 |
多首分类问题

机器上笔记012 |
过度拟合和正则化

机械上笔记013 |
逻辑回归代码实现和简易利用

机上笔记014 |
对于因子选股,机器上好这样用

10.引进系统,基于内容之推介算法,协同过滤算法,大规模数据处理,优化算法,人像识别项目。

勿监督上

切莫监督上就为了无标签的数据集,由非监督上算法去搜寻有多少集内部的机构,非监督上中一个重点的项目就是是聚类分析。聚类分析在商海分、社交网络分析,组织测算集群和天文数据分析着都饰了关键的角色。

第四周

机器上笔记015 |
神经网络算法介绍

机上笔记016 |
神经网络算法

机器上笔记017 |
图片中之数字是怎被识别出的

K均值算法

K均值算法的思想如下:

  1. 在数量集中随机初始化K个点(K代表类的个数),这些点为作聚类中心;
  2. 拿数量汇总所有点分配到距离她最近之聚类中心;
  3. 计算属于每个聚类中心的触发之平均值,将聚类中心更换到这些平均值处;
  4. 重复步骤2和3,直到聚类中心稳定。

K均值算法有时候会卡壳于有些最优解上,为了防这种状况来,聚类中心的肆意初始化可以采用下的算法实现,即开展反复随机初始化:

for i = 1 to 100:
   randomly initialize k-means
   run k-means to get 'c' and 'm'
   compute the cost function (distortion) J(c,m)
pick the clustering that gave us the lowest cost

第五周

机器上笔记018 |
神经网络的代价函数

机械上笔记019 |
反为传来算法和神经网络的梯度

机上笔记020 |
梯度检验及轻易的开始参数

机上笔记021 |
反往传来方式的代码实现

主成分分析(PCA)

多少降维:数据降维可以用于数据的减,占用比较少之仓储空间,同时可以加快算法的速。另外数码降维后好数据的可视化,因为对于超过三维的数,数据就是无便民可视化。值得注意的凡,数据降维,降的是数额的特征数,而非是多少汇总样本的多少。很盛的多寡降维算法就是主成分分析算法。

PCA的靶子是以每个特征向同一条直线或一个平面及阴影,使得投影误差的平均值最小。比如说,把数量从n维降到k维,就是寻找k个向量,使得数据以这些向量上的阴影误差最小。在这边要证实一下,PCA不是线性回归,线性回归是太小化平方误差,是笔直(vertical)距离,而PCA是极其小化最差间距,或者说正交(orthogonal)距离。

主成分分析算法的显要步骤如下:

  1. 展开数量预处理:进行特色缩放或者都值归一化
  2. 测算特征向量的协方差矩阵;
  3. 算算协方差矩阵的特征向量;
  4. 得求得的U矩阵的前面K列,再计降维后的特征向量。

算法在matlab中之兑现代码如下:

Sigma = (1/m) * X' * X;  % compute the covariance matrix
[U,S,V] = svd(Sigma);    % compute our projected directions
Ureduce = U(:,1:k);      % take the first k directions
Z = X * Ureduce;         % compute the projected data points

降维后的维度K的选择:
每当上头的代码中的亚推行计算特征向量时,返回了一个S矩阵,S矩阵是一个对角矩阵,选取的K值应该满足S矩阵对竞赛上的眼前K个值的和和对角上所有值的同之商大于0.99,满足当下同一谱的K值都是得的。

第六周

机上笔记022 |
如何评估学习算法

机械上笔记023 |
高偏差和高方差

机上笔记024 |
算法问题的诊断及拍卖

机器上笔记025 |
算法诊断的代码实现

机械上笔记026 |
如何高效建立标准的机器上型

机上笔记027 |
如何处理偏斜类

十分检测

吃一定一个数据集,然后重新为得一个测试样本,判断这个样本是否好,这好像题目即是深检测问题。

第七周

机械上笔记028 |
支持向量机SVM的规律

机上笔记029 |
核函数

机械上笔记030 |
SVM的简要利用

算法
  1. 计量各个特征的平均值和方差,假设各个特征之间相互独立,并且遵从高斯分布,建立概率预测函数P(x);
  2. 对此给定的样书,计算P(x)的价值;
  3. 若P(x)<ε,则也老。

第八周

机械上笔记031 |
无监控上算法——K均值(K-means)

机上笔记032 | 维数约减(Dimensionality
Reduction)

机器上笔记033 |
主成分分析法(PCA)

机上笔记034 | K-means 和 PCA
的代码实现

十分检测体系的支出暨评估

为评估异常检测算法的实用,我们赢得有带来标签的数额,分为正常样本和坏样本两好像,正常样本占大多数,将之数集分为三独子数据集:训练集(60%,全是正规的),交叉验证集(20%,其中0.1%属于异常数据,其余为健康数据),测试集(20%,其中0.1%属于挺数据,其余为常规数据)。从训练集中训练有模型P(x),应用在陆续验证集上来确定决策阈值ε,在测试集及拓展测试。误差评估可以用前议论了之准确率、召回率或者F值。另外说明一下,特征的挑对于生检测系统的见来死老影响,我们可由此作画一个直方图来探望数据集的分布是匪是大约可高斯分布,如果非吻合,可以先行对数码做一个转移,像log函数,平方根函数等,处理后的数量貌似还见面称高斯分布。此外,我们尚可以行使多变量高斯分布来叙述P(x)。

第九周

机上笔记035 | 异常检测(Anomaly
detection)介绍

机器上笔记036 |
异常检测的专注点

机械上笔记037 | 多元高斯分布(Multivariate Gaussian
Distribution)

机器上笔记038 |
推荐系统的理论逻辑

机械上笔记039 |
异常检测和推荐系统

一对应用

机械上之一个万分重点的下就是是援引系统。推荐系统分为两不胜接近:基于内容之引荐系统同台过滤

根据内容的引荐系统的严重性考虑是早已知晓电影的性状成分表达,比如说一部电影之爱情成分占多少,动作成分占小等,将用户指向影视的评分用一个线性模型进行拟合,对于每个用户学习有一个相应的参数θ。和前议论的线性回归模型基本一致。

同过滤算法考虑到对同样总统影视中的风味成分进行标定是一律宗比较难之从业,所以并过滤算法从用户处于收集她们本着两样种类的影片的评分,从这些评分中错过学学电影之特性成分。协同过滤算法又得分成两近乎:基于用户之联名过滤与依据物品的同台过滤。

第十周

机械上笔记040 |
大量数量的拍卖

搭建系统不时之评估以及建议

第十一周

机器上笔记041 |
机器上的流水线和资源分配

正则化

以讲话正则化之前,我们先动手明白高偏差或者缺少拟合高方差或者过拟合的定义。高偏差或者短缺拟合是凭借要函数对数码的拟合程度深没有,不能够好好地叙述数据的方向,通常是要是函数太简单,利用的特色极其少导致的。高方差或者过拟合是恃要函数对教练集中的数量可知发生大好之拟合,但是预计新数据的准确性就最好差,这便是出于选项的特性极其多,假设函数最好复杂造成的。对于过拟合的题目,通常发生些许栽缓解方案,一种植是减掉特征的数据,另一样种就是正则化。

粗略地游说,正则化的琢磨便是减多少特征前的θ参数来办该特征项,而这种惩治又是经过多他们当代价函数的代价来贯彻之。通常是在原的代价函数的底蕴及附加添加同样件,该项是由于一个正则参数λ和θ项的平方和的积构成,当选择一个比充分的λ值时,为了使代价函数值最小,θ项的平方和得十分有些,也就说经过λ值来惩罚θ参数。λ值也不能够尽好,太老就会见处以过度,造成欠拟合。另外,在履梯度下降之迭代时,也只要进入正则项。

型选择与系统诊断

范选择

率先须明确,一个假设函数对训练集的拟合程度深好并无意味立即是一个吓的只要,用自训练集得到的如果函数在训练集上进行误差分析,得到的误差会比将这要函数用在另数据集齐获的误差要小。模型选择要化解之题目是:如何选假要函数中的差不多项式的阶数,哪些特征应该放开上假要函数中,如何抉择刚刚则参数λ。

以化解这题目,我们得管数据集分为三独组成部分:60%用作训练集,20%用作交叉验证集,20%当做测试集。对于多项式阶数的选择问题,大致的步调如下:

  1. 用训练集得到不同阶数下的使函数的θ参数;
  2. 算1中取的如果函数用当陆续验证集上的误差,选择误差最小时对应阶数的模型;
  3. 用精选的型应用在测试集及,估计通用误差。
系统诊断

系统诊断需要规定是谬误还是方差导致不好的展望结果,确定由后再度确定下什么样的解决办法。

预先来钻一下多项式的阶数与谬误和方差之间的关联。随着多项式阶数的加,训练集的误差会一直减多少,同时交叉验证集的误差为会就减多少,但当阶数增加至早晚水准,交叉验证集的误差会转移而长。所以最好出彩的阶数应该是于陆续验证集的误差的关键对应的阶数。总结一下虽是,出现高偏差(欠拟合)时,训练集和交叉验证集的误差都蛮特别,并且近似相等;出现高方差(过拟合)时,训练集误差依然大有点,但是交叉验证集的误差会比训练集误差大过多。

现来钻一下恰恰则参数λ与错和方差之间的联系。λ越充分,对θ参数的处就越是老,假而函数就会给大大简化,从而出现高偏差(欠拟合),此时训练集误差和穿插验证集误差都见面老挺;λ较小时,训练集的误差会较小,交叉验证集的误差会较充分,出现高方差(过拟合)的题目。所以一个无限美的λ值是使训练误差和交叉验证集误差都相对比较小,并且近似相等。

为挑选一个恰当的模子与正则参数λ,我们得遵循下面的步子来做:

  1. 创办一个λ的聚合;
  2. 选一个λ进行测算;
  3. 缔造一个差阶数或者其他的型集合;
  4. 分选一个型去学习参数θ;
  5. 应用选择的模子,使用带有选择的λ参数的代价函数去读得参数θ;
  6. 以教练集及,利用读得的θ参数,使用未牵动λ参数的代价函数(即误差函数)计算训练集误差;
  7. 以交叉验证集上,利用上收获的θ参数,使用不带来λ参数的代价函数(即误差函数)计算交叉验证误差;
  8. 以具有的范与λ参数的结合及重新以上步骤,选择让交叉验证集误差最小的构成;
  9. 行使最佳结合的λ和θ参数,在测试集齐测算测试集误差。

就再来钻一下误差和训练集的分寸的关系,也于作上学曲线。当一个系统面临高偏差问题时常,训练集非常小时,训练集误差会很有点,但是交叉验证集误差会较生,随着训练集的增大,训练集误差会日趋增大,交叉验证集误差会逐年衰弱多少,训练集增大至早晚程度时,训练集误差和交叉验证集误差会趋于相等,但误差都挺酷。所以,当系统中高偏差问题时,增大训练集的轻重帮助不十分。当一个系统遭到高方差问题时常,训练集非常小时,训练集误差较小,交叉验证集误差较生,随着训练集的增大,训练集误差和交叉验证集的变化趋势和高偏差问题同,但是当教练集增大到早晚程度,交叉验证集误差会盖训练集误差。所以,当系统受高方差问题时常,增大训练集的轻重缓急会发帮带。

总结一下每当系统诊断时当了解的有些原则:

  • 外加训练集的深浅可以修复高方差的题目如无是高偏差;
  • 减特征可以修复高方差而休是高偏差;增加特色可以修复高偏差而非是高方差;
  • 增加多项式项可以修复高偏差而未是高方差;
  • 每当动用梯度下降算法时,减小λ可以修复高偏差,增大λ可以修复高方差;
  • 当以神经网络时,简单的神经网络更赞成于会生欠拟合,复杂的神经网络更赞成被来过拟合。
系统规划

Andrew于科目被引进的缓解一个机械上问题的步骤如下:

  1. 先由简单的设函数开始,快速实现其,并作早期测试;
  2. 画画出上曲线,根据学习曲线来规定是不是再度多之数码还是更多之特征会指向范的改进产生帮;
  3. 以陆续验证集上进行误差分析。

说交误差分析,有时候很不便确定误差数据的缩减是否意味着网的改良。这种状况以偏斜类题目达到颇突出。所谓偏斜类,就是说我们只要预计的切近在整数据汇总数量特别少。对于偏斜类的误差分析,我们用准确率/召回率进行衡量。也堪管当下片种量变为一栽量:F值

参考

Tom Mitchell: 《机器上》

wikipedia:Machine
Learning

ML Wiki Page: Machine Learning Lecture
Notes

相关文章