第五章 线性判别函数 6学时.

Slides:



Advertisements
Similar presentations
第十二章 常微分方程 返回. 一、主要内容 基本概念 一阶方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程.
Advertisements

在近年的高考地理试题中,考查地球上 两点间最短航线的方向问题经常出现,由于 很多学生对这类问题没有从本质上搞清楚, 又缺乏空间想象能力,只是机械地背一些结 论,造成解这类题目时经常出错。 地球上两点间的最短航线方向问题.
概率统计( ZYH ) 节目录 3.1 二维随机变量的概率分布 3.2 边缘分布 3.4 随机变量的独立性 第三章 随机向量及其分布 3.3 条件分布.
基本知识和几何要素的投影 模块一: 字体练习 第一章 制图的基本知识与基本技能 题目提示返回.
细分曲面 傅孝明 SA 目录 细分曲面的基本思想 两个关键问题 一些基本概念 几种简单的细分曲面算法 细分曲面方法分类.
一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
4 第四章 矩阵 学时:  18 学时。 教学手段:  讲授和讨论相结合,学生课堂练习,演练习题与辅导答疑相结合。 基本内容和教学目的:  基本内容: 矩阵的运算,可逆矩阵,初等矩阵及其性质和意义, 分块矩阵。  教学目的:  1 .使学生理解和掌握矩阵等价的相关理论  2 .能熟练地进行矩阵的各种运算.
第二十三讲 7.3 利用频率采样法设计 FIR 滤波器. 回顾窗函数设计法: 得到的启发:能否在频域逼近? 用什么方法逼近? 通过加窗实 现时域逼近.
线性调制系统的抗噪声性能 n i (t) 是一个高斯窄带噪声 + 带通滤波器 解调器 n(t) 又 即.
第 4 章 抽象解释 内容概述 以一种独立于编程语言的方式,介绍抽象解释的 一些本质概念 – 将 “ 程序分析对语言语义是正确的 ” 这个概念公式 化 – 用 “ 加宽和收缩技术 ” 来获得最小不动点的较好的 近似,并使所需计算步数得到限制 – 用 “ 伽罗瓦连接和伽罗瓦插入 ” 来把代价较大的属 性空间用代价较小的属性空间来代替.
5 第五章 二次型 学时: 10 学时。 教学手段:  讲授和讨论相结合,学生课堂练习,演练习题与辅导答疑相结合。 基本内容和教学目的:  基本内容: 二次型的矩阵表示、标准型、唯一性、正定二次型。  教学目的:  1 、了解二次型的概念,二次型的矩阵表示。  2 、会化二次型为标准型,规范性。
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第六十二讲 ) 离散数学. 最后,我们构造能识别 A 的 Kleene 闭包 A* 的自动机 M A* =(S A* , I , f A* , s A* , F A* ) , 令 S A* 包括所有的 S A 的状态以及一个 附加的状态 s.
1 为了更好的揭示随机现象的规律性并 利用数学工具描述其规律, 有必要引入随 机变量来描述随机试验的不同结果 例 电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述 例 检测一件产品可能出现的两个结果, 也可以用一个变量来描述 第五章 随机变量及其分布函数.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第二章 数值微分和数值积分.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样 的一种手段。在实际中,数据不可避免的会有误差,插值函 数会将这些误差也包括在内。
例9:例9: 第 n-1 行( -1 )倍加到第 n 行上,第( n-2 ) 行( -1 )倍加到第 n-1 行上,以此类推, 直到第 1 行( -1 )倍加到第 2 行上。
主讲教师:陈殿友 总课时: 124 第八讲 函数的极限. 第一章 机动 目录 上页 下页 返回 结束 § 3 函数的极限 在上一节我们学习数列的极限,数列 {x n } 可看作自变量 为 n 的函数: x n =f(n),n ∈ N +, 所以,数列 {x n } 的极限为 a, 就是 当自变量 n.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第三十八讲 ) 离散数学. 第八章 格与布尔代数 §8.1 引 言 在第一章中我们介绍了关于集 合的理论。如果将 ρ ( S )看做 是集合 S 的所有子集组成的集合, 于是, ρ ( S )中两个集合的并 集 A ∪ B ,两个集合的交集.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第四十八讲 ) 离散数学. 例 设 S 是一个非空集合, ρ ( s )是 S 的幂集合。 不难证明 :(ρ(S),∩, ∪,ˉ, ,S) 是一个布尔代数。 其中: A∩B 表示 A , B 的交集; A ∪ B 表示 A ,
第十一章 曲线回归 第一节 曲线的类型与特点 第二节 曲线方程的配置 第三节 多项式回归.
线性代数习题课 吉林大学 术洪亮 第一讲 行 列 式 前面我们已经学习了关 于行列式的概念和一些基本 理论,其主要内容可概括为:
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第二十五讲 ) 离散数学. 定理 群定义中的条件 ( 1 )和( 2 )可以减弱如下: ( 1 ) ’ G 中有一个元素左壹适合 1 · a=a; ( 2 ) ’ 对于任意 a ,有一个元素左逆 a -1 适 合 a -1 ·
6 第一章 线性空间 学时: 16 学时。 教学手段:  讲授和讨论相结合,学生课堂练习,演练习题与辅导答疑相结合。 基本内容和教学目的:  基本内容:集合、映射的概念;线性空间的定义与简单性质、维 数、基与坐标、过渡矩阵的概念;基变换与坐标变换;线性子空 间、子空间的交与和、子空间的直和;线性空间的同构等概念。
第二章 随机变量及其分布 第一节 随机变量及其分布函数 一、随机变量 用数量来表示试验的基本事件 定义 1 设试验 的基本空间为 , ,如果对试验 的每一个基 本事件 ,规定一个实数记作 与之对应,这样就得到一个定义在基本空 间 上的一个单值实函数 ,称变量 为随机变量. 随机变量常用字母 、 、 等表示.或用.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样的一种手段。 在实际中,数据不可避免的会有误差,插值函数会将这些误差也包括在内。
实验三: 用双线性变换法设计 IIR 数字滤波器 一、实验目的 1 熟悉用双线性变换法设计 IIR 数字滤波器的原理与方法。 2 掌握数字滤波器的计算机仿真方法。 3 通过观察对实际心电图信号的滤波作用, 获得数字滤波的感性知 识。
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 计算机如何表达函数? 1. 已知函数形态,可以存相关系数 2. 对任意函数,可以存点.
第二章 贝叶斯决策理论 3学时.
流态化 概述 一、固体流态化:颗粒物料与流动的流体接触,使颗粒物料呈类 似于流体的状态。 二、流态化技术的应用:流化催化裂化、吸附、干燥、冷凝等。 三、流态化技术的优点:连续化操作;温度均匀,易调节和维持; 气、固间传质、传热速率高等。 四、本章基本内容: 1. 流态化基本概念 2. 流体力学特性 3.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 4 章 非线性方程求根 非线性科学是当今科学发展的一个重要研究方向,而非线性 方程的求根也成了一个不可缺的内容。但是,非线性方程的求根 非常复杂。
量子化学 第四章 角动量与自旋 (Angular momentum and spin) 4.1 动量算符 4.2 角动量阶梯算符方法
化学系 3 班 何萍 物质的分离原理 世世界上任何物质,其存在形式几乎均以混合 物状态存在。分离过程就是将混合物分成两 种或多种性质不同的纯物质的过程。 分分子蒸馏技术是一种特殊的液-液分离技术。
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 5 章 解线性方程组的直接法 实际中,存在大量的解线性方程组的问题。很多数值方 法到最后也会涉及到线性方程组的求解问题:如样条插值的 M 和.
主讲教师:陈殿友 总课时: 124 第十一讲 极限的运算法则. 第一章 二、 极限的四则运算法则 三、 复合函数的极限运算法则 一 、无穷小运算法则 机动 目录 上页 下页 返回 结束 §5 极限运算法则.
在发明中学习 线性代数 概念的引入 李尚志 中国科学技术大学. 随风潜入夜 : 知识的引入 之一、线性方程组的解法 加减消去法  方程的线性组合  原方程组的解是新方程的解 是否有 “ 增根 ” ?  互为线性组合 : 等价变形  初等变换  高斯消去法.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 7 章 矩阵的特征值和特征向量 很多工程计算中,会遇到特征值和特征向量的计算,如: 机械、结构或电磁振动中的固有值问题;物理学中的各种临界 值等。这些特征值的计算往往意义重大。
§2.2 一元线性回归模型的参数估计 一、一元线性回归模型的基本假设 二、参数的普通最小二乘估计( OLS ) 三、参数估计的最大或然法 (ML) 四、最小二乘估计量的性质 五、参数估计量的概率分布及随机干 扰项方差的估计.
第一节 相图基本知识 1 三元相图的主要特点 (1)是立体图形,主要由曲面构成; (2)可发生四相平衡转变; (3)一、二、三相区为一空间。
1/108 随机信号分析. 2/116 第 2 章 随机信号 3/ 定义与基本特性 2.2 典型信号举例 2.3 一般特性与基本运算 2.4 多维高斯分布与高斯信号 2.5 独立信号 目 录.
量子力学教程 ( 第二版 ) 3.4 连 续 谱 本 征 函 数 的 归 一 化 连续谱本征函数是不能归一化的 一维粒子的动量本征值为的本征函数 ( 平面波 ) 为 可以取 中连续变化的一切实数值. 不难看出,只要则 在量子力学中, 坐标和动量的取值是连续变化 的 ; 角动量的取值是离散的.
第 3 章 控制流分析 内容概述 – 定义一个函数式编程语言,变量可以指称函数 – 以 dynamic dispatch problem 为例(作为参数的 函数被调用时,究竟执行的是哪个函数) – 规范该控制流分析问题,定义什么是可接受的控 制流分析 – 定义可接受分析在语义模型上的可靠性 – 讨论分析算法.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第五十三讲 ) 离散数学. 定义 设 G= ( V , T , S , P ) 是一个语法结构,由 G 产生的语言 (或者说 G 的语言)是由初始状态 S 演绎出来的所有终止符的集合, 记为 L ( G ) ={w  T *
编译原理总结. 基本概念  编译器 、解释器  编译过程 、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.
周期信号的傅里叶变换. 典型非周期信号 ( 如指数信号, 矩形信号等 ) 都是满足绝对可 积(或绝对可和)条件的能量信号,其傅里叶变换都存在, 但绝对可积(或绝对可和)条件仅是充分条件, 而不是必 要条件。引入了广义函数的概念,在允许傅里叶变换采用 冲激函数的前提下, 使许多并不满足绝对可积条件的功率.
§8-3 电 场 强 度 一、电场 近代物理证明:电场是一种物质。它具有能量、 动量、质量。 电荷 电场 电荷 电场对外的表现 : 1) 电场中的电荷要受到电场力的作用 ; 2) 电场力可移动电荷作功.
 符号表  标识符的作用: 声明部分:定义了各种对象及对应的属性和 使用规则。 程序体:对所定义的对象进行各种操作。 $ididname IdnameAttributeIR  必要性 Token : 新表-符号表(种类、类型等信息):
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 8 章 常微分方程 实际中,很多问题的数学模型都是微分方程。我们 可以研究它们的一些性质。但是,只有极少数特殊的方程 有解析解。对于绝大部分的微分方程是没有解析解的。
Department of Mathematics 第二章 解析函数 第一节 解析函数的概念 与 C-R 条件 第二节 初等解析函数 第三节 初等多值函数.
模式识别 – 成分分析与核函数 第八章 成分分析与核函数. 模式识别 – 成分分析与核函数 8.0 问题的提出 降低特征维数 : Dimension Reduction  提高泛化能力:减少模型的参数数量;  减少计算量: 主要方法: 1. 主成分分析 (PCA): Principle Component.
网上预约集港操作指南 一、登录系统 登陆下面图片显示网址:输入堆场用户名、密码和校验码登陆系统.
首 页 首 页 上一页 下一页 本讲内容本讲内容 视图,剖视图(Ⅰ) 复习: P107 ~ P115 作业: P48(6-2,6-4), P49( 去 6-6) P50, P51(6-13), P52 P50, P51(6-13), P52 P53 (6-18,6-20) P53 (6-18,6-20)
1-4 节习题课 山东省淄博第一中学 物理组 阚方海. 2 、位移公式: 1 、速度公式: v = v 0 +at 匀变速直线运动规律: 4 、平均速度: 匀变速直线运动 矢量式 要规定正方向 统一单位 五个量知道了三 个量,就能求出 其余两个量 3 、位移与速度关系:
1 、如果 x + 5 > 4 ,那么两边都 可得 x >- 1 2 、在- 3y >- 4 的两边都乘以 7 可得 3 、在不等式 — x≤5 的两边都乘以- 1 可得 4 、将- 7x — 6 < 8 移项可得 。 5 、将 5 + a >- 2 a 移项可得 。 6 、将- 8x < 0.
1 物体转动惯量的测量 南昌大学理学院
§10.2 对偶空间 一、对偶空间与对偶基 二、对偶空间的有关结果 三、例题讲析.
表单自定义 “ 表单自定义 ” 功能是用于制作表单的 工具,用数飞 OA 提供的表单自定义 功能能够快速制作出内容丰富、格 式规范、美观的表单。
第三章 正弦交流电路.
7 生产费用在完工产品与在产 品之间分配的核算. 2 第七章 生产费用在完工产品与在产品之 间的分配  知识点 :  理解在产品的概念  掌握生产费用在完工产品与在产品之间的分 配.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
8.1 二元一次方程组. 篮球联赛中,每场比赛都要分出胜负,每队 胜一场得 2 分,负一场得 1 分. 如果某队为了争取 较好名次,想在全部 22 场比赛中得 40 分,那么这 个队胜负场数应分别是多少 ? 引 言引 言 用学过的一元一次方 程能解决此问题吗? 这可是两个 未知数呀?
第四章 不定积分. 二、 第二类换元积分法 一、 第一类换元积分法 4.2 换元积分法 第二类换元法 第一类换元法 基本思路 设 可导, 则有.
逻辑设计基础 1 第 7 章 多级与(或)非门电路 逻辑设计基础 多级门电路.
第五章 特征值与特征向量 —— 幂法 /* Power Method */ 计算矩阵的主特征根及对应的特征向量 Wait a second, what does that dominant eigenvalue mean? That is the eigenvalue with the largest.
八. 真核生物的转录 ㈠ 特点 ① 转录单元为单顺反子( single cistron ),每 个蛋白质基因都有自身的启动子,从而造成在功能 上相关而又独立的基因之间具有更复杂的调控系统。 ② RNA 聚合酶的高度分工,由 3 种不同的酶催化转 录不同的 RNA 。 ③ 需要基本转录因子与转录调控因子的参与,这.
欢 迎 使 用 《工程流体力学》 多媒体授课系统 燕 山 大 学 《工程流体力学》课程组. 第九章 缝隙流动 概述 9.1 两固定平板间的层流流动 9.2 具有相对运动的两平行平板 间的缝隙流动 9.3 环形缝隙中的层流流动.
1 第三章 数列 数列的概念 考点 搜索 ●数列的概念 ●数列通项公式的求解方法 ●用函数的观点理解数列 高考 猜想 以递推数列、新情境下的 数列为载体, 重点考查数列的通 项及性质, 是近年来高考的热点, 也是考题难点之所在.
§9. 恒定电流场 第一章 静电场 恒定电流场. 电流强度  电流:电荷的定向移动  正负电荷反方向运动产生的电磁效应相同 ( 霍尔效应 特例 ) 规定正电荷流动的方向为正方向  电流方向:正方向、反方向  电流强度 ( 电流 ) A 安培 标量 单位时间通过某一截面的电荷.
目录 上页 下页 返回 结束 二、无界函数反常积分的审敛法 * 第五节 反常积分 无穷限的反常积分 无界函数的反常积分 一、无穷限反常积分的审敛法 反常积分的审敛法  函数 第五章 第五章.
本章讨论有限自由度结构系统,在给定载荷和初始条件激励下的系统动力响应计算方法。 第 六 章
§7.2 估计量的评价标准 上一节我们看到,对于总体 X 的同一个 未知参数,由于采用的估计方法不同,可 能会产生多个不同的估计量.这就提出一 个问题,当总体的一个参数存在不同的估 计量时,究竟采用哪一个好呢?或者说怎 样评价一个估计量的统计性能呢?下面给 出几个常用的评价准则. 一.无偏性.
Presentation transcript:

第五章 线性判别函数 6学时

5.1 线性判别函数和判别界面

线性不可分情况

线性判别函数 x=(x1, x2,…, xd)t: 特征矢量; w=(w1, w2, …, wd)t: 权矢量; w0:偏置(bias)。

线性判别函数的增广形式 y=(1, x1, x2,…, xd)t: 增广的特征矢量; a=(w0, w1, w2, …, wd)t: 增广的权矢量;

两类问题线性判别准则

线性分类器的分类界面

分类界面的几何解释 线性分类界面H是d维空间中的一个超平面; 分类界面将d维空间分成两部分,R1,R2分别属于两个类别; 判别函数的权矢量w是一个垂直于分类界面H的矢量,其方向指向区域R1 ; 偏置w0与原点到分类界面H的距离有关: 简单证明后两点 W的方向决定分类界面,长度与分类界面无关,只与偏置大小有关。

多类问题(情况一) 每一类模式可以用一个超平面与其它类别分开; c类问题c个两类问题,需要c个线性分类界面; 第i类与其它类别之间的判别函数:

多类问题(情况一)分类界面 Ambiguous region:模糊区域或拒识区域

多类问题(情况一)判别规则 若存在i,使得gi(x)>0, gj(x)<0,j≠i,则判别x属于ωi类; 其它情况,拒识。

多类问题(情况二) 每两个类别之间可以用一个超平面分开; c类问题c(c-1)/2个两类问题; 第i类与第j类之间的判别函数为:

多类问题(情况二)分类界面

多类问题(情况二)判别准则 如果对任意j≠i ,有gij(x)≥0 ,则决策x属于ωi。 其它情况,则拒识。 Gij(x)=-gji(x)

多类问题(情况三) 情况三是情况二的特例,不存在拒识区域。

多类问题(情况三)判别函数 c个类别需要c个线性函数: 判别准则:

5.2 线性判别函数的学习 问题的提出:假设有一个包含n个样本的集合y1, y2, …, yn, 一些标记为ω1,另一些标记为ω2,用这些样本来确定一个判别函数g(y)=aty的权矢量a。 在线性可分的情况下,希望得到的判别函数能够将所有的训练样本正确分类; 线性不可分的情况下,判别函数产生错误的概率最小。

训练样本的规范化 非规范化: 规范化: 问题变为求解线性不等式组的问题

解区域的几何解释(特征空间中) 特征空间中:矢量a是垂直于分类界面的矢量:

解区域的几何解释(权空间中) 权空间中,atyi=0是一个通过原点的超平面,yi是法向量,而a是空间中一个点。 线性分类器的学习实际上就是在权空间中寻找一个满足要求的点。

一般求解方法—梯度下降法 求解不等式组采用最优化的方法: 定义一个准则函数J(a),当a是解向量时,J(a)为最小; 采用最优化方法求解标量函数J(a)的极小值。 最优化方法采用最多的是梯度下降法,设定初始权值矢量a(1),然后沿梯度的负方向迭代计算: 解释一下准则函数,准则函数的梯度,剃度下降法的道理 剃度下降法找到的是极小点,而不是最小点,在线性分类器的学习中,可以通过构造准则函数解决 其中η(k)称为学习率,或称步长。

5.3 感知器算法(Perceptron) 最直观的准则函数定义是最少错分样本数准则: JN(a) = 样本集合中被错误分类的样本数; JN(a) = ∑y€Y1,Y是被a错分的样本集合

感知器准则 以错分样本到判别界面距离之和作为准则(感知器准则):

感知器算法(批量调整版本) begin initialize , ,θ, k0 do kk+1 until return a end η(k)的取法: η(k)=1, η(k)=1/k

感知器算法(单样本调整版本) begin initialize , k0 do k(k+1)mod n if yk is misclassified by a then until all patterns properly classified return a end

例5.1 有两类模式的训练样本: ω1:{ (0,0), (0,1) } ω2:{ (1,0), (1,1) } 用感知器算法求取判别函数,将两类样本分开。 C=1, a(1) = (0,0,1)’

感知器算法的特点 当样本线性可分情况下,学习率 合适时,算法具有收敛性; 收敛速度较慢; 当样本线性可分情况下,学习率 合适时,算法具有收敛性; 收敛速度较慢; 当样本线性不可分情况下,算法不收敛,且无法判断样本是否线性可分。 可以结合“口袋算法”改进,依据概率收敛。

5.4 最小平方误差算法(LMSE) LMSE方法的基本思想是将求解线性不等式组的问题转化为求解线性方程组: 这是一个比线性不等式组更强的条件,当n=d+1时可以直接求解,但通常n>>d+1,需要采用伪逆的方法求解 Y的一行是样本的转置

最小平方误差的准则函数 定义误差矢量e,用e长度的平方作为准则函数(LMSE准则):

权值矢量的求解(伪逆求解法) 称为伪逆矩阵

例5.2 有两类模式的训练样本: ω1:{ (0,0), (0,1) } ω2:{ (1,0), (1,1) } 用LMSE算法求取判别函数,将两类样本分开。

权值矢量的求解(迭代求解法) begin initialize a(0), b, θ, η(•), k0; do kk+1; until return a end 此算法由Widrow 和 Hoff提出,也称为Widrow-Hoff算法。

LMSE算法的特点 算法的收敛依靠η(k)的衰减,一般取η(k)=η(1)/k; 算法对于线性不可分的训练样本也能够收敛于一个均方误差最小解; 取b=1时,当样本数趋于无穷多时,算法的解以最小均方误差逼近贝叶斯判别函数; 当训练样本线性可分的情况下,算法未必收敛于一个分类超平面。 书第201页有一个小例子说明第4点

LMSE算法

5.5 支持矢量机(SVM, Support Vector Machine) 问题的提出:

函数间隔和几何间隔 函数间隔:样本xi到分类界面g(x)=0的函数间隔 定义为: 几何间隔: 这里介绍的是SVM的线性版本 通过调整w的可以使得训练样本的函数间隔大于等于1

最优分类界面 样本集与分类界面之间的间隔 定义为样本与分类界面之间几何间隔的最小值。 样本集与分类界面之间的间隔 定义为样本与分类界面之间几何间隔的最小值。 最优分类界面:给定线性可分样本集,能够将样本分开的最大间隔超平面。

支持矢量 距离最优分类界面最近的这些训练样本称为支持矢量; 最优分类界面完全由支持矢量决定,然而支持矢量的寻找比较困难。

SVM的准则函数 给定两类问题的线性可分样本集合{(y1,z1), …, (yn,zn)},其中z为样本的类别标号: 可分性约束:能够将样本线性分开的分类界面满足: 亦即可以通过调整权值w和w0将样本集合的最小函数间隔调整为1。

SVM的准则函数 样本集到分类界面的几何间隔: 最大,亦即||w||最小,所以SVM可以变为如下的优化问题:在满足

Kuhn-Tucker构造法 构造Lagrange函数 分别对参数w和w0求导: Lagra

Kuhn-Tucker构造法 因此有: 带入Lagrange函数,有:

Kuhn-Tucker构造法 因此SVM的优化问题可以转化为一个经典的二次规划问题: 约束条件:

SVM解的讨论 这是一个典型的不等式约束条件下的二次优化问题,其解法的基础是Kuhn-Tucker定理; 首先求解的是n个Lagrange乘子,n为训练样本数。但根据Kuhn-Tucker定理,有: 在实际计算中,不等于0的a值比例并不是很大,因此支持矢量的数目要远少于样本的数目。 满足第2,3个条件的yi称为支持矢量。

支持向量和Lagrange系数

SVM解的讨论 根据找到的支持矢量yi以及相应的Lagrange乘子αi,计算权矢量w: 偏置w0可以用支持矢量满足的条件求得: 这是线性可分情况下的结果,当训练样本线性不可分时,处理要稍微复杂一些,结果与此类似。

Matlab实现 Bioinformatics Toolbox中包含了LibSVM的实现函数; 学习函数: 识别函数: SVMSTruct = svmtrain( X,L, ’KERNELFUNCTION’, ’linear’, ‘BOXCONSTRAIN’, C, ‘AUTOSCALE’, false); X: n*d矩阵,L:n*1矢量 识别函数: Labels = svmclassify( X, SVMSTruct );

5.6 多类别线性判别函数的学习 方法一:根据5.1节介绍的前两种情况,分别转换为c个两类问题,或c(c-1)/2个两类问题分别处理; 方法二:对于情况三,可以采用Kesler构造法训练; 方法三:设计感知器网络进行识别。

Kesler构造法(扩展的感知器算法) 初始化c个权向量ai(1),k1; 输入增广特征矢量yk(只增加一维1,不改变特征的符号),计算c个判别函数的输出: 修改权矢量: 若yk属于ωi类,而存在gi(yk)≤gj(yk),则: ai(k+1) = ai(k) + yk; aj(k+1) = aj(k) - yk al(k+1) = al(k),l≠j, i 重复上述过程,直到全部样本被正确分类为止。

两类问题的感知器网络 输入层的映射函数为线性函数,输出层为符号函数sgn(net)=1,net>0 -1,net<0 神经元模型是由McCulloch和Pitt于1943年提出的,而感知器训练算法是由Rosenblatt于1958年提出的。

多类问题的感知器网络 输出层也可以采用编码输出的方式,如2-4编码,3-8编码等。输出层的映射函数可以为线性函数,阈值函数或S函数,但效果均为线性映射。

两层感知器网络的训练样本 给定样本集合(y1,t1), (y2,t2), …, (yn,tn),其中yi为增广特征矢量,ti称为期望输出; c个输出层神经元时,可设定期望输出为: 第1类样本:(+1,-1,-1,-1) 第2类样本:(-1,+1,-1,-1) 第3类样本:(-1,-1,+1,-1) 第4类样本:(-1,-1,-1,+1) 编码输出时: 第1类样本:(-1,-1) 第2类样本:(-1,+1) 第3类样本:(+1,-1) 第4类样本:(+1,+1)

两层感知器网络的训练方法 可以采用最小均方误差算法,权值调整公式为: 其中A为权值矢量矩阵,ti为第i个样本yi 的期望输出矢量。

5.7 线性分类器的局限性 线性分类器的分类能力不强,能够很好地解决线性可分的问题,而对非线性可分的问题无法解决,如著名的异或问题: 1969年,Minsky等人指出。

解决途径 广义线性判别函数; 分段线性判别函数; 多层感知器; 核函数方法。

广义线性判别函数 增加特征的高次项,将低维特征转化为高维特征; 2维特征的二次判别函数。 异或问题问题的训练样本 (x1,x2,x1*x1, x2*x2, x1*x2) (0,0,0,0,0), (0,1,0,1,0). (1,0,1,0,0), (1,1,1,1,1)

XOR问题的二次函数解

广义线性判别函数的实质 广义线性判别函数的构造方法:首先将原始特征通过一个非线性映射,映射到一个高维空间,然后在高维空间中构造线性判别函数。

广义线性判别函数的问题 阶数问题:对于一个具体问题,很难确定判别函数的阶数; 维数问题:当原始特征维数较大时,会造成“维数灾难”;

分段线性判别函数(一)

分段线性判别函数(二) H1 H4 H2 H3

树形决策分类 第8章中详细介绍判定树的构造方法。