分享好友 最新动态首页 最新动态分类 切换频道
SVM(支持向量机)
2024-12-28 16:24

分隔超平面: 将数据集分隔开来的直线(推及三维空间,就是一个平面, 也就是分类的决策边界。在超平面一侧的数据属于某一类, 在另一侧的数据属于另外一类。

SVM(支持向量机)

  我们希望能采用这种方式来构建分类器,即如果数据点离决策边界越远,那么其最后的预测,结果也就越可信。多个超平面它们都能将数据分隔开,但是其中哪一个最好呢?是否应该最小化数据点到分隔超平面的平均距离?来求最佳直线如果是那样,是不是有点寻找最佳拟合直线的感觉? 是的,上述做法确实有点像直线拟合,但这并非最佳方案。我们希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面的距离被称为间隔°( margin)。我们希望间隔尽可能地大,这是因为如果我们犯错或者在有限数据上训练分类器的话,我们希望分类器尽可能的健壮。

1.2.1、分类器求解的优化问题

  前面已经提到了分类器,但还没有介绍它的工作原理。理解其工作原理将有助于理解基于优化问题的分类器求解过程。输入数据给分类器会输出一个类别标签 ,这相当于一个类似于Sigmoid的函数在作用。下面将使用类似海维赛德阶跃函数(即单位阶跃函数)的函数对作用得到,其中当u<0时f(u)输出-1,反之则输出+1。这和前一章的Logistic回归有所不同,那里的类别标签是0或1。这里的类别标签为什么采用 -1和+1 ,而不是0和1呢?这是由于1和+1仅仅相差-个符号,方便数学上的处理。我们可以通过一个统一公式来表示间隔或者数据点到分隔超平面的距离,同时不必担心数据到底是属于-1还是+1类。
  当计算数据点到分隔面的距离并确定分隔面的放置位置时间隔通过来计算,这时就能体现出-1和+1类的好处了。如果数据点处于正方向(即+1类)并且离分隔超平面很远的位置时, 会是一个很大的正数,同时 也会是一个很大的正数。而如果数据点处于负方向(-1类)并且离分隔超平面很远的位置时,此时由于类别标签为-1,则 仍然是一个很大的正数。
【注: 点到分割面的函数距离 , 是点到分割面的几何距离】

其约束条件

  至此,一切都很完美,但是这里有个假设:数据必须10%线性可分。目前为止,我们知道几乎所有数据都不那么“干净”。这时我们就可以通过引人所谓松弛变量(slack variable),来允许有些数据点可以处于分隔面的错误一侧。这样我们的优化目标就能保持仍然不变,但是此时新的约束条件则变为:

  这里的常数C用于控制“最大化间隔”和“保证大部分点的函数间隔小于1.0”这两个目标的权重。在优化算法的实现代码中,常数C是一个参数,因此我们就可以通过调节该参数得到不同的结果。一旦求出了所有的alpha,那么分隔超平面就可以通过这些alpha来表达。这一结论十分直接,SVM中的主要工作就是求解这些alpha。

1.3.1、Platt 的SMO算法

  1996年,John Platt发布了一个称为SMO”的强大算法,用于训练SVM。SM0表示序列最小优化( Sequential Minimal Optimization )。Platt的SMO算法是将大优化问题分解为多个小优化问题来求解的。这些小优化问题往往很容易求解,并且对它们进行顺序求解的结果与将它们作为整体来求解的结果是完全一致的。在结果完全相同的同时,SMO算法的求解时间短很多。
  SMO算法的目标是求出一系列alpha和b, 且求出了这些alpha,就很容易计算出权重向量w并得到分隔超平面。
  SMO算法的工作原理是:每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha,那么就增大其中-个同时减小另一个。这里所谓的“合适”就是指两个alpha必须要符合一定的条件, ,条件之- -就是这两个alpha必须要 在间隔边界之外,而其第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。

1.3.2、简化版SMO算法

最新文章
策划计划(专业5篇)
一、庆典背景:电子信息工程系青年志愿者协会与计算机系青年志愿者协会历经三年的风雨征程。在这段岁月里,我们承受了辛苦与疲惫,但也收获了成长与成果。今天,我们的付出终于得到了各级领导的肯定,成绩的背后是无数的努力和坚持。回顾这
重大.来袭“个中至武宁双扣万能开挂器免费”必胜开挂神器
有 亲,根据资深记者爆料有没有微乐开挂成功的,确实有挂您好,微乐家乡麻将,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实
实用的在线网站
  目录 文档类 1. 轻松玩转PDF 2. Convertio:在线的文件转换器 3. CleverPDF 4. vvv文档在线导出工具 5. 微信公众号格式化编辑器 6. Process On:免费在线作图,实时协作 7. ALL TO ALL(在线格式转换) 8
刚建立了新网站但是排名一直不能上去站内优化要怎么弄啊还有怎么
站内优化核心要点1. 内容质量:高质量的内容是吸引用户和提升排名的基石。确保网站内容原创、有价值、与目标用户需求紧密相关。定期更新内容,保持网站的活跃度和新鲜感。  2. 关键词优化:合理布局关键词,确保关键词密度适中,提高网站
指数高的词要怎么做关键词优化?
做过seo优化的朋友们应该都会遇到这个特别难办的问题,对于一个高指数的词排名该怎样去做呢,由于这些词的竞争是比较激烈,上到首页排名的时间会比较久。维护起来的成本也是比较高的,对于一些想要做热门词的新站来说是很难的。下面本篇文
策略报告 | 丰产预期,替代品挤压饲用需求 玉米期价波动区间下移
要点:下游企业以按需采购为主,控制采购节奏。市场关注国储及进口玉米竞拍、超期水稻投放,下游企业收购动态,饲料企业使用替代品比例,新玉米上市情况等。玉米深加工需求平淡。饲料需求偏弱。下游企业普遍有降库操作,库存需求减弱。2024
搜狗百科(如何)怎么创建词条:共建知识的在线平台
搜狗百科(如何)怎么创建词条:共建知识的在线平台搜狗百科是一个开放式的在线知识平台,允许每个人参与内容的创建与编辑,类似于一个线上版的百科全书。无论你是对科普知识感兴趣,还是想了解历史事件、人物传记或艺术作品,这里都能为你
懒人建站工具过时了?试试这6个WordPress主题,1小时实现高效建站
懒人建站工具,凭借简单易用、快速上手和个性化定制的特点,为不熟悉代码和程序的人提供了搭建美观实用网站的便捷途径。无需专业的前端开发知识,无需雇佣专业开发人员,用户便能轻松实现网站搭建,满足个人
“社区助老课堂”开课!常熟市碧溪街道聚福苑社区开展老年人反诈骗与智能手机培训活动
转自:扬子晚报近日,常熟市碧溪街道聚福苑社区借“社区助老课堂”这一窗口,开展老年人反诈骗及智能手机培训活动,旨在让老年人群体更好适应使用智能手机,同时增强老年人反诈意识与能力。本次培训,志愿者首先讲解了主流智能手机的基础应
抖音小店售前售后客服怎么 外包?
电商平台中,无论是买家还是卖家,我们接触多的就是客服。我们来了解一下客服的分类。总共分为售前、售中和售后客服。在这3类客服中,提高转化率重要的是售前客服。  我们可以看到,售前客服的工作有应答、确认订单、礼貌告别3个环节。这
相关文章
推荐文章
发表评论
0评