分享好友 最新动态首页 最新动态分类 切换频道
文本生成纠错指标
2024-12-28 17:43


文本生成纠错指标

此篇博客记录Scene text detection深度学习相关论文笔记。
Ref:Scene Text Detection and Recognition: The Deep Learning Era
世界没有一定…才能…,just do it.

FCN

是一种semantic segmentation深度学习方法。

特点
  • 使用不同的backbone networks进行实验
  • 卷积化,将fully connected layers全部换成卷积,以使得可以处理任意size的输入
  • 使用固定参数(FYI:bilinear interpolation且学习率为0)的transposed convolutions实现将最终的输出还原回input尺寸,通道维表示各个类别的预测
  • 使用skip architecture进行fuse coarse information and fine information提高IU值,分别有FCN8s、FCN16s、FCN32s三种架构。其中FCN32s最终输出由最后的卷积层32 X upsampling得到;FCN16s是使用最后的卷积层2 X upsampling加上pooling 4的外加一层预测卷积的输出,然后进行16 X upsampling得到FCN16s的最终输出;FCN8s是使用FCN16s的1/16的加和的2 X upsampling加上pooling 3的外加一层预测卷积的输出,然后进行8 X upsampling得到FCN8s的最终dense预测输出。显然FCN8s获得最好效果,相对FCN16s提高很小,所以作者并没有继续使用FCN4s
  • end-to-end training
  • fine-tune
缺点

对于fine detail 处理并不是很好。

深入浅出SVM

在DSN论文中使用了SVM,SVM在DL也有应用,之前并没有怎么深入理解,趁着这篇论文的契机,重新捡起来。this section参考了李航的《统计学习方法》。

some mathematic conceptions

从数学角度谈谈自己对超平面的理解。

各种SVM
linear support vector machine in linearly separable case with hard margin maximization
linear support vector machine with soft margin maximization
non-linear support vector machine with kernel method and soft margin maximization
感知机与SVM的区别

HED Edge Detection Algorithm

multi-scale and multi-level learning

最初接触multi-scale learning是在学习SSD的时候,在SSD中multi-scale的object可以通过backbone网络后的各个多尺度检测块进行检测和学习。在HED论文中,作者对multi-scale和multi-level learning进行了总结,例如multi-scale learning可以用神经网络本身的学习过程(i.e. multiscale receptive field or multiscale feature representations learned by each layer)和multiscale input image来解释。

接下来,作者将常见的multi-scale deep learning architectures分为了4个类型:

  • multi-stream architecture:典型特征是创建多个streams,多个streams使用不同的参数,拥有不同的感受野,对应了multi-scale,最后将这些输出进行concat,然后传入最后的输出层产生最终的结果。
  • skip-layer network learning:典型特征是使用single stream,提取单一single stream中的不同层的feature maps,然后将他们合并,典型代表就是FCN网络,从某种意义上经典的特征提取网络FPN网络也是用了这样的结构。这个architecture和上面的architecture都是得到single prediction,这与一般流行的边检测算法不一致。
  • single model on multiple inputs:基于multiple scaled input images和单个网络,在训练时,相当于使用了图像增强技术进行训练,在测试时多次的前向传播,效率极低。
  • training independent networks:它是第一种architecture的变形,这里将训练多个独立的网络,不同的网络使用不同的depth以及得到不同的prediction。但是效率同样很低。
  • holistically-nested networks:正如前面所述,大量的重复计算使得现存方法效率不高,这里提出的方法和方法2(例如:FCN)很相似,都是利用了单一神经网络不同层学习的多尺寸特征。利用single stream network中各个层产生side outputs,如果需要可以将这些side outputs做一个fusion操作,最终的最优结构结合了side outputs的平均和fusion结果。
  • 作者为了解决high-level side output layer造成的梯度爆炸问题,以及提高模型的能力和鲁棒性,使用了多个标注器,至少3个annotators标注一个pixel为positive时,这个pixel才被标记为positive class,其余都是negative class。
  • 作者也使用了image augmentation技术,将一个图片经过一些变换,得到32张图片。在测试时,使用这32张图片的预测结果的平均值作为test image的prediction并没有提高表现,所以作者在执行test时,就只是使用原始图片。
  • poolling function对edge detection result影响较大
  • 与FCN网络相似,这里作者也使用bilinear上采样得到original image size的side output,且上采样的weights是被固定为bilinear interpolation参数即学习率为0。在FCN论文中作者指出可以使用learned deconvolution(虽然FCN代码并没有learn deconvolution weights),但是这篇文章中作者在采用learned deconvolution layer时并没有获得显著的模型能力提升。
  • HED结合了FCN(存在于HED的fusion过程,但FCN和HED的fusion处理过程是有点不同的)和DSN(存在于side output supervision,这是和FCN的single loss function完全不同的)技术,作者实验中比较了FCN8s和FCN2s(换成了cross entropy loss function)、HED without DSN,结果都比HED with DSN差,原因主要是作者将每一个网络层及其之前的层看作一个单独的network,对应的side output loss是这个network的损失函数,这样每一个side output network能够依靠损失函数优化对应scale的edge map。而且经过实验,在HED without DSN框架,由于没有对side output的控制即损失函数的引导,仅仅有最后的loss function,它更加关注large structure edge,所以一些存在于lower layer的关键的edge就缺失掉了,效果下降。下面展示一个example result:(来源于作者Github源码example页面,上面是fusion output 和 下面是五张side outputs)
  • 在测试时直接使用fusion output作为prediction或者是所有outputs的平均。

总结:无论哪一种方法,我们都是基于了neural network本身的nature即hierarchical learning,利用这个nature我们能够设计得到各种architectures,这些architectures能够进行multi-scale预测。更进一步,我们并不能用feature map的size去表现multi-scale,更加根本地应从receptive field size去表现,因为即使feature map size与原图保持一致,而感受野可以很大。我们要实现multi-scale学习,可以尝试创建更大的感受野feature map,然后基于这些multi-scale receptive field maps去进行multi-scale object detection,像SSD算法、FPN、Mask-RCNN等都是这样做的。

Training & Testing

隐藏层的监督可以提高结果表现。

因为target set中标签分布的不均匀,为了进行平衡,作者使用了一种简单的cost-sensitive loss function for per-pixel,即weighted cross-entropy loss function,使用负类和正类所占比例作为权值。损失函数是建立在side-outputs和fusion output与target set的差别上的。

Comparing FCN with HED about architecture

HED与FCN相比,相同点:

  • 都使用了单一神经网络的各个层学习的特征组合得到最终结果
  • 在这些层后面加上额外的1x1卷积然后进行transposed convolution
  • 都使用了额外的1x1卷积改变中间层的输出通道为类别数
  • 在上采样部分依然使用了bi-linear采样初始化,

不同点:

  • 被transposed convolution的层不一致,HED用的是卷积层输出且在层数方面使用的深度范围更深
  • 与FCN8s相比,HED分别对每一层额外卷积输出结果直接transposed convolution到input image shape,然后concat这些结果,组成5通道的输出,然后传入一个卷积层输出fuse的结果(同样为单通道),接着将这个fuse结果和其他的side output 进行concat,最后对这个结果使用激活函数作为输出。而FCN8s是将最后一层的输出进行2x transposed convolution,然后加上pool4额外卷积输出,再进行2x transposed convolution, pool3同样的道理

Regard text detection as semantic segmentation problem

由于前面很多的工作是在local region进行搜索text,而且几乎所有的前面的工作都是检测horizontal or near-horizontal的text,忽略了non-horizontal区域

Features
  • 使用FCN网络进行holistic的预测,不再基于局部(基于整个图片进行预测),能够有效地利用contextual information,抑制false positives
  • 能够解决non-horizontal predict
  • 当两个文本行距离太近的时候,作者在论文中提到简单地使用两分类的语义分割器,将导致分割的结果是粘连在一起的,意味着这样的语义分割器很困难去单独识别每一个文本行,直接使用语义分割技术是不足够用于文本检测任务的。作者解决这个问题是通过除了考虑text region location,还考虑了单个character的中心和尺寸以及相邻characters的linking orientation;

Ref

[1] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In Proc. of CVPR, 2015.
[2] C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeply- supervised nets. In AISTATS, 2015.

最新文章
掌如科技服务有限公司
掌如科技服务有限公司
运动鞋seo推广(运动鞋推广方案)
大家好,今天小编关注到一个比较有意思的话题,就是关于运动鞋seo推广的问题,于是小编就整理了3个相关介绍运动鞋seo推广的解答,让我们一起看看吧。如何通过SEO使得自己的品牌词成为热门词?在阿里巴巴大家的标题都怎么写?直通车快证技巧
汕头屋顶漏水维修电话〈免费上门〉汕头屋顶防水补漏师傅
不砸砖、不砸墙;免砸砖防水补漏技术,2小时快速解决漏水问题,超长保修期。漏水维修服务项目:防水堵漏、楼顶裂缝漏水、厨房间漏水、外墙渗水、卫生间墙面渗水、楼顶漏水、屋面防水补漏、建筑防水、飘窗防水、卫生间漏水、阳台漏水、防水查漏
奇骏玻璃一键升降激活方法是什么
汉兰达后减震多久换一次没有固定标准。一般来说在正常驾驶条件下1012 万公里左右更换但这不是绝对的。驾驶环境、习惯以及维护保养情况都会影响其更换周期。
如何修复 WordPress 白屏死机
WordPress 白屏死机是最常见的 WordPress 错误之一。没有任何的消息提示,被锁定在 WordPress 网站外面。死机白屏错误的另一个问题是,有时它只会影响网站的某个部分。例如,可能只会在 WordPress 管理区域内看到死机白屏,而其他的不受影
亚马逊云代理商:服务器 主机 客户
随着互联网技术的迅速发展,云计算已经成为现代企业在信息化时代中不可或缺的一部分。在众多云计算平台中,Amazon Web Services(简称AWS)凭借其强大的功能和全球领先的技术,成为了世界各地企业的首选云服务提供商。AWS提供的云服务不仅
应用服务器的未来:探索尖端创新和趋势 (应用服务器的作用)
应用服务器是介于客户端设备和数据库之间的软件平台,负责处理客户端请求、执行业务逻辑和管理数据访问。DevOps实践和自动化工具正在缩小开发和运维团队之间的差距,加快应用程序的交付。 应用服务器集成了DevOps工具,简化了部署、配置和
游戏优化大师 3.9
游戏优化大师是为游戏体验而生的通用游戏化工具。具有自主专利的内存,CPU和网络动态管理技术。帮您智能解决游戏时的卡机、停顿、内存不足等问题,简单到只需按下“开启游戏模式”即可立即优化。 游戏优化大师2.8 Beta(8843)版本2012.11.22
"乐博乐博"引领编程教育革新 —— 人工智能与机器学习的应用探索
在这个科技飞速发展的时代,人工智能(AI)与机器学习(ML)正逐步成为教育领域的强大助力。特别是在编程教育这一关键领域,"乐博乐博"品牌紧跟时代步伐,将AI与ML技术融入教学之中,为学生们打开了通往未来科技的大门。以下,我们将探讨人工智
明星杂志销量排行榜_国内明星杂志
1、谁知道中国杂志的销量排行榜?2、中国最畅销杂志排名3、全球十大杂志排行榜4、orange橘子杂志简介5、ELLE品牌简介6、gq杂志销量排行榜2、第一名是知音漫客,第二飒漫画,第三神漫,第四飒漫乐画,第五漫画世界。希望采纳。3、中国流行杂
相关文章
推荐文章
发表评论
0评