BaiXiang——【CVPR2012】Detecting Texts of Arbitrary Orientations in Natural Images

如上图所示，(a)为两种模板。上面是只有一种半径，一个扇形区域（整个圆），下面是有两种半径，共八个扇形区域（4个小的，4个大的）。每个扇形区域单独计算直方图（边缘，轮廓，占比），然后把每个区域的直方图串起来作为整个图的特征。(b)为在一个原图上叠加一种模板的示例图。(c)图为轮廓图上叠加两种模板的示例图。(d)为边缘图上叠加两种模板的示例图。(e)为二值图上叠加模板的示例图。
实际计算特征（比如，边缘特征）的时候，第一，先利用Camshift计算出每个连通分量的质心，尺度（最大轴与最小轴的和），方向（角度）；第二，各种梯度方向都按照第一步求出的方向进行旋转（为了和模板对齐），并归一到[0,Π]上；第三，将模板中心固定在质心上，模板半径为尺度的大小，统计模板上每个sector的（轮廓形状，边缘形状，占比）直方图，并把每个sector的直方图串起来形成特征向量。

技术分享

图4. 组件级噪声过滤（组件分析）的效果，(e)图为规则过滤，(f)为分类器过滤，经过两层过滤后大部分非文字的组件都被过滤掉了

- 候选区域连接
  - 两两组队pair（相似性度量：笔画宽度，大小，颜色，距离；设定阈值范围）
  - 聚类
    1. 至少包含一个公共组件
    2. 相似性度量：方向一致，群体一致（组件个数差异小）

技术分享

- - - - 公式(1)中的S_o表示的是方向一致性，C₁和C₂是两个不同的chain，初始每个chain就是由两个相似组件得到的一个pair，γ(C₁,C₂)表示的是C1和C2之间的夹角（每条chain利用线性最小二乘法拟合出一条直线。两个chain的夹角就表示这两条直线间的夹角）。S_o是保证要聚类的两个chain的方向尽可能一致。
      - 公式(2)中的S_p表示的是群体一致性，n_C1是C₁中组件的个数。S_p是保证要聚类的两个chain的个数差异不要太大。
      - 公式(3)中的S是总的相似性度量的标准，是S_o和S_p的加权求和。每次要聚类时都是选择使得S最大的两个chain进行合并，这样采用自底向上进行合并的方式可以适用于任意方向，而不单纯是水平（或近似水平），甚至可以处理竖直，斜线的，更重要一点是，把在阈值范围内可能形成直线的组合都找的出来。如图5所示。

技术分享

图5. 候选区域连接的效果，不但找到了PRIVATE，CAR等水平的，还找出了PCO，PRL这样的潜在的组合

技术分享

- - - 上图中(c)所示，G和D分别为groundTruth和detection的bounding box。由于两个都是斜的，直接计算交并比意义不大，故先求出两个box的角度（相对于水平方向的旋转角度），并将其转至水平，如图中的虚线图G‘和D‘，再通过计算G‘和D‘的交并比来判断。
    - 检测正确的标准是：（1） G和D的旋转角度差的绝对值小于Π/8；（2）G‘和D‘的交并比大于0.5；

创新点和贡献
- 解决的问题角度新：从一般的水平或近水平文字检测到任意方向的文字检测（直线）
- 提出了两级分类机制，尤其是其中的字符特征：组件级特征与链级特征
- 介绍了专门用来检测任意方向的文字的新的MSRA-TD数据库：针对任意方向的文字检测的数据库，切提出了新的评价标准
实验结果
- ICDAR03, detection：

技术分享

技术分享

技术分享

问题讨论
- 为什么文中的方法可以用来检测各种方向的文字？
  - 特征的旋转不变性，尺度不变性；
  - 字符链形成算法比较通用，适用于各种方向，不一定是水平或者竖直。
- 组件级分类器正样本怎么获得？（MSRA-TD库上只有链级的标注）
- 链级分类器的正样本怎么获得？（ICDAR03库上最多只有单词级标注，没有包含多个单词的链级样本，是否采用简单规则先把groundTruth进行合并？）
- mini area rectangle的原理？（如何从四个点得到一个包含这四个点的最小面积矩形？）
- 长轴和短轴指的是字符的竖直和水平？（不是对角线？）
- 如何用Camshift得到质心，方向，和长短轴？
总结与收获点
- 这篇做文字检测的方法思路很传统，从字符到字符串，然后给字符和字符串分别用一个分类器过滤噪声。比较有用的有三点，第一，整理的这些字符特征都是人工，经验得到的，简单有效；第二，字符链的形成算法有一定借鉴意义；第三，新的数据库和评价标准成为了后来检测多方向的主流。

论文阅读（BaiXiang——【CVPR2012】Detecting Texts of Arbitrary Orientations in Natural Images）

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

目录