Skip to content

Latest commit

 

History

History
54 lines (33 loc) · 2.4 KB

solver.md

File metadata and controls

54 lines (33 loc) · 2.4 KB

检测方案

由于目前端到端模型较少,并且训练难度大,故采取拆分的方式。将任务分为检测识别 两部分。

检测

考虑到我们机场检测大部分场景难以达到正视效果,故优先采取可以检测斜体的方法。

  1. 仓库地址 tensorflow实现,提供训练好的模型以及训练脚本。
  2. 训练 数据可以使用vgg生成(生成好的有800万),在有一定学习能力之后进行finetune,finetune需要使用我们的数据。
  3. 缺点 对于不连续的文字识别效果差。
  4. 速度 MSRA数据集上(分辨率从1296x864到1920x1280)可以达到10fps左右。

EAST

  1. 仓库地址 tensorflow实现,提供训练好的ICDAR模型以及训练脚本。
  2. 训练同seglink
  3. 速度 1080ti 16fps

CTPN

  1. 仓库地址 caffe实现,提供训练好的模型但不提供训练脚本。
  2. 缺点 水平文字识别,不能识别斜体,我修改源代码后可以实现将预测框变为倾斜框。但bounding box可能会有些松。
  3. 速度gtx980上分辨率max(wdith,height)=1000的图片5fps

TextBoxes

  1. 仓库地址 caffe实现,提供训练好的ICDAR模型以及训练脚本。
  2. 训练同seglink
  3. 缺点 水平文字,但是作者与CRNN结合完成定位+识别方案。
  4. 速度 大致10fps

识别

类CRNN方法

  1. 仓库地址

Attention based

  1. 仓库地址 tensorflow实现,提供模型。
  2. 猜测速度比较慢。

集成方案

初步定为server的形式。topo

在该方案中,server端使用python进行服务,原因为caffetensorflow均提供python接口,python也可以使用FLASK提供web服务,robot小车使用opencv截取图片后使用request发送post异步请求即可。时间设置为每秒发送一次。