检测方案

由于目前端到端模型较少，并且训练难度大，故采取拆分的方式。将任务分为检测，识别两部分。

检测

考虑到我们机场检测大部分场景难以达到正视效果，故优先采取可以检测斜体的方法。

seglink

仓库地址 tensorflow实现，提供训练好的模型以及训练脚本。
训练数据可以使用vgg生成(生成好的有800万)，在有一定学习能力之后进行finetune，finetune需要使用我们的数据。
缺点对于不连续的文字识别效果差。
速度 MSRA数据集上（分辨率从1296x864到1920x1280）可以达到10fps左右。

EAST

仓库地址 tensorflow实现，提供训练好的ICDAR模型以及训练脚本。
训练同seglink
速度 1080ti 16fps。

CTPN

仓库地址 caffe实现，提供训练好的模型但不提供训练脚本。
缺点水平文字识别，不能识别斜体，我修改源代码后可以实现将预测框变为倾斜框。但bounding box可能会有些松。
速度在gtx980上分辨率max(wdith,height)=1000的图片5fps。

TextBoxes

仓库地址 caffe实现，提供训练好的ICDAR模型以及训练脚本。
训练同seglink
缺点水平文字，但是作者与CRNN结合完成定位+识别方案。
速度大致10fps。

识别

类CRNN方法

仓库地址
- caffe实现。
- tensorflow提供训练好的模型以及练脚本。

Attention based

仓库地址 tensorflow实现，提供模型。
猜测速度比较慢。

集成方案

初步定为server的形式。

在该方案中，server端使用python进行服务，原因为caffe，tensorflow均提供python接口，python也可以使用FLASK提供web服务，robot小车使用opencv截取图片后使用request发送post异步请求即可。时间设置为每秒发送一次。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

solver.md

solver.md

检测方案

检测

seglink

EAST

CTPN

TextBoxes

识别

类CRNN方法

Attention based

集成方案

Files

solver.md

Latest commit

History

solver.md

File metadata and controls

检测方案

检测

seglink

EAST

CTPN

TextBoxes

识别

类CRNN方法

Attention based

集成方案