由于目前端到端模型较少,并且训练难度大,故采取拆分的方式。将任务分为检测,识别 两部分。
考虑到我们机场检测大部分场景难以达到正视效果,故优先采取可以检测斜体的方法。
- 仓库地址
tensorflow
实现,提供训练好的模型以及训练脚本。 - 训练 数据可以使用vgg生成(生成好的有
800万
),在有一定学习能力之后进行finetune,finetune需要使用我们的数据。 - 缺点 对于不连续的文字识别效果差。
- 速度 MSRA数据集上(分辨率从
1296x864
到1920x1280
)可以达到10fps
左右。
- 仓库地址
tensorflow
实现,提供训练好的ICDAR
模型以及训练脚本。 - 训练同seglink
- 速度
1080ti 16fps
。
- 仓库地址
caffe
实现,提供训练好的模型但不提供训练脚本。 - 缺点 水平文字识别,不能识别斜体,我修改源代码后可以实现将预测框变为倾斜框。但bounding box可能会有些松。
- 速度 在
gtx980
上分辨率max(wdith,height)=1000
的图片5fps
。
- 仓库地址
caffe
实现,提供训练好的ICDAR
模型以及训练脚本。 - 训练同seglink
- 缺点 水平文字,但是作者与
CRNN
结合完成定位+识别方案。 - 速度 大致
10fps
。
- 仓库地址
- caffe实现。
- tensorflow提供训练好的模型以及练脚本。
- 仓库地址
tensorflow
实现,提供模型。 - 猜测速度比较慢。
在该方案中,server
端使用python
进行服务,原因为caffe
,tensorflow
均提供python
接口,python
也可以使用FLASK
提供web
服务,robot
小车使用opencv
截取图片后使用request
发送post异步请求
即可。时间设置为每秒发送一次。