0. 前言
在这篇论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》所讲述的内容便是大名鼎鼎的CRNN网络,中实现了端到端的文本识别。
论文地址
Github地址
该网络具有如下的特点:
1)该模型可以直接识别序列数据,既是包含了多个文字的图片数据
2)该模型具有与DCNN直接从原始图像数据学习的能力,并不需要人工进行3)任何诸如分割等的预处理操作。
4)具有与RNN类似的属性,产生序列标签
5)CRNN并不需求序列的长度固定,只要输入数据的高度一致便可以了
6)该模型取得的效果比之前的方法都要好
7)相比DCNN具有更少的参数,模型的尺寸更小
1. 网络的架构
可以看出该网络是由三个主要部分组成的:卷积层、循环层、转录层。这三个部分的作用为,卷积对图像进行卷积操作提取出图像的深层特征;循环层产生特征序列