Text Image Super-Resolution

年份	标题	介绍
2015	Image Super-Resolution Using Deep Convolutional Networks	第一个把深度学习用在超分任务中的工作
2015	Boosting Optical Character Recognition: A Super-Resolution Approach	第一个把深度学习用在文本图像超分任务中的工作
2018	Binary Document Image Super Resolution for Improved Readability and OCR Performance	第一个二值化的文本图像超分辨率工作
2019	TextSR: Content-Aware Text Super-Resolution Guided by Recognition	第一个专门研究文本超分辨率的工作、利用GAN
2020	Scene Text Image Super-Resolution in the Wild	第一个场景文本超分辨率的真实数据集
2021	Scene Text Telescope: Text-Focused Scene Image Super-Resolution	利用Transformer
2021	Text Prior Guided Scene Text Image Super-Resolution	利用OCR模型
2022	Blueprint Separable Residual Network for Efficient Image Super-Resolution	量化
2023	Diffusion-based Blind Text Image Super-Resolution	利用Diffusion
2024	Scene Text Image Super-Resolution with CLIP Prior Guidance	利用CLIP
2024	Pragmatic degradation learning for scene text image super-resolution with data-training strategy	预训练、微调

Image Super-Resolution Using Deep Convolutional Networks

年份：2015

期刊/会议：IEEE Transactions on Pattern Analysis and Machine Intelligence

单位：香港中文大学

标题：基于深度卷积网络的图像超分辨率

GPU：

介绍：超分的开山之作，使用三层卷积神经网络实现超分，第一层实现特征提取，第二层实现映射，第三层重建。

个人理解：使用卷积操作来替代稀疏编码SR的映射操作。

Boosting Optical Character Recognition: A Super-Resolution Approach

年份：2015

期刊/会议：arxiv

单位：香港中文大学

标题：提升光学字符识别：一种超分辨率方法

GPU：

介绍：采用模型组合策略进行比赛。贪心算法。

个人理解：比较重视调参，贪心算法是一种比赛策略。

Binary Document Image Super Resolution for Improved Readability and OCR Performance

年份：2018

期刊/会议：arxiv

单位：

标题：用于提高可读性和OCR性能的二值文档图像超分辨率

GPU：

介绍：第一个二值化的文本图像超分辨率工作，这项工作旨在通过在线创建电子文本版本来保护古代泰米尔文学。提出了全新衡量的标准，用ocr模型来识别超分后的图像，用ocr的准确率来衡量超分的效果。

Convolution-Transposed Convolution Model

Parallel Stream Convolution Model

CTC-Sub-pixel Convolution Model

TextSR: Content-Aware Text Super-Resolution Guided by Recognition

年份：2019

期刊/会议：arxiv

单位：同济大学

标题：基于识别引导的内容感知文本超分辨率

GPU：4 * Tesla M40

介绍：第一个专门研究文本超分辨率的工作。结合了超分辨率网络和文本识别网络。把GAN和ASERT结合。使用ASERT来计算TPL（文本感知损失）。把文本感知损失、内容损失和对抗损失联合优化。

损失

个人理解：核心在于损失函数。

Scene Text Image Super-Resolution in the Wild

年份：2020

期刊/会议：ECCV

单位：商汤

标题：自然场景文本图像超分辨率

GPU：4 * NVIDIA RTX 1080Ti

介绍：这项工作制作了一个场景文本超分辨率的真实数据集TextZoom（以往LR图像是合成的，这个数据集LR也是相机拍摄的）。

引入了梯度的损失

Scene Text Telescope: Text-Focused Scene Image Super-Resolution

年份：2021

期刊/会议：CVPR

单位：复旦大学

标题：

GPU：4 * NVIDIA TITAN Xp

介绍：引入了STN网络对图像进行预处理（把字体变正），引入了transformer，

损失函数：

个人理解：混淆系数、损失函数是最大亮点。

Text Prior Guided Scene Text Image Super-Resolution

年份：2021

期刊/会议：IEEE TRANSACTIONS ON IMAGE PROCESSING

单位：香港理工大学

标题：文本先验引导的场景文本图像超分辨率

GPU：NVIDIA RTX 2080Ti

介绍：首次将文本识别模型带入进文本图像超分领域。通过文本概率（CRNN）的指导来生成更好的高分辨率图像。通道维度拼接。使用双三次插值。给文本概率分支也设置了一个损失函数。

提出了一个多阶段（三）策略非常有意思。

个人理解：可以说是具有划时代意义的工作，后续的绝大部分工作都在模仿。大部分工作中的SR模块都是把以前的工作直接拿过来用的。

Blueprint Separable Residual Network for Efficient Image Super-Resolution

年份：2022

期刊/会议：CVPRW

单位：深圳市计算机视觉与模式识别重点实验室

标题：用于高效图像超分辨率的蓝图可分离残差网络

GPU：2 * GeForce RTX 3090

介绍：通过替换卷积核来实现量化。

核心就在于做了空间层面和通道层面的解耦。（如果输入：3 * 3 * 3;对于普通卷积：3 * 3 * 3 * 4;对于解耦后的卷积：3 * 3 * 3,1 * 1 * 3 * 4）

个人理解：主要是利用深度可分离卷积进行参数减少。

Diffusion-based Blind Text Image Super-Resolution

年份：2023

期刊/会议：CVPR

单位：北京理工大大学

标题：基于扩散的盲文本图像超分辨率

GPU：

介绍：利用transformer来提取文本先验，作为条件传入扩散模型。

个人理解：将transformer的重复过程解释为文本扩散。

Scene Text Image Super-Resolution with CLIP Prior Guidance

年份：2024

期刊/会议：ICPR

单位：印度海得拉巴大学

标题：基于CLIP先验引导的场景文本图像超分辨率

介绍：微调CLIP（使用TextZoom对CLIP微调），

const是一个矩阵，值全为1（或者其他），用来作为StyleGAN2的输入。

AdaInN实际上是一个特征融合模块计算公式如下：

TP-Guided SR Block:通道维度拼接，然后进行投影。

引入了一个新的loss：

个人理解：将CLIP、GAN和目前已有的STISR融合构建一个新的SR网络，计算损失时注意到了文本识别的损失。

Pragmatic degradation learning for scene text image super-resolution with data-training strategy

年份：2024

期刊/会议：Knowledge-Based Systems

单位：浙江科技大学

标题：针对场景文本图像超分辨率的实用退化学习与数据训练策略

介绍：目前大部分数据集一般基于双三次下采样、单一的模糊核、单一的加噪过程，无法模拟真实世界各种各样的情况。文章解决了退化模型使用的退化过程与真实图像退化过程不匹配的问腿。这项工作使用各向同性高斯模糊核和各向异性高斯模糊核以扩展模糊核的适用性；引入常见的 JPEG 压缩噪声、泊松噪声、高斯噪声以及散斑噪声来减少这种负面影响；对HR图像随机生成多种不同退化程度的LR图像。

个人理解：这项工作提出一个三阶段策略，使用了合成数据集进行大规模训练，最后使用真实数据集进行微调。由于合成数据集模拟了大部分可能的降质情况，理论上通过预训练的超分模型只需要微调就可以在大部分数据集上使用。