场景文本图像超分辨率
场景文本图像超分辨率分为:场景、文本、图像、超分辨率,一一解释。
场景
这里的场景指的是自然生活中的图像,这个领域的数据集大致分成两大类,一是真实数据集,再一个是合成数据集。
- 真实数据集一般指直接使用设备拍摄的数据集,真实数据集中的低分辨率图像时通过相机变焦得到的
- 合成数据集的高分辨率图像是直接用设备拍摄的,但是合成数据集中的低分辨率图像时通过程序对原图加入噪声、下采样得到的。
场景就是使用真实数据集。(目前大家都使用一个叫做TextZoom的数据集)
文本
文本就是文字,超分这个领域也会划分很多小领域,我个人觉得最明显的区分方式就是有没有文字。当图片上有文字的时候,普通超分时很难维持文字原有的特征的甚至于会破坏原有的文字,我们在超分时结合文本特征就会好很多。
图像
图像就是图片咯。
超分辨率
超分辨率就是让原来的图像变清晰,分辨率变高。
这个任务输入是低分辨率图像,输出是高分辨率图像,GT就是原有的高分辨率图像。
该领域目前状况
我个人观点
目前文本图像的超分还是有很大进步空间的,从2015年在超分任务中首次使用深度学习至今已经接近10年,目前来看效果不明显。
-
Previous
Github pages 的 workflow 突然运行失败 -
Next
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution