JIzp Blog

「十步之内 必有芳草」

视频硬字幕提取

OCR字幕提取

视频硬字幕提取 工具链接:YaoFANGUK/video-subtitle-extractor: 视频硬字幕提取,生成srt文件。无需申请第三方API,本地实现文本识别。基于深度学习的视频字幕提取框架,包含字幕区域检测、字幕内容提取。A GUI tool for extracting hard-coded subtitle (hardsub) from videos and gener...

Text Image Super-resolution

Text Image Super-resolution Survey

Text Image Super-Resolution 年份 标题 介绍 2015 Image Super-Resolution Using Deep Convolutional Networks 第一个把深度学习用在超分任务中的工作 ...

Blueprint Separable Residual Network

Blueprint Separable Residual Network for Efficient Image Super-Resolution

Blueprint Separable Residual Network for Efficient Image Super-Resolution 这篇文章由深圳市计算机视觉与模式识别重点实验室撰写,发表在2022CVPRW。 标题:蓝图可分离残差网络的高效图像超分辨率 链接:CVPR 2022 Open Access Repository (thecvf.com) 代码链接:h...

CDFormer

CDFormer: When Degradation Prediction Embraces Diffusion Model for Blind Image Super-Resolution

CDFormer: When Degradation Prediction Embraces Diffusion Model for Blind Image Super-Resolution 这篇文章由南京航空航天大学撰写,发表在2024CVPR。 链接:CVPR 2024 Open Access Repository (thecvf.com) 代码链接:https://githu...

Docres

DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks

DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks 这篇文章由华南理工大学撰写,发表在2024CVPR上。 标题:文档图像恢复任务的通用模型 链接:CVPR 2024 Open Access Repository (thecvf.com) 代码链接:[ZZZHANG-jx/DocR...

MultiDiffusion

Diffusion改进

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation 标题:用于控制图像生成的融合扩散路径 链接:[MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation OpenRev...

文档撰写

文档撰写总结

文档撰写 前段时间写了一个文档,做个总结。 我个人认为,文章撰写过程中格式最重要,在很多时候格式的重要性远大于内容(写论文除外),一般而言没有人能够很认真的一行一行去看你的文档。在撰写过程中字体、行间距、段落、图表这些都需要按照要求进行排版。 英文字体不一致的问题。我确实知道一般汉字用宋体英文用新罗马,但是还是出现了英文字体不一致的问题。 因为我调整格式的...

AccDiffusion

An Accurate Method for Higher-Resolution Image Generation

AccDiffusion: An Accurate Method for Higher-Resolution Image Generation 这篇文章由厦门大学多媒体可信感知与高效计算教育部重点实验室撰写,目前还在arxiv上。 标题:AccDiffusion:一种高分辨率图像生成的精确方法 链接:https://arxiv.org/html/2407.10738v1 代码链接...

DiffTSR

IDM,TDM,MoM

Diffusion-based Blind Text Image Super-Resolution 简介 标题:基于扩散模型的盲文本图像超分辨率 论文链接:CVPR 2024 Open Access Repository (thecvf.com) 代码链接:https://github.com/YuzheZhang-1999/DiffTSR 核心思想: 文章中提出了两种扩散模...

DOCLAYOUT-YOLO

文档布局分析

DOCLAYOUT-YOLO: ENHANCING DOCUMENT LAY-OUT ANALYSIS THROUGH DIVERSE SYNTHETIC DATA AND GLOBAL-TO-LOCAL ADAPTIVE PERCEPTION(DOCLAYOUT-YOLO:通过多样化的数据和全局到局部的自适应感知增强文档布局分析) DIVERSE DOCSYNTH-300K DATA...