JIzp Blog

「十步之内 必有芳草」

DOCLAYOUT-YOLO

文档布局分析

DOCLAYOUT-YOLO: ENHANCING DOCUMENT LAY-OUT ANALYSIS THROUGH DIVERSE SYNTHETIC DATA AND GLOBAL-TO-LOCAL ADAPTIVE PERCEPTION(DOCLAYOUT-YOLO:通过多样化的数据和全局到局部的自适应感知增强文档布局分析) DIVERSE DOCSYNTH-300K DATA...

StampDatasetProject

印章加盖

StampDatasetProject 功能 这个工程用来实现制作印章的模板以及将印章模板盖到目标图像的功能。支持随机盖章,随即透明度。 目录结构 StampDatasetProject pre.py stamp.py pre.py用来制作印章模板 stamp.py用来盖章 pre.py 1 2 3 4...

Latent Diffusion Models

LDM阅读

High-Resolution Image Synthesis with Latent Diffusion Models(基于潜在扩散模型的高分辨率图像合成) Introduction 作者指出传统的扩散模型作用在图像的像素空间,这将带来非常庞大的计算量。作者将扩散模型应用在了图像的浅空间中,并且引入了交叉引入交叉注意力层用于文本等一般条件输入。 Image Compression...

CLIP

CLIP阅读

Learning Transferable Visual Models From Natural Language Supervision(从自然语言监督中学习可转移的视觉模型) 概述 使用自然语言(而不是固定的类别固定的标签)训练视觉模型,“可转移”就是说,以往视觉模型只能够推理出固定的类别,例如ImageNet有1000个类别那你只能判断出那1000个类别(因为你在学习过程中就已...

PTQ4RIS

PTQ4RTS阅读

PTQ4RIS: Post-Training Quantization for Referring Image Segmentation(PTQ4RIS:参考图像分割的训练后量化) base模型 LAVT 为什么量化后性能会崩溃? 对于视觉编码器,通过Softmax和GeLU的函数激活后分布明显偏离高斯分布,不适合使用唯一的比例因子。 对于文本编码器,有许多异常值。 双区域量化(...

损失函数

损失函数 什么是损失函数? 神经网络的标准和你心中标准相比较,相差多少的定量表达。 最小二乘法 预测值和实际值的距离,预测值和实际值相减,求平方,累加。 极大似然估计 首先,似然是指通过结果来反推出现这个结果最可能的原因。 交叉熵最终的表现形式和极大似然估计一样。