PTQ4RIS: Post-Training Quantization for Referring Image Segmentation(PTQ4RIS:参考图像分割的训练后量化)
base模型
LAVT
为什么量化后性能会崩溃?
对于视觉编码器,通过Softmax和GeLU的函数激活后分布明显偏离高斯分布,不适合使用唯一的比例因子。
对于文本编码器,有许多异常值。
双区域量化(DRQ)
方法
采用双区域量化方法分别量化两个范围内的激活。划分两个区域,R1和R2。
在softmax中将靠近0的数值划分到R1中,靠近1的数值划分到R2中。
在GeLU中将负值划分到R1中,正值划分到R2中。
计算SR1和SR2
固定SR2,基于Hessian矩阵的度量,搜索SR1,然后固定SR1搜索SR2。
基于重序的离群值保留量化(RORQ)
方法
将激活值划分为不同的组,用不同的尺度因子对每组进行动态量化。对于量化友好的特征融合和解码器模块,我们直接采用了一种简单的统一量化方法。
步骤
- 激活值全部转换为绝对值,计算阈值,进行划分
- 阈值内的数据
- 阈值外的数据
- 算出阈值内的量化参数
- 对于阈值外的数据重复步骤1,步骤2
- 当阈值外的数据为空或者到达最大迭代次数时结束
相关知识
什么是Post-Training Quantization(训练后量化)
减少模型大小和提高推理效率,而不需要重新训练模型。这种方法特别适用于资源有限的设备,如移动设备、嵌入式系统或边缘计算设备等。