DOCLAYOUT-YOLO: ENHANCING DOCUMENT LAY-OUT ANALYSIS THROUGH DIVERSE SYNTHETIC DATA AND GLOBAL-TO-LOCAL ADAPTIVE PERCEPTION(DOCLAYOUT-YOLO:通过多样化的数据和全局到局部的自适应感知增强文档布局分析)
DIVERSE DOCSYNTH-300K DATASET CONSTRUCTION
A部分
A1代表一个小的文本数据集,从这里面去分割文本,获取组件。
实际上作者是从图中的A2开始的,需要一个不同分类的文本组件数据集,比如说广告、二维码、文本、表格,所谓的组件实际上就是图片。
A3:去便利所有组件的文档,数据小于阈值的进行数据增加,从原有的组件取出图片进行随机加噪,随机对比度等等操作,再放回去充当新数据。
B部分
算法描述:
- 取99%的大组件和1%的小组件作为候选集。
- 从候选组件中随机选取,生成组件在空白页中中心点的随机坐标(左不小于w,右不大于1-w)。
- 根据中心坐标计算组件的左上、右下坐标[x1,x2],[y1,y2],做两次笛卡尔积,随意组合准备添加的网格坐标[(x1,y1),(x2,y2)]。
- 过滤掉无效的网格坐标(x1>x2,y1>y2)(原有的网格,准备添加的网格计算iou)。
- 遍历候选组件,遍历网格,选取填充率最高的填充。
GLOBAL-TO-LOCAL MODEL ARCHITECTURE
Baseline
YOLOV10
修改了Baseline哪些部分
CONTROLLABLE RECEPTIVE MODULE
可控是指有一个超参数:use_dilated TRUE OR FALSE
流程:
3 x 3 卷积
会有一个d列表,代表膨胀率(不同膨胀率会对卷积核进行不同程度的插值)。会对传进来的特征进行dn次卷积。得到的F1,F2……Fn,存储到列表中,然后concat得到F^,F^经过1 x 1卷积和sigmoid得到不同特征的权重M,M * F^。
3 x 3 卷积
GLOBAL-TO-LOCAL DESIGN
-
Global-level(第四层,参数:[256, True, True, [1,2,3], 5, “glu”])
浅层使用大核
-
Block-level(第六层,参数:[512, True, True, [1,3,5], 3, “glu”])
中间阶段使用较小核
-
Local-level(第八层,参数:[1024, True, False])
对于深层直接CSP