CVPR 2024 Highlight | 北航等发布「时间特征维护」:无需训练,极致压缩加速Diffusion

新智元报道。

艺术经纬:LRST太困了

【新智元简介】要挽救4-4bit扩散模型的准确性,只需要时间特征维护——用超低精度量化技术重塑图像内容生成!

最近,BUAA,莫纳什和UT Austin联合推出了TFMQ-DM,这是一种具有时间特征保持的扩散模型的低精度无损量化方法。

不仅以4 bits的权重实现了无损条件下扩散模型最极端的后训练压缩,而且真实硬件加速超过2.38倍。

这一发现再一次把扩散的压缩推到了一个新的高度。

目前,该作品已被CVPR 2024高分录取,并被录取为亮点海报(Top 2.8%)。

地址:https://arxiv.org/pdf/2311.16503.

代码地址:https://github.com/ModelTC/TFMQ-DM

由于在扩散模型中引入了时间变量T,因此在模型中注入了时间序列信息,这是扩散模型区别于传统视觉模型的一大特点。

同时,该变量还通过将时间序列特征集成到模型中来控制去噪过程。研究人员首次定义了时间特征emb,发现现有的量化算法会严重扰乱这些特征,从而破坏图片生成的质量:

1.时间特性扰动:研究者发现量子化引起了明显的时间特性误差,并将这种特性误差中的扰动现象称为时间特性扰动;

2.时间信息不匹配:时间特性的扰动改变了原来嵌入的时间信息。具体而言,它旨在对应于一个时间步长。但由于存在显著误差,定量模型不再与对应的时间特征精确关联,而趋向于更接近对应的时间特征,导致该方法中提到的时间信息不匹配;

3.去噪轨迹偏差:时间信息的不匹配传达了错误的时间信息,导致图像在去噪轨迹中对应的时间位置发生偏差,最终导致图像没有按照原轨迹去噪;

线上推广平台主要具有的特征

(扩散中的时间特征扰动)

干扰诱因分析

研究人员发现,这种干扰主要由以下两个原因引起:

1.重建对象不合适:现有的定量重建方法并没有直接优化时间特性,同时由于标定数据有限,时间特性会过拟合,如下图Prev所示,其中Freeze代表冻结相关的定量参数;

2.忽略时间特征关联模块中的有限激活:由于输入是有限整数,生成时间特征的模块只会生成随时间变化的有限激活,现有的量化策略都考虑了分布级优化,忽略了这种有限激活的拟合近似。

(扩散中时间特征相关模块的有限激活)

时间特征维护-TFMQ-DM

基于上述激励分析,研究人员提出了以下时间特征维护策略,完美保证了低比特量化下扩散模型的时间特征精度和图像生成质量。

(TFMQDM整体压缩框架)

1.时间信息块:整合时间特征生成的相关模块,得到时间信息块(见框架图);h5营销的常见形式有哪三种

2.时间信息知觉重建:基于时间信息块,研究者提出了时间信息知觉重建(TIAR)来处理第一个诱因。在改造过程中,本区块的优化目标如下:

3.有限集合校准(Limited Set Calibration):为了解决第二次激励中激活范围宽的挑战,研究人员提出了激活量化的有限集合校准(FSC)。该策略对所有时间信息块中的每次激活使用t组量化参数。例如,激活X的量化参数可以是。当时间步长为t时,x的量化函数可以表示为:

其中ST,zt分别是量化比例因子和零偏移。

实验结果

研究团队在DDIM、LDM和稳定扩散系列模型上验证了TFMQ-DM框架在无条件生成、分类条件生成、文本条件生成和各种高级样本生成下的性能。

TFMQ-DM的平均权重为4或8位,当激活8或32位时,所有评估指标都超过了Q-Diffusion和PTQD等最先进的方法,并且在大多数场景下,该方案使用4位权重量化来超越现有8位权重甚至全精度权重模型的性能。

结果表明,TFMQ-DM率先加速了4位权重和8位权重的扩散无损压缩,推动了扩散非训练量化的边界。

(LDM系列无条件生成比较结果)

(左图:LDM系列分类条件生成的对比结果;右图:DDIM系列无条件生成比较结果)

具体来说,在CelebA-HQ 256 × 256数据集上,与目前最先进的方法相比,该团队的方法在w4a8的设置下,FID和sFID分别降低了6.71和6.60(越低越好)。

值得注意的是,现有的方法,无论是4比特还是8比特权重量化,在CelebA-HQ 256 × 256和FFHQ 256 × 256等人脸数据集上与FP模型相比表现出明显的性能下降,而TFMQ-DM与全精度模型相比几乎没有性能损失。

(稳定差分系列文本条件生成比较结果)

(左:PLMS系列高级采样器无条件生成比较结果;右图:DPM++系列高级采样器无条件生成比较结果)

另外,对于最流行的文本条件生成类模型,w8a8设置下的TFMQ-DM的FID和w4a32设置下的sFID甚至略低于全精度模型。

然而,尽管现有的指标不能完全评估生成图像的语义一致性和对象细节,但团队提出的方法产生了更高质量的图像(见下文),具有更真实的细节和更好的语义信息显示。运营支撑岗具体做什么

由于现有的指标不能完全反映生成图像的质量,团队研究人员提供了大量的视觉效果对比图,这些图反映了更加细腻和准确的生成质量:

(LDM无条件图像生成效果图)

(LDM上分类条件图像渲染效果图)

(稳定扩散上的文字条件图生成效果图,左侧提示为“巴别塔的数字图解,细节,artstation中的趋势,奇幻鲜艳的颜色”。正确提示:“美丽的城堡胜过树林中的瀑布”。)

除了测试集的准确性和可视化,团队还在英特尔至强金牌6248R处理器上验证了该框架的推理加速效果,与原始浮点模型相比,实现了2.38倍的显著速度提升。

(稳定扩散真的在CPU上加速了)

摘要

基于时间特征维护的校准量化可以保证扩散的量化参数准确保留原始时间信息。大量实验表明,TFMQ-DM在DDIM、LDM和稳定扩散序列中取得了令人信服的精度提高,尤其是在w4a8等非常低的比特设置中。同时,该方案也实现了真实硬件部署的加速。

其次,TFMQ-DM具有良好的兼容性,可以与各种扩散量化框架无缝集成。总的来说,TFMQ-DM在量化精度上提供了显著的提升,并且对硬件高度友好,有助于在资源有限的情况下进行实际部署,进一步推动文生图模型更广泛的推广应用。

TFMQ-DM具有明显的兼容性,可以与各种扩散量化框架无缝集成。TFMQ-DM提供的显著量化精度有助于在有限资源条件下的实际部署。

参考资料:

https://arxiv.org/pdf/2311.16503

未经允许不得转载:科技让生活更美好 » CVPR 2024 Highlight | 北航等发布「时间特征维护」:无需训练,极致压缩加速Diffusion