【扩散模型-＞人物合成】PIDM : Person Image Synthesis via Denoising Diffusion Model

admin • 2023-01-02 20:06 • 人工智能

论文地址：https://arxiv.org/abs/2211.12500

项目地址：https://github.com/ankanbhunia/PIDM（截至 22-12-23，未公布代码）

本文利用扩散生成模型和 OpenPose、人物图像作为条件，进行姿态迁移训练，同时可以用于服装迁移、风格混合、行人重识别等人物合成任务上。主要创新点如下：

为了有效地建模外观和姿态信息之间的复杂相互作用，提出了纹理扩散模块（texture diffusion module）利用源和目标外观和姿态细节之间的对应关系，从而获得无伪影图像。
在采样过程中，引入了解耦非分类器引导（disentangled classifier-free guidance）确保输出图像的风格和姿态分别与源图像的外观和目标姿态紧密对齐。

本文所提出的PIDM框架（如上图 a）采用由噪声预测模块HN和纹理编码器HE组成的基于UNet的网络。其中纹理编码器HE对源图像xs的纹理图案进行编码，从不同层产生多尺度的特征表示Fs，并通过提出的基于交叉注意力的纹理扩散模块（TDB）将多尺度纹理模式注入到噪声预测模块HN中。

同时，为了加强xs和xp的条件信号，在采样技术中采用了Classifier-free guidance来实现解耦引导（如上图 b），具体做法是在训练过程中通过随机设置η%（实验中η=10）的样本的条件变量xp和xs为0，来学习条件和非条件分布, 从而使得θ(yt, t, ∅, ∅)更忠实地接近p(y0)。

数据集：DeepFashion In-shop Clothes Retrieval Benchmark 和 Market-1501 数据集上进行实验。对于DeepFashion数据集，使用256×176和512×352图像训练模型。对于Market-1501使用128×64的图像。

上图显示了 PIDM 在姿态迁移任务上与其他 Baseline 的视觉对比。

上图显示了 PIDM 在服装迁移（a）和风格混合（b）上的结果。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

深度学习计算机视觉

二维码

Incorporating Dynamic Semantics into Pre-Trained Language Model for ABSA 论文阅读笔记

< <上一篇

机器学习 | 朴素贝叶斯

下一篇>>

搜索内容

【扩散模型-＞人物合成】PIDM : Person Image Synthesis via Denoising Diffusion Model

最新文章

分类

标签云