任何模态协同生成任何模态——CoDi【多模态吧】

多模态吧关注：73贴子：238

2回复贴，共1页

任何模态协同生成任何模态——CoDi

之前介绍imagebind时，就说过imagebind的一种用法——使用扩散模型通过任何模态生成指定的模态跨6种模态，新多模态范式——ImageBind ，现在，实现这个功能的工具出现了，可以实现Any-to-any多种模态协同生成任何模态。
这个工具叫可组合扩散 (CoDi)，这是一种新颖的生成模型，能够从输入模态的任何组合中生成输出模态的任何组合，例如语言，图像，视频或音频。与现有的生成AI系统不同，CoDi可以并行生成多个模态。
CoDi采用了一种新颖的可组合生成策略，该策略涉及通过在扩散过程中桥接对齐来构建共享的多模态空间，从而能够同步生成联合的模态，例如在时间上对齐的视频和音频。高度可定制和灵活的CoDi实现了强大的联合模态生成质量，并且在单模态合成方面优于或与最优方法质量相当。