多模态吧 关注:73贴子:238
  • 2回复贴,共1

任何模态协同生成任何模态——CoDi

只看楼主收藏回复

之前介绍imagebind时,就说过imagebind的一种用法——使用扩散模型通过任何模态生成指定的模态跨6种模态,新多模态范式——ImageBind ,现在,实现这个功能的工具出现了,可以实现Any-to-any多种模态协同生成任何模态。
这个工具叫可组合扩散 (CoDi),这是一种新颖的生成模型,能够从输入模态的任何组合中生成输出模态的任何组合,例如语言,图像,视频或音频。与现有的生成AI系统不同,CoDi可以并行生成多个模态。
CoDi采用了一种新颖的可组合生成策略,该策略涉及通过在扩散过程中桥接对齐来构建共享的多模态空间,从而能够同步生成联合的模态,例如在时间上对齐的视频和音频。高度可定制和灵活的CoDi实现了强大的联合模态生成质量,并且在单模态合成方面优于或与最优方法质量相当。



IP属地:黑龙江来自Android客户端1楼2023-05-24 19:26回复
    github项目地址:网页链接
    论文地址:网页链接


    IP属地:黑龙江来自Android客户端2楼2023-05-24 19:27
    回复
      一个类似的项目,用任意模态生成图片Anything To Image 网页链接
      可以通过扩散模型用文本、图像、音频、热度图来生成图片。仅能生成图片,不能用任意模态生成任意模态。


      IP属地:黑龙江来自Android客户端3楼2023-05-24 20:13
      回复