用于定制漫画生成的新框架DiffSensei:将多模态大语言模型和扩散模型结合起来,以实现对漫画角色形象和布局的精确控制
故事可视化,即将文本描述转化为视觉叙事的任务,近年来随着文本到图像生成模型的...
阿里巴巴语音实验室发布开源语音处理框架 ClearerVoice-Studio:支持语音增强、分离和目标说话人提取
在当今的音频环境中,清晰沟通面临诸多挑战。背景噪音、重叠对话以及音频和视频信...
新型生成模型OmniFlow:用于处理任何到任何(any-to-any)的多模态生成任务,例如文本到图像、文本到音频以及音频到图像的合成
加州大学洛杉矶分校、松下AI研究院和Salesforce AI研究院的研究人员共同提出了Omni...