当前位置：首页新品字节跳动发布多款多模态大模型：豆包视觉理解模型和豆包 3D 生成模型

字节跳动发布多款多模态大模型：豆包视觉理解模型和豆包 3D 生成模型

2024-12-19 122

在昨天的 火山引擎 Force 大会 上，字节跳动正式发布了其最新的 豆包视觉理解模型 和 豆包 3D 生成模型，并宣布了一系列多模态大模型产品的更新。这些新产品的推出不仅展示了字节跳动在 AI 领域的技术实力，还为企业提供了更具性价比的多模态大模型解决方案。

豆包视觉理解模型：高性价比的图像处理能力

豆包视觉理解模型 是一款专为图像和视频处理设计的多模态大模型，能够帮助企业高效处理大规模的视觉数据。该模型的输入价格仅为 3 厘/千 tokens，相当于 1 元钱可以处理 284 张 720P 的图片，官方宣称这一价格比行业平均水平低 85%。这使得企业在处理大量图像时，能够大幅降低计算成本，同时保持高质量的处理效果。

豆包 3D 生成模型：结合数字孪生平台，支持 AIGC 创作

豆包 3D 生成模型 是本次大会的另一大亮点。该模型与火山引擎的 veOmniverse 数字孪生平台 结合使用，能够完成智能训练、数据合成和数字资产制作。官方将其称为“一套支持 AIGC（AI 生成内容）创作的物理世界仿真模拟器”，这意味着用户可以通过该平台生成逼真的 3D 场景和物体，适用于游戏开发、建筑设计、虚拟现实等多个领域。通过与 veOmniverse 的集成，企业可以利用 AI 技术加速数字资产的创建过程，提升生产效率，并实现更加复杂的场景模拟和交互体验。

豆包大模型产品线更新

除了视觉和 3D 模型，豆包大模型旗下的其他产品也迎来了重要更新：

豆包通用模型 Pro：全面对齐 GPT-4o，性能与之相当，但使用价格仅为后者的 1/8。这使得企业在享受高性能语言生成能力的同时，能够显著降低运营成本。
音乐模型：可生成长达 3 分钟的完整音乐作品，适用于音乐创作、广告配乐等场景。该模型能够根据用户的输入生成风格多样、情感丰富的音乐片段，帮助创作者快速完成音乐制作。
文生图模型 2.1 版本：精准生成汉字和一句话 P 图功能，现已接入 即梦 AI 和 豆包 App。用户可以通过简单的文本描述，快速生成高质量的图像，满足个性化需求。

未来展望

字节跳动还透露了未来的研发计划，预计将于 明年春季 推出具备更长视频生成能力的 豆包视频生成模型 1.5 版。该版本将支持生成更长时间的视频内容，进一步扩展其在影视制作、广告创意等领域的应用。此外，豆包端到端实时语音模型 也将很快上线，解锁多角色演绎、方言转换等新能力。这将使语音合成技术更加灵活和多样化，适用于智能客服、虚拟主播、语音助手等多种场景。

0

评论0

升级VIP
全屏浏览
夜间模式
返回顶部