模型 | 第62页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

新型多模态音频生成框架AudioX：通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐

香港科技大学的研究人员推出新型多模态音频生成框架“AudioX”，通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐。该框架通过创新的多模态掩码训练策略，强制模型...

语音模型 # AudioX # 多模态音频生成

11个月前

01870

gen2seg：将生成模型（如Stable Diffusion和MAE）应用于实例分割任务

加州大学戴维斯分校的研究人员推出GEN2SEG，将生成模型（如Stable Diffusion和MAE）应用于实例分割任务，特别是对于那些在预训练和微调阶段未见过的物体类型和风格。通过微调这些生成模型...

图像模型 # gen2seg # 实例分割 # 生成模型

11个月前

04910

天工AI推出Matrix-Game：首个支持可控交互式游戏世界生成的170亿参数基础模型

昆仑万维旗下天工AI团队正式发布了其最新研究成果——Matrix-Game，这是一个面向游戏世界的可交互视频生成基础模型，专为 Minecraft 及类似开放世界设计，具备精确控制角色动作、视角变换和...

多模态模型 # Matrix-Game # 游戏世界生成

11个月前

03630

高效语音分离模型TIGER：解决低延迟语音处理系统中的高效率问题

清华大学的研究人员推出高效语音分离模型TIGER，解决低延迟语音处理系统中的高效率问题。语音分离是指从混合音频信号中准确分离出不同声音源的任务，类似于人类在嘈杂环境中专注于特定语音信号的“鸡尾酒会效应...

语音模型 # TIGeR # 语音分离模型

11个月前

04430

Stability AI 推出 Stable Video 4D 2.0：单视角视频生成高质量多视角 4D 资产

Stability AI 发布了 Stable Video 4D 2.0（SV4D 2.0），这是之前Stable Video 4D的重大升级。该模型能够在仅提供一个对象的单视角视频作为输入的情况下...

3D模型 # Stability AI # Stable Video 4D 2.0

11个月前

01450

DMind AI 推出专为 Web3 生态系统优化的领域专用大模型 DMind-1 和 DMind-1-mini

Web3 技术的迅猛发展，尤其是区块链、去中心化金融（DeFi）和智能合约的广泛应用，催生了对专门的大型语言模型（LLM）的迫切需求。这些领域需要精准的领域适配和高级推理能力，而通用 LLM 往往在特...

大语言模型 # DMind AI # DMind-1 # DMind-1-mini

11个月前

01340

新型多模态扩散基础模型MMaDA：通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能

普林斯顿大学、北京大学、清华大学和字节跳动的研究人员推出新型多模态扩散基础模型MMaDA系列，该模型通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能。 ...

多模态模型 # MMaDA # 多模态扩散基础模型

11个月前

05410

过程奖励模型WEB-SHEPHERD ：专门用于评估网络导航任务中的智能代理行为

延世大学和卡内基梅隆大学的研究人员推出一个名为 WEB-SHEPHERD 的过程奖励模型（PRM），专门用于评估网络导航任务中的智能代理行为。网络导航是一个复杂的领域，需要智能代理能够进行长期的序列决...

多模态模型 # WEB-SHEPHERD # 过程奖励模型

11个月前

02230

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

腾讯推出了Hunyuan-TurboS，这是一个新型的大型混合 Transformer-Mamba 专家混合（MoE）模型。它结合了 Mamba 架构在长序列处理上的高效性与 Transformer ...

大语言模型 # Hunyuan-TurboS # 腾讯

11个月前

02960

Mistral 推出新编码模型 Devstral：开源、轻量、性能超越 GPT-4-mini

法国AI 初创公司 Mistral 宣布推出其最新开源模型 —— Devstral，专为软件工程任务设计。该模型由 Mistral 与 AI 公司 All Hands AI 联合开发，采用 Apach...

大语言模型 # All Hands AI # Devstral # Mistral

11个月前

04050

谷歌推了个能装进手机的大模型Gemma 3n，速度快、内存低、还能听会说

谷歌宣布推出其最新开源模型 Gemma 3n 的预览版，这是继 Gemma 3 和 Gemma 3 QAT 后，谷歌在轻量级大模型领域的又一重要进展。 Gemma 3n 专为手机、平板和笔记本电脑等设...

大语言模型 # Gemma 3n # 谷歌

11个月前

02670

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

谷歌推出了一项新的实验性研究模型 —— Gemini Diffusion，这是其在文本生成领域的一次重要尝试，探索扩散模型在语言任务中的潜力。不同于传统的自回归模型逐词生成文本的方式，Gemini ...

大语言模型 # Gemini Diffusion # 扩散模型 # 谷歌

11个月前

04090

加载更多

模型

新型多模态音频生成框架AudioX：通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐

gen2seg：将生成模型（如Stable Diffusion和MAE）应用于实例分割任务

天工AI推出Matrix-Game：首个支持可控交互式游戏世界生成的170亿参数基础模型

高效语音分离模型TIGER：解决低延迟语音处理系统中的高效率问题

Stability AI 推出 Stable Video 4D 2.0：单视角视频生成高质量多视角 4D 资产

DMind AI 推出专为 Web3 生态系统优化的领域专用大模型 DMind-1 和 DMind-1-mini

新型多模态扩散基础模型MMaDA：通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能

过程奖励模型WEB-SHEPHERD ：专门用于评估网络导航任务中的智能代理行为

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

Mistral 推出新编码模型 Devstral：开源、轻量、性能超越 GPT-4-mini

谷歌推了个能装进手机的大模型Gemma 3n，速度快、内存低、还能听会说

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

S.H.I.T

ITELLOU

Tripo

MaxClaw

waoo

同事.skill

模型

网址

S.H.I.T

ITELLOU

Tripo

MaxClaw

waoo

同事.skill