模型 | 第68页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

月之暗面开源端到端语音对话的通用音频模型Kimi-Audio

月之暗面开源了一款名为 Kimi-Audio 的通用音频模型。这款模型以其统一的框架和强大的多功能性，在音频处理领域引起了广泛关注。Kimi-Audio 不仅能够处理语音识别、音频问答、字幕生成等任务...

语音模型 # Kimi-Audio # 月之暗面

12个月前

03470

新型事件增强型网络 Ev-DeblurVSR：从低分辨率（LR）和模糊的输入视频中恢复出高分辨率（HR）的清晰视频

中国科学技术大学类脑智能感知与认知教育部重点实验室、合肥人工智能研究院和新加坡国立大学推出新型事件增强型网络 Ev-DeblurVSR ，旨在解决模糊视频超分辨率（BVSR）任务，即从低分辨率（LR...

视频模型 # Ev-DeblurVSR # 视频超分模型

12个月前

04460

Science-T2I框架：通过整合科学知识，提升图像合成模型生成图像的现实感和科学一致性

纽约大学、华盛顿大学、宾夕法尼亚大学和加州大学圣地亚哥分校介绍了一个名为 Science-T2I 的框架，旨在通过整合科学知识，提升图像合成模型生成图像的现实感和科学一致性。该研究的核心是解决现有图...

图像模型 # Science-T2I # 图像生成模型 # 科学

12个月前

03440

阶跃星辰推出新型通用图像编辑模型Step1X-Edit

阶跃星辰推出新型通用图像编辑模型Step1X-Edit ，图像编辑与自然语言指令结合已成为视觉-语言研究中日益重要的任务。用户可以通过直观的自然语言指令来编辑图像，但这在技术上带来了独特的挑战，例如理...

图像模型 # Step1X-Edit # 图像编辑模型 # 阶跃星辰

12个月前

04140

天工AI推出多模态推理模型 Skywork R1V2：引入混合强化学习框架，提升模型在复杂推理和通用视觉理解任务中的表现

多模态模型的快速发展为通用人工智能（AGI）的实现铺平了道路，但如何在保持跨任务泛化能力的同时提升专业推理能力，仍然是一个关键挑战。近期，天工AI（Skywork AI）推出了下一代多模态推理模型 S...

多模态模型 # Skywork R1V2 # 多模态推理模型 # 天工AI

12个月前

04580

基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC：快速分析视频内容，并同步生成自然流畅的语音或文字解说

新加坡国立大学和字节跳动的研究人员推出基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC，能够像专业解说员一样快速分析视频内容，并同步生成自然流畅的语音或文字解说。特别适合需要即时反馈...

多模态模型 # LiveCC # Qwen2-VL-7B # 视频理解大模型

12个月前

03960

Meta发布Web-SSL系列模型：无语言也能学视觉，探索纯视觉自监督学习的潜力

近年来，对比语言-图像模型（如CLIP）在多模态任务中表现出色，成为学习视觉表征的主流选择。这些模型通过大规模的图像-文本对进行训练，利用语言监督来融入语义信息，广泛应用于视觉问答（VQA）、文档理解...

大语言模型 # Meta # Web-SSL

12个月前

02750

英伟达发布数学推理模型 OpenMath-Nemotron 系列，基于Qwen2.5-32B训练

长期以来，数学推理一直是人工智能领域的一项重大挑战。尽管传统的语言模型在生成自然语言文本方面表现出色，但在解决需要深入领域知识和多步骤逻辑推导的复杂数学问题时，它们往往显得力不从心。为了弥合这一差距...

大语言模型 # OpenMath-Nemotron # Qwen2.5-32B # 数学推理模型

12个月前

02160

Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

随着AI系统逐渐向多模态方向发展，视觉感知模型的角色也变得更加复杂。传统的视觉编码器通常针对特定任务进行优化，例如图像分类、目标检测或语言生成，但这种碎片化的方法不仅增加了模型的复杂性，还限制了其在开...

多模态模型 # Meta AI # Perception Encoder # 感知编码器

12个月前

04130

IBM 首个开源的语音转文本（STT）和自动语音翻译（AST）模型Granite Speech 3.3 8B

随着AI在企业系统中的深度集成，对灵活性、效率和透明度兼具的模型需求日益增加。然而，当前市场上的解决方案往往难以满足这些要求：开源模型可能缺乏特定领域的能力，而专有系统则可能限制访问或适应性。尤其在语...

语音模型 # AST # Granite Speech 3.3 8B # IBM

12个月前

05110

Adobe 推出 Firefly 系列新模型与重新设计的 Web 应用

Adobe 在生成式 AI 领域再次迈出重要一步，推出了 Firefly 系列图像生成模型的最新迭代版本、一个全新的矢量生成模型（Firefly Vector Model），以及一个经过重新设计的 ...

图像模型 # Adobe # Firefly Image 4 # Image 4 Ultra

12个月前

04360

TNG科技微调 olmOCR推出olmOCR-7B-faithful：更忠实的 OCR 模型，适用于业务场景中的全面信息提取

光学字符识别（OCR）技术在文档数字化和信息提取领域扮演着重要角色。然而，传统的基于流水线的 OCR 系统虽然功能强大，却常常因无法处理复杂布局而受到限制。最近，艾伦人工智能研究所推出的 olmOCR...

多模态模型 # olmOCR # olmOCR-7B-faithful

12个月前

02470

加载更多

模型

月之暗面开源端到端语音对话的通用音频模型Kimi-Audio

新型事件增强型网络 Ev-DeblurVSR：从低分辨率（LR）和模糊的输入视频中恢复出高分辨率（HR）的清晰视频

Science-T2I框架：通过整合科学知识，提升图像合成模型生成图像的现实感和科学一致性

阶跃星辰推出新型通用图像编辑模型Step1X-Edit

天工AI推出多模态推理模型 Skywork R1V2：引入混合强化学习框架，提升模型在复杂推理和通用视觉理解任务中的表现

基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC：快速分析视频内容，并同步生成自然流畅的语音或文字解说

Meta发布Web-SSL系列模型：无语言也能学视觉，探索纯视觉自监督学习的潜力

英伟达发布数学推理模型 OpenMath-Nemotron 系列，基于Qwen2.5-32B训练

Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

IBM 首个开源的语音转文本（STT）和自动语音翻译（AST）模型Granite Speech 3.3 8B

Adobe 推出 Firefly 系列新模型与重新设计的 Web 应用

TNG科技微调 olmOCR推出olmOCR-7B-faithful：更忠实的 OCR 模型，适用于业务场景中的全面信息提取

TapNow

ITELLOU

waoo

S.H.I.T

同事.skill

RunningHub

模型

网址

TapNow

ITELLOU

waoo

S.H.I.T

同事.skill

RunningHub