SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1188 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    天工AI推出多模态推理模型 Skywork R1V2:引入混合强化学习框架,提升模型在复杂推理和通用视觉理解任务中的表现

    天工AI推出多模态推理模型 Skywork R1V2:引入混合强化学习框架,提升模型在复杂推理和通用视觉理解任务中的表现

    多模态模型的快速发展为通用人工智能(AGI)的实现铺平了道路,但如何在保持跨任务泛化能力的同时提升专业推理能力,仍然是一个关键挑战。近期,天工AI(Skywork AI)推出了下一代多模态推理模型 S...
    多模态模型# Skywork R1V2# 多模态推理模型# 天工AI
    11个月前
    04520
    基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC:快速分析视频内容,并同步生成自然流畅的语音或文字解说

    基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC:快速分析视频内容,并同步生成自然流畅的语音或文字解说

    新加坡国立大学和字节跳动的研究人员推出基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC,能够像专业解说员一样快速分析视频内容,并同步生成自然流畅的语音或文字解说。特别适合需要即时反馈...
    多模态模型# LiveCC# Qwen2-VL-7B# 视频理解大模型
    11个月前
    03730
    Meta发布Web-SSL系列模型:无语言也能学视觉,探索纯视觉自监督学习的潜力

    Meta发布Web-SSL系列模型:无语言也能学视觉,探索纯视觉自监督学习的潜力

    近年来,对比语言-图像模型(如CLIP)在多模态任务中表现出色,成为学习视觉表征的主流选择。这些模型通过大规模的图像-文本对进行训练,利用语言监督来融入语义信息,广泛应用于视觉问答(VQA)、文档理解...
    大语言模型# Meta# Web-SSL
    11个月前
    02690
    英伟达发布数学推理模型 OpenMath-Nemotron 系列,基于Qwen2.5-32B训练

    英伟达发布数学推理模型 OpenMath-Nemotron 系列,基于Qwen2.5-32B训练

    长期以来,数学推理一直是人工智能领域的一项重大挑战。尽管传统的语言模型在生成自然语言文本方面表现出色,但在解决需要深入领域知识和多步骤逻辑推导的复杂数学问题时,它们往往显得力不从心。为了弥合这一差距...
    大语言模型# OpenMath-Nemotron# Qwen2.5-32B# 数学推理模型
    11个月前
    02110
    Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

    Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

    随着AI系统逐渐向多模态方向发展,视觉感知模型的角色也变得更加复杂。传统的视觉编码器通常针对特定任务进行优化,例如图像分类、目标检测或语言生成,但这种碎片化的方法不仅增加了模型的复杂性,还限制了其在开...
    多模态模型# Meta AI# Perception Encoder# 感知编码器
    11个月前
    03890
    IBM 首个开源的语音转文本(STT)和自动语音翻译(AST)模型Granite Speech 3.3 8B

    IBM 首个开源的语音转文本(STT)和自动语音翻译(AST)模型Granite Speech 3.3 8B

    随着AI在企业系统中的深度集成,对灵活性、效率和透明度兼具的模型需求日益增加。然而,当前市场上的解决方案往往难以满足这些要求:开源模型可能缺乏特定领域的能力,而专有系统则可能限制访问或适应性。尤其在语...
    语音模型# AST# Granite Speech 3.3 8B# IBM
    11个月前
    04790
    Adobe 推出 Firefly 系列新模型与重新设计的 Web 应用

    Adobe 推出 Firefly 系列新模型与重新设计的 Web 应用

    Adobe 在生成式 AI 领域再次迈出重要一步,推出了 Firefly 系列图像生成模型的最新迭代版本、一个全新的 矢量生成模型(Firefly Vector Model),以及一个经过重新设计的 ...
    图像模型# Adobe# Firefly Image 4# Image 4 Ultra
    11个月前
    04190
    TNG科技微调 olmOCR推出olmOCR-7B-faithful:更忠实的 OCR 模型,适用于业务场景中的全面信息提取

    TNG科技微调 olmOCR推出olmOCR-7B-faithful:更忠实的 OCR 模型,适用于业务场景中的全面信息提取

    光学字符识别(OCR)技术在文档数字化和信息提取领域扮演着重要角色。然而,传统的基于流水线的 OCR 系统虽然功能强大,却常常因无法处理复杂布局而受到限制。最近,艾伦人工智能研究所推出的 olmOCR...
    多模态模型# olmOCR# olmOCR-7B-faithful
    11个月前
    02380
    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi,专门用于视频理解和编辑。Vidi 的主要目标是支持高质量、大规模视频内容的创作,通过处理原始输入材料(如未编辑的视频片段)和编辑组件(如视觉效果),帮助用户更高效地完成...
    多模态模型# Vidi# 多模态模型# 字节跳动
    11个月前
    02290
    英伟达推出多模态大语言模型Describe Anything 3B:为图像和视频局部描述量身定制的多模态 AI 模型

    英伟达推出多模态大语言模型Describe Anything 3B:为图像和视频局部描述量身定制的多模态 AI 模型

    英伟达、加州大学伯克利分校和加州大学旧金山分校的研究人员推出了 Describe Anything 3B (DAM-3B),这是一个专门用于生成细粒度图像和视频字幕的多模态大语言模型(LLM)。DAM...
    多模态模型# Describe Anything 3B# 多模态大语言模型# 英伟达
    11个月前
    06110
    Flex.2-preview:基于 Flux.1 Schnell 微调而成的开源 80 亿参数文生图模型

    Flex.2-preview:基于 Flux.1 Schnell 微调而成的开源 80 亿参数文生图模型

    Flex.2-preview 是一款开源的文本到图像扩散模型,具有 80 亿参数,支持通用控制和图像修复功能。它基于 Flux.1 Schnell 微调而成,旨在为用户提供更灵活、更强大的图像生成能力...
    图像模型# Flex.2-preview# FLUX.1 [schnell]# 文生图模型
    11个月前
    07350
    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory 是一个专为 Lumina 系列模型设计的多任务指令微调框架,目前支持 Lumina-Image-2.0。该框架通过一系列创新设计,为图像生成和编辑任务提供了强大的支持...
    图像模型# Lumina-Accessory# Lumina-Image 2.0# 图像生成
    11个月前
    03880
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单