SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1026 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC:快速分析视频内容,并同步生成自然流畅的语音或文字解说

    基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC:快速分析视频内容,并同步生成自然流畅的语音或文字解说

    新加坡国立大学和字节跳动的研究人员推出基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC,能够像专业解说员一样快速分析视频内容,并同步生成自然流畅的语音或文字解说。特别适合需要即时反馈...
    多模态模型# LiveCC# Qwen2-VL-7B# 视频理解大模型
    8个月前
    03060
    Meta发布Web-SSL系列模型:无语言也能学视觉,探索纯视觉自监督学习的潜力

    Meta发布Web-SSL系列模型:无语言也能学视觉,探索纯视觉自监督学习的潜力

    近年来,对比语言-图像模型(如CLIP)在多模态任务中表现出色,成为学习视觉表征的主流选择。这些模型通过大规模的图像-文本对进行训练,利用语言监督来融入语义信息,广泛应用于视觉问答(VQA)、文档理解...
    大语言模型# Meta# Web-SSL
    8个月前
    02260
    英伟达发布数学推理模型 OpenMath-Nemotron 系列,基于Qwen2.5-32B训练

    英伟达发布数学推理模型 OpenMath-Nemotron 系列,基于Qwen2.5-32B训练

    长期以来,数学推理一直是人工智能领域的一项重大挑战。尽管传统的语言模型在生成自然语言文本方面表现出色,但在解决需要深入领域知识和多步骤逻辑推导的复杂数学问题时,它们往往显得力不从心。为了弥合这一差距...
    大语言模型# OpenMath-Nemotron# Qwen2.5-32B# 数学推理模型
    8个月前
    02040
    Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

    Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

    随着AI系统逐渐向多模态方向发展,视觉感知模型的角色也变得更加复杂。传统的视觉编码器通常针对特定任务进行优化,例如图像分类、目标检测或语言生成,但这种碎片化的方法不仅增加了模型的复杂性,还限制了其在开...
    多模态模型# Meta AI# Perception Encoder# 感知编码器
    8个月前
    02810
    IBM 首个开源的语音转文本(STT)和自动语音翻译(AST)模型Granite Speech 3.3 8B

    IBM 首个开源的语音转文本(STT)和自动语音翻译(AST)模型Granite Speech 3.3 8B

    随着AI在企业系统中的深度集成,对灵活性、效率和透明度兼具的模型需求日益增加。然而,当前市场上的解决方案往往难以满足这些要求:开源模型可能缺乏特定领域的能力,而专有系统则可能限制访问或适应性。尤其在语...
    语音模型# AST# Granite Speech 3.3 8B# IBM
    8个月前
    03510
    Adobe 推出 Firefly 系列新模型与重新设计的 Web 应用

    Adobe 推出 Firefly 系列新模型与重新设计的 Web 应用

    Adobe 在生成式 AI 领域再次迈出重要一步,推出了 Firefly 系列图像生成模型的最新迭代版本、一个全新的 矢量生成模型(Firefly Vector Model),以及一个经过重新设计的 ...
    图像模型# Adobe# Firefly Image 4# Image 4 Ultra
    8个月前
    03030
    TNG科技微调 olmOCR推出olmOCR-7B-faithful:更忠实的 OCR 模型,适用于业务场景中的全面信息提取

    TNG科技微调 olmOCR推出olmOCR-7B-faithful:更忠实的 OCR 模型,适用于业务场景中的全面信息提取

    光学字符识别(OCR)技术在文档数字化和信息提取领域扮演着重要角色。然而,传统的基于流水线的 OCR 系统虽然功能强大,却常常因无法处理复杂布局而受到限制。最近,艾伦人工智能研究所推出的 olmOCR...
    多模态模型# olmOCR# olmOCR-7B-faithful
    8个月前
    02010
    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi,专门用于视频理解和编辑。Vidi 的主要目标是支持高质量、大规模视频内容的创作,通过处理原始输入材料(如未编辑的视频片段)和编辑组件(如视觉效果),帮助用户更高效地完成...
    多模态模型# Vidi# 多模态模型# 字节跳动
    8个月前
    01900
    英伟达推出多模态大语言模型Describe Anything 3B:为图像和视频局部描述量身定制的多模态 AI 模型

    英伟达推出多模态大语言模型Describe Anything 3B:为图像和视频局部描述量身定制的多模态 AI 模型

    英伟达、加州大学伯克利分校和加州大学旧金山分校的研究人员推出了 Describe Anything 3B (DAM-3B),这是一个专门用于生成细粒度图像和视频字幕的多模态大语言模型(LLM)。DAM...
    多模态模型# Describe Anything 3B# 多模态大语言模型# 英伟达
    8个月前
    05690
    Flex.2-preview:基于 Flux.1 Schnell 微调而成的开源 80 亿参数文生图模型

    Flex.2-preview:基于 Flux.1 Schnell 微调而成的开源 80 亿参数文生图模型

    Flex.2-preview 是一款开源的文本到图像扩散模型,具有 80 亿参数,支持通用控制和图像修复功能。它基于 Flux.1 Schnell 微调而成,旨在为用户提供更灵活、更强大的图像生成能力...
    图像模型# Flex.2-preview# FLUX.1 [schnell]# 文生图模型
    8个月前
    05860
    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory 是一个专为 Lumina 系列模型设计的多任务指令微调框架,目前支持 Lumina-Image-2.0。该框架通过一系列创新设计,为图像生成和编辑任务提供了强大的支持...
    图像模型# Lumina-Accessory# Lumina-Image 2.0# 图像生成
    8个月前
    02900
    新型3D部件非模态分割模型HoloPart:将3D形状分解为完整的、语义上有意义的部件

    新型3D部件非模态分割模型HoloPart:将3D形状分解为完整的、语义上有意义的部件

    香港大学和VAST的研究人员推出新型3D部件非模态分割模型HoloPart 。该模型旨在将3D形状分解为完整的、语义上有意义的部件,即使这些部件被部分或完全遮挡。这一任务被称为 3D部件非模态分割,是...
    3D模型# 3D部件非模态分割模型# HoloPart
    8个月前
    04050
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单