SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1026 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    新型统一多模态模型家族 BLIP3-o:同时支持图像理解和图像生成任务

    新型统一多模态模型家族 BLIP3-o:同时支持图像理解和图像生成任务

    Salesforce、马里兰大学、弗吉尼亚理工大学、纽约大学、华盛顿大学和加州大学戴维斯分校的研究人员推出新型统一多模态模型家族 BLIP3-o ,同时支持图像理解和图像生成任务。多模态模型是指能够处...
    多模态模型# BLIP3-o# 多模态模型
    7个月前
    02170
    A-M-team推出32B密集语言模型AM-Thinking-v1:专注增强推理能力

    A-M-team推出32B密集语言模型AM-Thinking-v1:专注增强推理能力

    A-M-team推出了AM-Thinking-v1,一款基于Qwen 2.5-32B-Base构建的32B密集语言模型,专注于提升推理能力。在推理基准测试中,AM-Thinking-v1表现出色,可媲...
    大语言模型# AM-Thinking-v1# 推理模型
    7个月前
    03780
    阿里通义实验室 Wan 团队正式释出Wan2.1-VACE模型:支持视频生成与编辑的模型

    阿里通义实验室 Wan 团队正式释出Wan2.1-VACE模型:支持视频生成与编辑的模型

    阿里通义实验室Wan 团队正式释出了Wan2.1-VACE模型,这是一款支持视频生成与编辑的模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全...
    视频模型
    7个月前
    02180
    Stability AI发布可在智能手机运行的音频生成模型Stable Audio Open Small

    Stability AI发布可在智能手机运行的音频生成模型Stable Audio Open Small

    AI 初创公司 Stability AI 发布了 Stable Audio Open Small,这是一款专为移动设备设计的音频生成模型。据公司宣称,这是目前市场上最快的音频生成模型,并且效率高到可以...
    语音模型# Stability AI# Stable Audio Open Small
    7个月前
    02130
    多模态语音交互的端到端大型语音模型 VITA-Audio

    多模态语音交互的端到端大型语音模型 VITA-Audio

    腾讯优图实验室、南京大学和厦门大学的研究人员推出用于高效多模态语音交互的端到端大型语音模型 VITA-Audio,VITA-Audio 的目标是通过快速生成音频和文本令牌,显著降低流式语音交互中的延迟...
    语音模型# VITA-Audio# 语音模型
    7个月前
    02190
    天工AI推出用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward

    天工AI推出用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward

    天工AI(Skywork AI)推出一个用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward,此模型是基于Qwen2.5-VL-7B-Instruct训练,Skywork-VL ...
    多模态模型# Skywork-VL Reward# 多模态奖励模型# 天工AI
    7个月前
    02970
    基于 Qwen3 的混合专家(MoE)模型Arcana Qwen3 2.4B A0.6B

    基于 Qwen3 的混合专家(MoE)模型Arcana Qwen3 2.4B A0.6B

    Arcana Qwen3 2.4B A0.6B 是一个基于 Qwen3 的混合专家(MoE)模型,总参数量为 24 亿,每个专家模型拥有 6 亿参数。该模型旨在提供更高的准确性、更高的效率和更低的内存...
    大语言模型# Arcana Qwen3 2.4B A0.6B# MoE模型# Qwen3
    7个月前
    02260
    阶跃星辰推出用于生成高保真度和可控制的纹理化3D资产的开放框架Step1X-3D

    阶跃星辰推出用于生成高保真度和可控制的纹理化3D资产的开放框架Step1X-3D

    阶跃星辰推出一个用于生成高保真度和可控制的纹理化3D资产的开放框架Step1X-3D,该框架旨在解决3D生成领域面临的挑战,包括数据稀缺性、算法限制和生态系统碎片化。Step1X-3D通过以下三个主要...
    3D模型# 3D资产# Step1X-3D# 阶跃星辰
    7个月前
    02030
    苹果推出高效视觉语言模型FastVLM:通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

    苹果推出高效视觉语言模型FastVLM:通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

    苹果推出一种高效视觉语言模型FastVLM,旨在通过优化视觉编码器(Vision Encoder)来提高模型在处理高分辨率图像任务时的效率和性能。FastVLM的核心是其创新的视觉编码器 FastVi...
    多模态模型# FastVLM# 苹果# 视觉语言模型
    7个月前
    02530
    字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

    字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

    字节跳动正式推出 Seed1.5-VL,这是一款专注于提升多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 不仅在视觉和视频理解任务中表现出色,还在智能体相关任务及复杂推理挑战中展现了卓...
    多模态模型# Seed1.5-VL# 字节跳动# 视觉-语言基础模型
    7个月前
    03430
    基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI:,接受手机屏幕图像作为输入,自动执行用户提出的任务

    基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI:,接受手机屏幕图像作为输入,自动执行用户提出的任务

    AgentCPM-GUI是由清华大学THUNLP实验室与面壁智能团队联合开发的开源端侧智能体大模型,基于MiniCPM-V构建,总参数量8B,接受手机屏幕图像作为输入,自动执行用户提出的任务。 Git...
    多模态模型# AgentCPM-GUI# MiniCPM-V# 智能体大模型
    7个月前
    03320
    新型图像训练自由方法 IP-Composer:从多个视觉概念中合成图像

    新型图像训练自由方法 IP-Composer:从多个视觉概念中合成图像

    特拉维夫大学和英伟达的研究人员介绍了一种名为 IP-Composer 的新型训练自由(training-free)方法,用于从多个视觉概念中合成图像。该方法通过自然语言描述从输入图像中提取特定概念,并...
    图像模型# IP-Composer
    7个月前
    03520
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    A2UI

    A2UI

    A2UI 是一个开源项目,它包含一个为表示可更新的智能体生成界面而优化的格式以及一套初始渲染器,使得智能体能够生成或填充丰富的用户界面。
    查看完整榜单