SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    百科

    共 2206 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    视觉布局CGB-DM:基于Transformer的扩散模型的内容与图形平衡布局生成方法

    视觉布局CGB-DM:基于Transformer的扩散模型的内容与图形平衡布局生成方法

    清华大学的研究人员推出基于Transformer的扩散模型的内容与图形平衡布局生成方法CGB-DM,简单来说,CGB-DM是一个智能设计系统,它可以根据文本描述生成既美观又和谐的视觉布局。这就像是给一...
    新技术# CGB-DM# 视觉布局
    1年前
    07560
    步态感知偏好优化SPO:改进SD模型的训练过程,使其生成的图像更符合人类的审美偏好

    步态感知偏好优化SPO:改进SD模型的训练过程,使其生成的图像更符合人类的审美偏好

    来自澳大利亚国立大学、利物浦大学、东南大学和微软亚洲研究院的研究人员推出新技术Step-aware Preference Optimization(SPO,步态感知偏好优化),用于改进文本到图像的扩散...
    新技术# SD模型# SPO# 步态感知偏好优化
    2年前
    07540
    BroadWay:提升文生视频模型的质量,而且不需要额外的训练

    BroadWay:提升文生视频模型的质量,而且不需要额外的训练

    上海交通大学、中国科学技术大学、香港中文大学和上海人工智能实验室的研究人员推出为BroadWay,它能够提升文生视频模型的质量,而且不需要额外的训练。这就像是给视频生成模型安装了一个“涡轮增压器”,让...
    新技术# BroadWay# 文生视频模型
    1年前
    07530
    20B 与 120B 模型上线!Ollama 一键运行 OpenAI 最新开源模型gpt-oss

    20B 与 120B 模型上线!Ollama 一键运行 OpenAI 最新开源模型gpt-oss

    Ollama 宣布与 OpenAI 合作,将后者最新发布的开放权重模型 gpt-oss-20b 和 gpt-oss-120b 正式引入其平台。 这是 OpenAI 自 GPT-2 以来首批开放权重语言...
    教程# gpt-oss# Ollama# OpenAI
    4个月前
    07510
    新型视频生成模型FancyVideo:根据文本提示生成动态丰富且时间上连贯的视频

    新型视频生成模型FancyVideo:根据文本提示生成动态丰富且时间上连贯的视频

    360 AI研究中心和中山大学的研究人员推出新型视频生成模型FancyVideo,它能够根据文本提示生成动态丰富且时间上连贯的视频。FancyVideo通过精心设计的跨帧文本引导模块(CTGM)改进了...
    新技术# FancyVideo
    1年前
    07510
    Controlnet作者lllyasviel新开源项目Omost:将大语言模型的编程能力转化为图像合成能力

    Controlnet作者lllyasviel新开源项目Omost:将大语言模型的编程能力转化为图像合成能力

    Controlnet作者lllyasviel的新开源项目Omost,这是一个将大语言模型的编程能力转化为图像合成能力的项目。项目名称“Omost”(发音类似于“almost”,意为“几乎”)蕴含双重意...
    新技术# controlnet# lllyasviel# Omost
    2年前
    07510
    商汤研究院推出文本嵌入模型Piccolo2

    商汤研究院推出文本嵌入模型Piccolo2

    商汤研究院推出文本嵌入模型Piccolo2,它在多个任务上的表现超越了其他模型,并在CMTEB基准测试中创下了新的最高标准。文本嵌入是一种将文本转换成数值向量的技术,这些向量能够捕捉单词、短语或整篇文...
    新技术# Piccolo2# 商汤研究院# 文本嵌入模型
    2年前
    07500
    视频编辑框架VideoSwap:让用户自定义视频中的主要对象(例如人物、动物或物体),同时保持背景不变

    视频编辑框架VideoSwap:让用户自定义视频中的主要对象(例如人物、动物或物体),同时保持背景不变

    来自新加坡国立大学和Meta推出视频编辑框架VideoSwap,它能够让用户自定义视频中的主要对象(例如人物、动物或物体),同时保持背景不变。你还可以通过交互式操作(如添加、删除等)进一步细化交换结果...
    新技术# VideoSwap# 视频编辑框架
    2年前
    07500
    ToDo:为了提高高分辨率图像生成的效率而设计

    ToDo:为了提高高分辨率图像生成的效率而设计

    来自Leonardo AI的研究人员推出ToDo(Token Downsampling),它是为了提高高分辨率图像生成的效率而设计的。这种方法主要是为了解决图像扩散模型在处理大图像时面临的时间和内存限...
    新技术# ToDo# 扩散模型
    2年前
    07500
    谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion

    谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion

    谷歌的研究团队推出了新的文生图模型MobileDiffusion,它能够在手机上几乎瞬间(亚秒级)生成高质量的图片。该模型在架构和采样技术方面进行广泛优化,在iPhone 15 Pro上,Mobile...
    新技术# MobileDiffusion# 安卓# 扩散模型
    2年前
    07500
    视频编辑框架AnyV2V:根据文本提示、主题或风格等不同的输入来编辑视频

    视频编辑框架AnyV2V:根据文本提示、主题或风格等不同的输入来编辑视频

    来自滑铁卢大学、Vector研究所和Harmony.AI的研究团队推出新型视频编辑框架AnyV2V,它能够让用户根据文本提示、主题或风格等不同的输入来编辑视频。 项目主页 GitHub Demo 想象...
    新技术# AnyV2V# 视频编辑
    2年前
    07490
    合成语言-视觉数据集StableSemantics:专注于自然图像中的语义表示

    合成语言-视觉数据集StableSemantics:专注于自然图像中的语义表示

    卡内基·梅隆大学的研究人员推出合成语言-视觉数据集StableSemantics,它专注于自然图像中的语义表示。简单来说,这个数据集旨在帮助计算机视觉系统更好地理解图像中的场景和对象的语义含义。它涵盖...
    新技术# StableSemantics# 合成语言-视觉数据集
    1年前
    07480
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    DeepAnalyze

    DeepAnalyze

    DeepAnalyze 是首个用于自主数据科学的智能体式 LLM,它能够在无需人工干预的情况下自主完成广泛的数据中心任务。其核心模型 DeepAnalyze-8B 仅用 80 亿参数,就在多项数据科学任务上超越了基于主流闭源大模型构建的预定义工作流智能体,标志着自主数据科学从“可能”走向“可行”。
    查看完整榜单