SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    百科

    共 2230 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    视频插值方法ViBiDSampler:专门用于在两个关键帧之间生成平滑且逼真的中间帧,从而创建流畅的视频过渡效果

    视频插值方法ViBiDSampler:专门用于在两个关键帧之间生成平滑且逼真的中间帧,从而创建流畅的视频过渡效果

    韩国科学技术研究院推出视频插值方法ViBiDSampler,这种方法专门用于在两个关键帧之间生成平滑且逼真的中间帧,从而创建流畅的视频过渡效果。ViBiDSampler引入了一种新颖的双向采样策略,以...
    新技术# ViBiDSampler# 视频插值方法
    1年前
    04220
    新型视频生成模型Factorized-Dreamer:用于将文本转换成高质量的视频

    新型视频生成模型Factorized-Dreamer:用于将文本转换成高质量的视频

    字节跳动和香港理工大学的研究人员推出新型视频生成模型Factorized-Dreamer,它专门用于将文本转换成高质量的视频(Text-to-Video, T2V)。Factorized-Dreame...
    新技术# Factorized-Dreamer# 视频生成模型
    1年前
    04220
    BLIP3-KALE:包含2.18亿个图像-文本对的数据集

    BLIP3-KALE:包含2.18亿个图像-文本对的数据集

    华盛顿大学、Salesforce Research、斯坦福大学和加州大学伯克利分校推出一个包含2.18亿个图像-文本对的数据集BLIP3-KALE,它弥合了描述性合成字幕和网络规模的事实性替代文本之间...
    新技术# BLIP3-KALE# 数据集
    1年前
    04200
    新型图像生成技术“集合自回归模型”(SAR):通过改变图像生成的顺序和方式,使得生成图像的速度和灵活性都得到了极大的提升

    新型图像生成技术“集合自回归模型”(SAR):通过改变图像生成的顺序和方式,使得生成图像的速度和灵活性都得到了极大的提升

    香港中文大学MMLab 、上海人工智能实验室和南京大学的研究人员推出一种新的图像生成技术“集合自回归模型”(Set AutoRegressive Modeling,简称SAR)。你可以把它想象成一个超...
    新技术# SAR# 图像生成# 集合自回归模型
    1年前
    04200
    3D纹理生成框架MVPaint:根据文本指令自动生成高分辨率、无缝的3D纹理

    3D纹理生成框架MVPaint:根据文本指令自动生成高分辨率、无缝的3D纹理

    腾讯PCG、上海人工智能实验室、南洋理工大学S-Lab和清华大学的研究人员推出3D纹理生成框架MVPaint,它能够根据文本指令自动生成高分辨率、无缝的3D纹理。MVPaint通过同步多视图扩散模型来...
    新技术# 3D纹理生成# MVPaint
    1年前
    04190
    新型多模态大语言模型PUMA:不仅能理解文本指令,还能根据这些指令创作出精细的图像,或者对现有图像进行精确的编辑

    新型多模态大语言模型PUMA:不仅能理解文本指令,还能根据这些指令创作出精细的图像,或者对现有图像进行精确的编辑

    近年来,多模态基础模型在视觉-语言理解领域取得了显著进展,同时也开始探索多模态大语言模型(MLLMs)在视觉内容生成方面的潜力。然而,现有的工作在统一MLLM范式中处理不同图像生成任务的多样化粒度需求...
    百科# PUMA# 多模态大语言模型
    1年前
    04180
    新型文本到图像的扩散模型优化方法迭代对象计数优化:准确地生成指定数量的对象

    新型文本到图像的扩散模型优化方法迭代对象计数优化:准确地生成指定数量的对象

    特拉维夫大学和巴伊兰大学的研究人员推出一种新的文本到图像的扩散模型优化方法,这个方法被称为“迭代对象计数优化”(Iterative Object Count Optimization)。这个方法主要解...
    新技术# 迭代对象计数优化
    1年前
    04180
    谷歌推出基于 Gemini 的新文本嵌入模型Gemini Embedding

    谷歌推出基于 Gemini 的新文本嵌入模型Gemini Embedding

    谷歌于周五在其 Gemini 开发者 API 中添加了一款新的实验性文本“嵌入”模型——Gemini Embedding。这款新型嵌入模型旨在将文本输入(如单词和短语)转化为数值表示,即嵌入(embe...
    早报# Gemini# Gemini Embedding# 文本嵌入模型
    10个月前
    04170
    辅导作业逼疯了多少家长?AI教育助手VideoTutor帮你轻松搞定

    辅导作业逼疯了多少家长?AI教育助手VideoTutor帮你轻松搞定

    家里有中小学生的家长一定深有体会:孩子的日常学习辅导是个难题。 不是不想帮,而是很多时候我们自己也讲不明白,或者讲了孩子听不懂。面对一道数学题,常常是越辅导越崩溃。 在这样的背景下,AI 技术的进步确...
    教程# VideoTutor# 教育助手
    7个月前
    04160
    Liblib AI推出基于 ControlNet 框架RepText:实现中文文本的准确生成

    Liblib AI推出基于 ControlNet 框架RepText:实现中文文本的准确生成

    在当今的文本到图像生成领域,尽管模型在生成视觉上吸引人的图像方面取得了显著进步,但在处理精确且灵活的排版元素时,尤其是对于非拉丁字母,仍然存在明显的局限性。这种局限性主要源于文本编码器在处理多语言输入...
    新技术# controlnet# Liblib AI# RepText
    8个月前
    04160
    微软生成式AI模型WHAMM,让你现在可以在浏览器中玩实时AI渲染的《雷神之锤2》

    微软生成式AI模型WHAMM,让你现在可以在浏览器中玩实时AI渲染的《雷神之锤2》

    微软昨天推出了一项令人瞩目的技术——WHAMM(World and Human Action MaskGIT Model),这是一个专门用于实时游戏的生成式AI模型。为了展示其强大功能,微软选择了28...
    早报# WHAMM# 微软# 雷神之锤2
    9个月前
    04160
    微软旗下的AI编程助手GitHub Copilot引入新限制,对高级AI模型的使用收费

    微软旗下的AI编程助手GitHub Copilot引入新限制,对高级AI模型的使用收费

    微软旗下的AI编程助手GitHub Copilot,正在引入新的限制措施,并对高级AI模型的使用收费。这一变化可能会让部分用户感到意外,但也反映了AI模型计算成本上升的现实。 新限制与收费细节 1. ...
    早报# GitHub Copilot# 微软
    9个月前
    04150
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    云文档查找工具

    云文档查找工具

    云文档分享站支持一键搜索飞书、Notion、语雀、FlowUS等平台云文档,目前已收录优质文档666个
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    Poe API

    Poe API

    Quora 旗下的 AI 聚合平台 Poe 正式推出 开发者 API,允许开发者通过统一接口,调用平台上超过 100 款文本、图像、语音和视频生成模型。
    OpenSkills

    OpenSkills

    OpenSkills 是 Anthropic的 Claude Skills 系统的开源实现。它让 Cursor、Windsurf、Aider 等主流 AI 编码代理也能使用与 Claude Code 完全兼容的技能系统——相同的提示格式、相同的文件结构、相同的渐进式披露机制,只是调用方式从内置工具变为 CLI 命令。
    查看完整榜单