SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    百科

    共 2229 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    Decart 和 Etched 联手打造的全球首个实时 AI 世界模型Oasis:完全由AI实时生成游戏场景

    Decart 和 Etched 联手打造的全球首个实时 AI 世界模型Oasis:完全由AI实时生成游戏场景

    Oasis 是由 Decart 和 Etched 联手打造的全球首个实时 AI 世界模型。这不仅仅是一个游戏,而是一个完全由 AI 实时生成的互动体验。想象一下,一个无需等待加载、始终以 20fps ...
    新技术# AI 世界模型# Oasis
    1年前
    04320
    v0.app 正式上线:从创意到全栈应用,一个提示即可部署

    v0.app 正式上线:从创意到全栈应用,一个提示即可部署

    一个想法,如何最快变成一个真实可用的应用? 过去,这需要产品经理写文档、设计师画原型、工程师写前后端代码。而现在,只需一个自然语言提示,v0.app 就能自动生成完整的全栈应用程序——包括用户界面、内...
    早报# v0.app
    4个月前
    04310
    深圳大学推出Attention Distillation:用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中

    深圳大学推出Attention Distillation:用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中

    深圳大学的研究团队介绍了一种名为 Attention Distillation (AD) 的方法,用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中。该方法通过计算预训练扩散模型中的自注...
    新技术# Attention Distillation# 参考图像# 深圳大学
    10个月前
    04300
    FilmComposer:利用大语言模型驱动的方法为无声电影片段生成音乐

    FilmComposer:利用大语言模型驱动的方法为无声电影片段生成音乐

    上海大学和上海电影特效工程技术研究中心的研究人员推出 FilmComposer,利用大语言模型(LLM)驱动的方法为无声电影片段生成音乐。FilmComposer 旨在模拟专业音乐家的实际工作流程,结...
    新技术# FilmComposer# 大语言模型# 音乐
    9个月前
    04290
    灵活视觉变换器FiT v2:根据给定的文本描述或已有的图像,生成高质量、高分辨率的新图像

    灵活视觉变换器FiT v2:根据给定的文本描述或已有的图像,生成高质量、高分辨率的新图像

    自然界的图像具有无穷的分辨率,而现有的扩散模型(如扩散变换器)在处理超出其训练领域的图像分辨率时常常面临挑战。为了解决这一限制,研究人员提出了一种新的视角,将图像概念化为具有动态大小的令牌序列,而不是...
    新技术# FiT v2# 灵活视觉变换器
    1年前
    04290
    清华大学与瑞莱智慧联合团队推出RealSafe-R1:基于 DeepSeek R1 的安全优化大语言模型

    清华大学与瑞莱智慧联合团队推出RealSafe-R1:基于 DeepSeek R1 的安全优化大语言模型

    随着大语言模型(LLMs)在各个领域的广泛应用,其安全性问题日益受到关注。尽管这些模型在性能上表现出色,但在面对恶意查询和越狱攻击时,仍存在一定的风险。为了应对这一挑战,清华大学与瑞莱智慧联合团队推出...
    新技术# DeepSeek-R1# RealSafe-R1# 大语言模型
    10个月前
    04260
    DrawingSpinUp:将单一的平面角色绘画转换成三维动画,同时保留了原始艺术作品的风格和特征

    DrawingSpinUp:将单一的平面角色绘画转换成三维动画,同时保留了原始艺术作品的风格和特征

    香港城市大学的研究人员推出创新系统DrawingSpinUp,它能够将单一的平面角色绘画转换成三维动画,同时保留了原始艺术作品的风格和特征。这就像是给一张静态的画注入生命,让它动起来,比如让一个纸上的...
    新技术# DrawingSpinUp
    1年前
    04240
    Warp 2.0 发布:全球首个代理开发环境来了

    Warp 2.0 发布:全球首个代理开发环境来了

    今天,Warp 正式发布 Warp 2.0 ——全球首个代理开发环境(Agentic Development Environment,简称 ADE)。 这不是一次简单的更新,而是一次产品理念的进化:从...
    早报# Warp 2.0# 代理开发环境
    6个月前
    04230
    开源版风格参考StyleCodes:能够将图像风格表达为一个 20 符号的 base64 代码

    开源版风格参考StyleCodes:能够将图像风格表达为一个 20 符号的 base64 代码

    扩散模型在图像生成方面取得了显著的成功,但如何有效地控制生成图像的风格仍然是一个挑战。虽然使用示例图像可以实现风格控制,但这种方法存在一些不便:示例图像体积较大,不易于分享,且可能涉及隐私问题。为此...
    新技术# Midjourney# StyleCodes# 风格参考
    1年前
    04230
    结合了大语言模型与文生图模型的新框架SGEdit:用于基于场景图的精确和灵活的图像编辑

    结合了大语言模型与文生图模型的新框架SGEdit:用于基于场景图的精确和灵活的图像编辑

    场景图提供了一种结构化、层次化的图像表示方式,其中节点和边分别代表图像中的对象及其相互关系。这种方式不仅能够帮助用户更直观地理解图像内容,还能作为图像编辑的有效接口,极大提升了编辑工作的准确性和灵活性...
    新技术# SGEdit# 图像编辑# 大语言模型
    1年前
    04230
    CoRe:用于文本到图像个性化的上下文正则化文本嵌入学习

    CoRe:用于文本到图像个性化的上下文正则化文本嵌入学习

    中山大学和香港理工大学的研究人员推出文本对齐新技术CoRe,它用于提升文本到图像个性化生成的效果。简单来说,CoRe技术可以帮助人工智能系统更好地理解用户通过文本提供的概念,并生成与这些概念和文本描述...
    新技术# CoRe
    1年前
    04230
    EvolveDirector 框架:通过使用公开可用的资源来训练一个能够与高级文生图模型相媲美的模型

    EvolveDirector 框架:通过使用公开可用的资源来训练一个能够与高级文生图模型相媲美的模型

    近年来,生成模型在生成高质量图像方面取得了显著进展,但大多数模型依赖于专有的高质量数据集,并且有些模型保留了其参数,只提供可访问的应用程序编程接口(APIs)。这限制了这些模型在下游任务中的应用。为了...
    新技术# EvolveDirector# 文生图模型
    1年前
    04220
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    云文档查找工具

    云文档查找工具

    云文档分享站支持一键搜索飞书、Notion、语雀、FlowUS等平台云文档,目前已收录优质文档666个
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    Poe API

    Poe API

    Quora 旗下的 AI 聚合平台 Poe 正式推出 开发者 API,允许开发者通过统一接口,调用平台上超过 100 款文本、图像、语音和视频生成模型。
    OpenSkills

    OpenSkills

    OpenSkills 是 Anthropic的 Claude Skills 系统的开源实现。它让 Cursor、Windsurf、Aider 等主流 AI 编码代理也能使用与 Claude Code 完全兼容的技能系统——相同的提示格式、相同的文件结构、相同的渐进式披露机制,只是调用方式从内置工具变为 CLI 命令。
    必应图像创建器

    必应图像创建器

    微软必应旗下的图像创建器(Bing Image Creator)是基于基于OpenAI 的 DALL-E 图片生成技术,可以让用户通过输入一些自然语言的指令(咒语),生成各种有趣和创意的图片。此工具以后也将会是必应搜索的一部分,用户可以在网页上直接使用,也可以通过Bing Chat来使用。
    查看完整榜单