SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    百科

    共 2288 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    多模态大语言模型LITA:专门设计来处理视频中的时间定位问题

    多模态大语言模型LITA:专门设计来处理视频中的时间定位问题

    英伟达推出多模态大语言模型LITA(Language Instructed Temporal-Localization Assistant),它专门设计来处理视频中的时间定位问题。 GitHub 论文...
    新技术# LITA# 多模态大语言模型
    2年前
    08100
    新型自编码器LiteVAE:用于提高图像生成模型中的效率和性能

    新型自编码器LiteVAE:用于提高图像生成模型中的效率和性能

    来自苏黎世联邦理工学院和迪士尼研究工作室的研究人员推出新型自编码器LiteVAE,它被设计用于提高图像生成模型中的效率和性能。自编码器是一类神经网络,它们通过学习数据的压缩表示来重构数据。在图像处理中...
    新技术# LiteVAE# 自编码器
    2年前
    08080
    Meta推出多模态基础模型家族Chameleon:专为理解和生成图像与文本而设计

    Meta推出多模态基础模型家族Chameleon:专为理解和生成图像与文本而设计

    Meta推出多模态基础模型家族Chameleon,它们是专为理解和生成图像与文本而设计,多模态意味着这些模型能够同时处理多种类型的数据,比如图片和文字。例如,你给Chameleon一个描述或者一张图片...
    新技术# Chameleon# Meta# 多模态基础模型
    2年前
    08070
    新型图像生成蒸馏模型LinFusion:利用文本提示生成高分辨率的图像

    新型图像生成蒸馏模型LinFusion:利用文本提示生成高分辨率的图像

    新加坡国立大学学习与视觉实验室的研究人员推出新型图像生成模型LinFusion,它能够利用文本提示生成高分辨率的图像。LinFusion的核心在于它采用了一种新颖的线性注意力机制,这使得它在处理大量像...
    新技术# LinFusion# 蒸馏模型
    1年前
    08040
    字节跳动推出新型视频生成技术CamTrol:为现有的视频扩散模型增添摄像机运动操控功能

    字节跳动推出新型视频生成技术CamTrol:为现有的视频扩散模型增添摄像机运动操控功能

    中国科学技术大学和字节跳动的研究人员推出新型视频生成技术CamTrol,这是一种无需训练的、强大的解决方案,可以为现有的视频扩散模型增添摄像机运动操控功能。简单来说,就是可以在不经过额外训练的情况下...
    新技术# CamTrol# 字节跳动# 视频生成
    2年前
    08010
    Follow-Your系列新框架Follow-Your-Pose v2:用于于角色图像动画的框架,可以根据一系列的动作信号(比如视频、深度图或姿势序列)生成动画视频

    Follow-Your系列新框架Follow-Your-Pose v2:用于于角色图像动画的框架,可以根据一系列的动作信号(比如视频、深度图或姿势序列)生成动画视频

    来自腾讯混元团队、中山大学、香港科技大学的研究人员推出Follow-Your系列新框架Follow-Your-Pose v2,这是去年发布的Follow-Your-Pose升级版,这是一个用于于角色图...
    新技术# Follow-Your-Pose v2# 动画视频
    2年前
    08000
    LaVi-Bridge:将不同的语言模型和生成视觉模型结合起来,用于文生图

    LaVi-Bridge:将不同的语言模型和生成视觉模型结合起来,用于文生图

    来自香港大学、香港中文大学、香港科技大学的研究团队推出LaVi-Bridge,它能够将不同的语言模型和生成视觉模型结合起来,用于文本到图像的生成任务。通过利用LoRA和适配器技术,LaVi-Bridg...
    新技术# LaVi-Bridge# 文生图
    2年前
    08000
    EmoKnob:允许在语音合成中对任意情感进行细粒度控制的框架

    EmoKnob:允许在语音合成中对任意情感进行细粒度控制的框架

    哥伦比亚大学的研究人员推出一个允许在语音合成中对任意情感进行细粒度控制的框架EmoKnob,它用于提升语音克隆技术,只需少量示 范样本,允许用户在语音合成中精细控制情感及其强度。简单来说,EmoKno...
    新技术# EmoKnob# 语音克隆
    1年前
    07990
    图像和视频生成框架StoryDiffusion:能够生成一系列内容一致的图像和视频

    图像和视频生成框架StoryDiffusion:能够生成一系列内容一致的图像和视频

    来自南开大学和字节跳动的研究人员推出一种新的图像和视频生成框架StoryDiffusion,这项技术的核心在于它能够生成一系列内容一致的图像和视频,这对于讲述一个故事或者展示一个连贯的场景来说非常重要...
    新技术# StoryDiffusion# 图像生成# 视频生成
    2年前
    07970
    虚拟服装试穿工具OOTDiffusion:革新你的虚拟试衣体验

    虚拟服装试穿工具OOTDiffusion:革新你的虚拟试衣体验

    OOTDiffusion是一款开源虚拟服装试穿工具,它利用潜在扩散模型(latent diffusion models)的强大能力实现了前所未有的高精度和可控性试穿体验。 GitHub:https...
    新技术# OOTDiffusion# 虚拟服装
    2年前
    07960
    图像编辑技术ObjectDrop:专注于实现照片级别的物体移除和插入

    图像编辑技术ObjectDrop:专注于实现照片级别的物体移除和插入

    来自谷歌和耶路撒冷希伯来大学的研究团队推出图像编辑技术ObjectDrop,专注于实现照片级别的物体移除和插入。这项技术的目标是在不违反物理规律(例如遮挡、阴影和反射)的前提下,对图像进行编辑,使得编...
    百科# ObjectDrop# 图像编辑
    2年前
    07940
    Meta发布世界模型早期版本V-JEPA:无需人工标注或指导,自主学习视频中的视觉信息

    Meta发布世界模型早期版本V-JEPA:无需人工标注或指导,自主学习视频中的视觉信息

    Meta今日推出V-JEPA(Video Joint-Embedding Predictive Architecture)模型,一种通过观看视频来教机器理解和模拟物理世界的方法,以迈向利用对世界的学习...
    新技术# Meta# V-JEPA# 世界模型
    2年前
    07920
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    中国科技云数据胶囊

    中国科技云数据胶囊

    中国科学院旗下的 中国科技云数据胶囊(Data Capsule)提供 20GB 免费存储空间,支持 标准 S3 与 WebDAV 协议,无需手机号绑定,支持微信/QQ/GitHub 第三方登录,非常适合注重隐私、追求开源生态兼容性的科研用户或个人知识管理者。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单