SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 943 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    Chipmunk:无需训练的动态稀疏性加速DiT模型的推理过程

    Chipmunk:无需训练的动态稀疏性加速DiT模型的推理过程

    扩散模型(Diffusion Models)近年来在图像生成和视频生成领域表现出色,但其计算复杂度也成为了性能瓶颈。特别是基于DiT架构的模型,如FLUX、HunyuanVideo 等,其注意力层和多...
    新技术# Chipmunk# DiT模型# FLUX
    9个月前
    03640
    新型框架Uni3C:通过3D增强技术实现对视频生成中相机和人体运动的精确控制

    新型框架Uni3C:通过3D增强技术实现对视频生成中相机和人体运动的精确控制

    阿里达摩院、复旦大学和湖畔实验室的研究人员推出新型框架Uni3C,旨在通过3D增强技术实现对视频生成中相机和人体运动的精确控制。Uni3C通过将相机控制和人体运动控制统一到一个框架中,解决了现有方法中...
    新技术# Uni3C# 人体运动# 视频生成
    9个月前
    05390
    新型指令式图像编辑框架FireEdit:利用区域感知的视觉语言模型(VLM),实现了对用户指令的细粒度理解和精确图像编辑

    新型指令式图像编辑框架FireEdit:利用区域感知的视觉语言模型(VLM),实现了对用户指令的细粒度理解和精确图像编辑

    中山大学深圳校区、腾讯混元、清华大学和香港科技大学的研究人员推出新型指令式图像编辑框架FireEdit,它通过利用区域感知的视觉语言模型(VLM),实现了对用户指令的细粒度理解和精确图像编辑。Fire...
    新技术# FireEdit# 图像编辑# 视觉语言模型
    10个月前
    04780
    高效的无数据量化方法HIGGS:可快速压缩大语言模型而无需显著牺牲质量

    高效的无数据量化方法HIGGS:可快速压缩大语言模型而无需显著牺牲质量

    近年来,大语言模型(LLM)的快速发展为AI领域带来了巨大的潜力,但其对计算资源的高需求也限制了广泛应用。无论是研究机构还是个人开发者,都面临着高昂的成本和技术门槛。然而,这一局面可能即将被打破。 由...
    新技术# HIGGS# 大语言模型
    10个月前
    02700
    字节跳动推出VAPO框架:让大语言模型在复杂推理任务中更高效

    字节跳动推出VAPO框架:让大语言模型在复杂推理任务中更高效

    字节跳动Seed研究团队发布了一项名为 VAPO 的强化学习训练框架。这一框架专为提升大语言模型(LLM)在复杂、冗长任务中的推理能力而设计,特别是在数学推理和长链推理(Long Chain-of-T...
    新技术# VAPO# 大语言模型# 字节跳动
    10个月前
    04800
    Allen人工智能研究所推出OLMoTrace:让大语言模型透明化,追溯AI决策的真实来源

    Allen人工智能研究所推出OLMoTrace:让大语言模型透明化,追溯AI决策的真实来源

    在企业AI应用中,大语言模型(LLM)的“黑盒”特性一直是阻碍其大规模采用的主要障碍之一。如何理解模型输出的来源、提升透明度并增强信任,成为行业亟需解决的问题。本周,Allen人工智能研究所(Ai2...
    新技术# Ai2# OLMoTrace# 大语言模型
    10个月前
    03410
    动态肖像生成框架FantasyTalking:从单张静态肖像图像生成逼真的、可动画化的动态肖像

    动态肖像生成框架FantasyTalking:从单张静态肖像图像生成逼真的、可动画化的动态肖像

    阿里巴巴和北京邮电大学的研究人员推出动态肖像生成框架FantasyTalking,从单张静态肖像图像生成逼真的、可动画化的动态肖像,使其能够根据音频信号进行自然的表情、口型和肢体动作的生成。 项目主页...
    新技术# FantasyTalking# 动态肖像
    9个月前
    02880
    TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频

    TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频

    英伟达联合斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员,通过引入 Test-Time Training(TTT)层,成功让预训练的 DiT 模型能够从文本故事...
    新技术# CogVideoX-5B# DiT 模型# TTT-Video
    10个月前
    05370
    新型实时文本驱动的说话头像生成框架OmniTalker :在零样本场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格

    新型实时文本驱动的说话头像生成框架OmniTalker :在零样本场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格

    阿里通义实验室推出新型实时文本驱动的说话头像生成框架OmniTalker ,能够在零样本(zero-shot)场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格。OmniTalker ...
    新技术# OmniTalker# 通义实验室
    10个月前
    05390
    新型通用且一致的单目人类重光照和协调模型 Comprehensive Relighting :能够从单张图像或视频中控制和协调任意身体部位的人类的光照属性,并使其与背景场景(即背景图像)自然融合

    新型通用且一致的单目人类重光照和协调模型 Comprehensive Relighting :能够从单张图像或视频中控制和协调任意身体部位的人类的光照属性,并使其与背景场景(即背景图像)自然融合

    南加州大学、Adobe 研究院、Runway的研究人员推出新型通用且一致的单目人类重光照(relighting)和协调(harmonization)模型 Comprehensive Relightin...
    新技术
    10个月前
    02520
    PhysGen3D:从一张图片创造真实物理世界的交互式3D场景

    PhysGen3D:从一张图片创造真实物理世界的交互式3D场景

    清华大学、伊利诺伊大学厄巴纳香槟分校和哥伦比亚大学的研究人员携手推出了一项创新成果—PhysGen3D,将单一图像转化为非模态、以相机为中心的交互式 3D 场景。 项目主页:https://by-lu...
    新技术# 3D场景# PhysGen3D
    10个月前
    04620
    FreSca:用于增强扩散模型在图像编辑和图像理解任务中的性能

    FreSca:用于增强扩散模型在图像编辑和图像理解任务中的性能

    罗切斯特大学、Netflix Eyeline Studios和德克萨斯大学达拉斯分校的研究人员推出 FreSca,用于增强扩散模型(Diffusion Models)在图像编辑和图像理解任务中的性能...
    新技术# FreSca# 图像理解# 图像编辑
    10个月前
    03010
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    中国科技云数据胶囊

    中国科技云数据胶囊

    中国科学院旗下的 中国科技云数据胶囊(Data Capsule)提供 20GB 免费存储空间,支持 标准 S3 与 WebDAV 协议,无需手机号绑定,支持微信/QQ/GitHub 第三方登录,非常适合注重隐私、追求开源生态兼容性的科研用户或个人知识管理者。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单