SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1188 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    基于两阶段框架的唇部同步方法KeySync:能够生成高分辨率、时间连贯且与音频对齐的视频,同时有效减少表情泄漏并处理面部遮挡

    基于两阶段框架的唇部同步方法KeySync:能够生成高分辨率、时间连贯且与音频对齐的视频,同时有效减少表情泄漏并处理面部遮挡

    唇部同步(Lip Synchronization)是指将视频中的唇部动作与新的输入音频对齐,使其在视觉上看起来自然且与音频同步。尽管这一领域与音频驱动的面部动画(Audio-driven Facial...
    视频模型# KeySync# 唇形同步# 唇部同步
    11个月前
    04260
    英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2:专为高质量英语语音转录设计

    英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2:专为高质量英语语音转录设计

    英伟达推出的 Parakeet-TDT-0.6B-v2 是一款拥有 6 亿参数的自动语音识别(ASR)模型,专为高质量英语语音转录设计。该模型支持标点符号、大写和精准的时间戳预测,能够处理长达 24 ...
    语音模型# Parakeet-TDT-0.6B-v2# 自动语音识别模型自动语音识别模型# 英伟达
    11个月前
    04810
    图像修复模型PixelHacker:基于潜在类别引导并结合扩散模型,显著提升图像修复质量

    图像修复模型PixelHacker:基于潜在类别引导并结合扩散模型,显著提升图像修复质量

    图像修复(Image Inpainting)是计算机视觉领域的重要研究方向,旨在通过生成合理的图像内容填补缺失或损坏的部分。然而,现有方法在处理复杂结构(如纹理、形状和空间关系)以及语义一致性(如颜色...
    图像模型# PixelHacker# 图像修复模型
    11个月前
    04400
    Watermark-Detection-SigLIP2:高效检测图像水印的视觉语言模型

    Watermark-Detection-SigLIP2:高效检测图像水印的视觉语言模型

    在数字内容管理中,水印检测是一项关键任务。无论是内容审核、数据集清理,还是版权保护,快速准确地识别图像中的水印都能显著提升工作效率。Watermark-Detection-SigLIP2 是一款基于谷...
    多模态模型# Watermark-Detection-SigLIP2# 水印检测
    11个月前
    05640
    浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit:用自然语言指令轻松实现图像修改

    浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit:用自然语言指令轻松实现图像修改

    浙江大学和哈佛大学的研究人员联合推出了ICEdit(In-Context Edit),这是一个高效且强大的基于指令的图像编辑框架。 与传统方法相比,ICEdit 仅需 1% 的可训练参数(2 亿)和 ...
    图像模型# FLUX# ICEdit# In-Context Edit
    11个月前
    06340
    艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

    艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

    艾伦AI研究所(AI2)于周四发布了 Olmo 2 1B,这是一个拥有 10 亿参数的 AI 模型。AI2 宣称,该模型在多项基准测试中击败了谷歌、Meta 和阿里巴巴的同规模模型。尽管参数数量相对较...
    大语言模型# Olmo 2 1B# 艾伦AI研究所
    11个月前
    02420
    思科发布专为网络安全打造的开源模型 Foundation-sec-8b

    思科发布专为网络安全打造的开源模型 Foundation-sec-8b

    思科宣布其在AI领域的重大进展——推出首个由全新成立的Foundation AI团队开发的大语言模型(LLM):Llama-3.1-FoundationAI-SecurityLLM-base-8B(简...
    大语言模型# Foundation-sec-8b# 思科
    11个月前
    05580
    深度研究代理WebThinker:为大型推理模型提供深度研究能力

    深度研究代理WebThinker:为大型推理模型提供深度研究能力

    中国人民大学、智源研究院和华为的研究人员推出一个深度研究代理WebThinker,旨在为大型推理模型(Large Reasoning Models, LRMs)提供深度研究能力。WebThinker ...
    大语言模型# WebThinker# 推理模型# 深度研究代理
    11个月前
    02340
    微软推出Phi-4系列推理模型:Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning

    微软推出Phi-4系列推理模型:Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning

    一年前,微软推出了Phi-3,开启了小型语言模型(SLM)的新篇章。这些模型以其高效性和灵活性迅速吸引了广泛关注。如今,在 Phi 系列发布一周年之际,微软再次突破技术边界,推出了三款全新推理模型:P...
    大语言模型# Phi-4-mini-reasoning# Phi-4-reasoning# Phi-4-reasoning-plus
    11个月前
    02200
    DeepSeek 推出 DeepSeek-Prover-V2:为 Lean 4 形式化定理证明设计的开源大语言模型

    DeepSeek 推出 DeepSeek-Prover-V2:为 Lean 4 形式化定理证明设计的开源大语言模型

    DeepSeek于4月30日发布了 DeepSeek-Prover-V2,这是一个专门用于 Lean 4 形式化定理证明的开源大语言模型。该模型的设计目标是将非形式化的数学推理与形式化的证明构建整合到...
    大语言模型# DeepSeek# DeepSeek-Prover-V2# DeepSeek-Prover-V2-671B
    11个月前
    02580
    阿里Qwen团队发布端到端多模态模型Qwen2.5-Omni-3B

    阿里Qwen团队发布端到端多模态模型Qwen2.5-Omni-3B

    阿里Qwen团队在发布Qwen3系列模型后,又推出Qwen2.5-Omni系列的一个新模型Qwen2.5-Omni-3B,这是一个端到端多模态模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并...
    多模态模型# Qwen# Qwen2.5-Omni-3B# 阿里巴巴
    11个月前
    04660
    JetBrains推出其首个用于编码的开源模型Mellum,主要功能为代码补全

    JetBrains推出其首个用于编码的开源模型Mellum,主要功能为代码补全

    软件开发公司JetBrains,以提供一系列流行应用程序开发工具而闻名,它们在今天发布了其首个用于编码的开源模型——Mellum。这款模型于周三在Hugging Face平台上公开,通过高度专业化的代...
    大语言模型# JetBrains# 代码模型# 代码补全
    11个月前
    01980
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单