SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1055 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku

    字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku

    香港大学和字节跳动的研究人员推出新型图像和视频生成模型家族Goku,它基于修正流Transformer 架构,实现了行业领先的图像和视频联合生成性能。Goku 的目标是通过高质量的视觉内容生成,推动媒...
    视频模型# Goku# 字节跳动# 视频生成
    11个月前
    04600
    新型3D感知视频扩散模型Diffusion as Shader:通过3D控制信号实现多样化且精确的视频生成控制

    新型3D感知视频扩散模型Diffusion as Shader:通过3D控制信号实现多样化且精确的视频生成控制

    香港科技大学、浙江大学、香港大学、南洋理工大学、武汉大学和德克萨斯A&M大学的研究人员推出新型3D感知视频扩散模型Diffusion as Shader (DaS) ,旨在通过3D控制信号实现多样化且...
    视频模型# Diffusion as Shader# 视频生成控制
    11个月前
    03030
    卷麻了!阿里在除夕夜推出超大规模的 MoE 模型 Qwen2.5-Max

    卷麻了!阿里在除夕夜推出超大规模的 MoE 模型 Qwen2.5-Max

    过去,有一种观点认为,持续增加数据规模和模型参数可能是通向人工通用智能(AGI)的一条可行路径。然而,无论是对于稠密模型还是MoE(Mixture of Experts)模型而言,整个大模型社区在训练...
    大语言模型# MoE# Qwen2.5-Max# 阿里
    11个月前
    03020
    艾伦AI研究所推出Tülu 3 405B:超越 DeepSeek V3 的性能表现

    艾伦AI研究所推出Tülu 3 405B:超越 DeepSeek V3 的性能表现

    艾伦AI研究所在成功推出Tülu 3之后,又在昨天宣布推出Tülu 3 405B——这是首次将完全开放的后训练方法应用于最大规模的开放权重模型。此次发布不仅展示了艾伦AI研究所在大规模参数模型上的可扩...
    大语言模型# Tülu 3# Tülu 3 405B# 艾伦AI研究所
    11个月前
    02730
    法国AI初创企业Mistral发布高效模型 Mistral Small 3:24亿参数的模型特别针对延迟进行了优化

    法国AI初创企业Mistral发布高效模型 Mistral Small 3:24亿参数的模型特别针对延迟进行了优化

    法国AI初创公司Mistral最近发布了其最新的人工智能模型——Mistral Small 3。这款拥有24亿参数的模型特别针对延迟进行了优化,并根据Apache 2.0许可证开放源代码。Mistra...
    大语言模型# Mistral# Mistral Small 3
    11个月前
    02640
    上海AI实验室发布Lumina系列图像生成模型的最新成果—Lumina-Image 2.0

    上海AI实验室发布Lumina系列图像生成模型的最新成果—Lumina-Image 2.0

    上海AI实验室正式发布了Lumina系列图像生成模型的最新成果——Lumina-Image 2.0。这一版本不仅提高了图像生成的效率,还通过其统一且透明的设计理念,为用户提供了更加流畅和便捷的使用体验...
    图像模型# Lumina-Image 2.0
    11个月前
    02860
    拟人化实时交互系统SpeechGPT 2.0-preview:支持多种音色,200毫秒延迟

    拟人化实时交互系统SpeechGPT 2.0-preview:支持多种音色,200毫秒延迟

    复旦大学自然语言处理实验室近期推出了SpeechGPT 2.0-preview,这是他们为实现情景智能而开发的第一个拟人化实时交互系统。基于百万小时级别的语音数据训练而成,这款端到端的语音大模型不仅能...
    多模态模型# SpeechGPT 2.0-preview# 语音模型
    11个月前
    02990
    阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

    阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

    阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL,对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I...
    多模态模型# Qwen2.5-VL# 视觉语言模型
    11个月前
    02500
    阿里通义团队推出Qwen2.5-1M:支持100万Token上下文的开源大语言模型

    阿里通义团队推出Qwen2.5-1M:支持100万Token上下文的开源大语言模型

    阿里通义团队于两个月前升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。1月27日,通义团队正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。以下是本次...
    大语言模型# Qwen2.5-1M
    11个月前
    02630
    香港科技大学推出歌词生成音乐模型YuE

    香港科技大学推出歌词生成音乐模型YuE

    香港科技大学的研究团队近期在探索从给定歌词生成完整歌曲音频的领域取得了重要进展,这一过程被称为“歌词到歌曲”(lyrics2song)。尽管基于文本条件的音乐生成模型在创作非人声音乐短片段方面已经展现...
    语音模型# AI音乐# YuE
    11个月前
    02670
    深度求索开源多模态理解与生成模型 Janus-Pro,已释出两个版本Janus-Pro-7B和Janus-Pro-1B

    深度求索开源多模态理解与生成模型 Janus-Pro,已释出两个版本Janus-Pro-7B和Janus-Pro-1B

    深度求索(DeepSeek-AI)在DeepSeek-R1爆火后,又在今天释出了多模态理解与生成模型 Janus-Pro,它是之前工作 Janus 的升级版本,目前释出了两个版本Janus-Pro-7...
    多模态模型# Janus-Pro# Janus-Pro-1B# Janus-Pro-7B
    11个月前
    02880
    百川智能发布全模态开源模型Baichuan-Omni-1.5

    百川智能发布全模态开源模型Baichuan-Omni-1.5

    百川智能宣布其最新研发的Baichuan-Omni-1.5开源全模态模型正式上线。这款模型支持文本、图像、音频和视频等多种格式的数据处理,并具备文本与音频的双模态生成能力。Baichuan-Omni...
    多模态模型# Baichuan-Omni-1.5# 百川智能
    11个月前
    02650
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    互联网大厂模拟器

    互联网大厂模拟器

    《互联网大厂模拟器》或许不会改变现实,但它提供了一个出口:在虚拟世界里,我们可以安全地体验“另一种职场人生”,然后笑着关掉页面,继续面对明天的站会。
    Moonvalley

    Moonvalley

    洛杉矶初创公司 Moonvalley 发布了一款名为“Marey”的 AI 视频生成模型。Marey 使用“自有或完全许可”的源数据进行训练,并提供精细的相机和运动控制等定制选项。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    查看完整榜单