SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1054 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    Cohere 推出多语言多模态视觉模型 Aya Vision:集成了语言和视觉功能,并支持多达 23 种语言的输入

    Cohere 推出多语言多模态视觉模型 Aya Vision:集成了语言和视觉功能,并支持多达 23 种语言的输入

    加拿大 AI 初创公司 Cohere 于 2019 年成立,专注于为企业提供 AI 解决方案。尽管在与 OpenAI 和 Anthropic 等美国巨头的竞争中市场份额有限,且面临来自中国开源竞争对手...
    多模态模型# Aya Vision# Cohere# 多模态视觉模型
    11个月前
    02240
    Wan2.1 GP:基于阿里视频生成模型Wan 2.1,8G显存即可生成视频

    Wan2.1 GP:基于阿里视频生成模型Wan 2.1,8G显存即可生成视频

    Wan2.1 GP是一个基于阿里视频生成模型Wan 2.1的优化模型,专为普通消费级显卡用户优化,降低资源需求,同时提供强大的视频生成能力。它支持多种生成任务,包括文生视频(T2V)、图生视频(I2V...
    视频模型# Wan 2.1# Wan2.1 GP# 视频生成
    11个月前
    02560
    智谱开源首个支持汉字生成的开源文生图模型 CogView4

    智谱开源首个支持汉字生成的开源文生图模型 CogView4

    作为中国AI厂商中的开源先锋,智谱AI一直致力于推动技术开放与共享。这家清华系初创企业近年来通过与清华大学合作,开源了多个备受关注的AI模型系列,包括大语言模型GLM系列、文生图模型CogView系列...
    图像模型# CogView4# 文生图模型# 智谱
    11个月前
    03550
    新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

    新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

    北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE,它通过两阶段训练方法,将 QwenVL 等多模态编码器与扩散模型集成在一起,从而...
    图像模型# DREAM ENGINE# 图像生成# 多模态模型
    11个月前
    03160
    Sesame 团队推出新一代语音技术 CSM:让语音助手更像真人

    Sesame 团队推出新一代语音技术 CSM:让语音助手更像真人

    Sesame 团队近期发布了一项名为 Conversational Speech Model (CSM) 的全新语音技术,旨在解决当前语音助手普遍存在的“死板”问题。这项技术的目标是让语音助手不仅能够...
    语音模型# CSM# 语音技术
    10个月前
    03250
    新型多层透明图像生成方法ART:通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

    新型多层透明图像生成方法ART:通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

    微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究人员推出新型多层透明图像生成方法Anonymous Region Transformer (ART) ,通过全局文本提示和匿名区域布局直接生成...
    图像模型# ART# 透明图像
    11个月前
    02890
    新单目深度估计模型Distill-Any-Depth:新型知识蒸馏框架的单目深度估计方法

    新单目深度估计模型Distill-Any-Depth:新型知识蒸馏框架的单目深度估计方法

    单目深度估计(MDE)旨在从单一 RGB 图像中预测场景深度,是 3D 场景理解中的关键任务。近年来,零样本 MDE 的研究取得了显著进展,主要依赖归一化的深度表示和基于蒸馏的学习来提高模型在不同场景...
    图像模型# Distill-Any-Depth# 深度估计模型# 知识蒸馏框架
    11个月前
    03930
    艾伦AI研究所推出 olmOCR:高性能的 PDF 和文档图像文本提取工具包

    艾伦AI研究所推出 olmOCR:高性能的 PDF 和文档图像文本提取工具包

    艾伦AI研究所正式推出了 olmOCR,这是一款高性能的开源工具包,专为将 PDF 和文档图像转换为干净、结构化的纯文本而设计。 GitHub:https://github.com/allenai/o...
    多模态模型# olmOCR# 艾伦AI研究所
    11个月前
    01780
    Prompt-to-Leaderboard (P2L):为特定使用场景量身定制的大语言模型排行榜

    Prompt-to-Leaderboard (P2L):为特定使用场景量身定制的大语言模型排行榜

    LMArena 推出了 Prompt-to-Leaderboard(P2L),这是一种创新方法,旨在通过自然语言提示生成针对特定使用场景的实时大语言模型(LLM)排行榜。P2L 的核心思想是训练一个大...
    大语言模型# P2L# 大语言模型
    11个月前
    04520
    Hume AI推出了首个理解其所说内容的文本转语音系统Octave

    Hume AI推出了首个理解其所说内容的文本转语音系统Octave

    Hume 推出了 Octave(全能文本和语音引擎),这是首个专为文本转语音设计的大语言模型(LLM)。与传统文本转语音(TTS)系统不同,Octave 不仅能够“朗读”文字,还能真正理解单词在上下文...
    语音模型# Hume AI# Octave# TTS
    11个月前
    02670
    OpenAI推出最新模型GPT-4.5,这是迄今为止该公司发布的最大模型

    OpenAI推出最新模型GPT-4.5,这是迄今为止该公司发布的最大模型

    OpenAI 于北京时间2月28日正式推出其最新模型 GPT-4.5,这是迄今为止该公司发布的最大模型,使用的计算能力和数据量均超过以往任何模型。然而,尽管规模庞大,OpenAI 并未将 GPT-4...
    大语言模型# GPT-4.5# OpenAI
    11个月前
    04030
    Qodo推出代码嵌入模型Qodo-Embed-1:专为软件开发领域设计,在优化自然语言到代码和代码到代码的检索任务

    Qodo推出代码嵌入模型Qodo-Embed-1:专为软件开发领域设计,在优化自然语言到代码和代码到代码的检索任务

    在软件开发领域,代码嵌入模型正逐渐成为提升开发效率和代码质量的关键工具。今天,Qodo 宣布推出其最新的代码嵌入模型系列 Qodo-Embed-1,该系列在保持较小模型体积的同时,实现了最先进的性能...
    大语言模型# Qodo# Qodo-Embed-1# Qodo-Embed-1-1.5B
    11个月前
    04920
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Moonvalley

    Moonvalley

    洛杉矶初创公司 Moonvalley 发布了一款名为“Marey”的 AI 视频生成模型。Marey 使用“自有或完全许可”的源数据进行训练,并提供精细的相机和运动控制等定制选项。
    AI Art Pics

    AI Art Pics

    AI Art Pics 是一个免费、开源、持续更新的 AI 图像提示词灵感库,目前已收录 5000+ 条真实可用的提示词,覆盖 20+ 创意领域,支持 Midjourney、Stable Diffusion、Gemini、ChatGPT 等主流模型。
    MiniMax开放平台

    MiniMax开放平台

    MiniMax 是一个多模态 AI 技术的领导者,其强大的计算能力和丰富的功能使其成为企业和开发者的重要工具。无论是文本生成、语音合成还是视频制作,MiniMax 都能提供高质量的解决方案,助力用户实现技术创新和商业价值的最大化。
    Poe API

    Poe API

    Quora 旗下的 AI 聚合平台 Poe 正式推出 开发者 API,允许开发者通过统一接口,调用平台上超过 100 款文本、图像、语音和视频生成模型。
    查看完整榜单