SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1055 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    新型多模态基础模型VideoLLaMA 3:提升图像和视频理解的性能

    新型多模态基础模型VideoLLaMA 3:提升图像和视频理解的性能

    阿里巴巴达摩院的研究人员推出新型多模态基础模型VideoLLaMA 3,旨在提升图像和视频理解的性能。该模型的核心设计理念是“以视觉为中心”(vision-centric),通过高质量的图像-文本数据...
    多模态模型# VideoLLaMA 3
    11个月前
    04260
    Llasa:基于LLaMA语言模型的先进文本转语音(TTS)系统

    Llasa:基于LLaMA语言模型的先进文本转语音(TTS)系统

    文本转语音(TTS)技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户服务和教育等行业对语音合成的需求不断增加,市场对逼真、情感丰富且支持多种语言的语音合成技术的需求也在迅速增长。然而,传统...
    语音模型# Llasa# TTS
    11个月前
    06380
    Hugging Face发布号称同类最小的多模态模型SmolVLM系列

    Hugging Face发布号称同类最小的多模态模型SmolVLM系列

    Hugging Face团队最近发布了两款名为SmolVLM-256M和SmolVLM-500M的新模型,它们被宣称为能够分析图像、短视频以及文本的最小AI模型。这两款模型特别设计用于在资源受限的设备...
    多模态模型# Hugging Face# SmolVLM
    11个月前
    02710
    新型自动化 GUI交互模型 UI-TARS:能够通过感知屏幕截图作为输入,并执行类似人类操作的交互任务(如键盘输入和鼠标操作)

    新型自动化 GUI交互模型 UI-TARS:能够通过感知屏幕截图作为输入,并执行类似人类操作的交互任务(如键盘输入和鼠标操作)

    字节跳动与清华大学的研究人员推出新型自动化 GUI(图形用户界面)交互模型 UI-TARS,它是一种原生的 GUI 代理模型,能够通过感知屏幕截图作为输入,并执行类似人类操作的交互任务(如键盘输入和鼠...
    多模态模型# UI-TARS# 字节跳动
    9个月前
    03470
    腾讯混元-3D: 首个同时支持 文生和图生的3D开源模型

    腾讯混元-3D: 首个同时支持 文生和图生的3D开源模型

    腾讯正式官宣开源上线混元 3D 生成大模型 2.0,腾讯混元还同步上线混元 3D AI 创作引擎,号称是“业界首个一站式 3D 内容 AI 创作平台”。该技术宣称一句话、一张图,甚至画个草图都能生成一...
    3D模型# 3D开源模型# 混元-3D# 腾讯
    11个月前
    04760
    深度求索发布开源推理大语言模型DeepSeek-R1,性能对标 OpenAI o1 正式版

    深度求索发布开源推理大语言模型DeepSeek-R1,性能对标 OpenAI o1 正式版

    幻方量化旗下的AI公司深度求索(DeepSeek)今日正式发布了其最新的大语言模型DeepSeek-R1,并同步开源了模型权重。这一举措旨在通过提供高性能的开源解决方案,推动人工智能领域的发展。 地址...
    大语言模型# DeepSeek# DeepSeek-R1# 深度求索
    11个月前
    03340
    Flex.1 Alpha: 一个新的改良版 Flux 模型,可以很好地进行微调

    Flex.1 Alpha: 一个新的改良版 Flux 模型,可以很好地进行微调

    Flex.1 Alpha 是一款经过预训练的 Rectified Flow Transformer 模型,拥有80亿参数,专为根据文本描述生成图像而设计。尽管其架构与 FLUX.1-dev 相似,但在...
    Flux衍生# Flex.1 Alpha# FLUX 模型
    11个月前
    03260
    专注于精确角色细节转录的线稿上色模型MangaNinja

    专注于精确角色细节转录的线稿上色模型MangaNinja

    香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员合作推出了一款专注于精确角色细节转录的线稿上色模型——MangaNinja。MangaNinja专门用于将线稿图像转换为彩色图像,同时保持与参考图...
    图像模型# MangaNinja# 线稿上色模型
    11个月前
    03080
    Jina AI推出一款1.5B参数的小型语言模型ReaderLM-v2:专注于将原始HTML高效准确地转换为Markdown或JSON格式

    Jina AI推出一款1.5B参数的小型语言模型ReaderLM-v2:专注于将原始HTML高效准确地转换为Markdown或JSON格式

    ReaderLM-v2 是由Jina AI开发的一款1.5B参数的小型语言模型,专注于将原始HTML高效准确地转换为Markdown或JSON格式。这款第二代模型在长上下文处理能力和多语言支持方面有了...
    大语言模型# ReaderLM-v2
    11个月前
    03190
    Wizard's Paper Model Universe:专为制作纸质微缩模型而设计的Flux Lora,擅长创建扁平纸板场景和3D纸质物体

    Wizard's Paper Model Universe:专为制作纸质微缩模型而设计的Flux Lora,擅长创建扁平纸板场景和3D纸质物体

    Wizard's Paper Model Universe是一款用于制作纸质微缩模型的LoRA,这个LoRA专为制作纸质微缩模型而设计,擅长创建扁平纸板场景和3D纸质物体。它具有复古风格,尤其是人物和...
    Flux衍生# Flux LoRa# Paper Model Universe# 纸质微缩模型
    11个月前
    03100
    壁智能推出MiniCPM-o 2.6:手机上的 GPT-4o 级多模态大模型,可实时语音通话和视频通话

    壁智能推出MiniCPM-o 2.6:手机上的 GPT-4o 级多模态大模型,可实时语音通话和视频通话

    MiniCPM-o 2.6 是面壁智能推出的 MiniCPM-o 系列中最新且功能最强大的模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和...
    多模态模型# MiniCPM-o 2.6# 壁智能# 视频通话
    11个月前
    03210
    文本转语音模型Kokoro-82M:8200万参数,支持多语言和多声音选项

    文本转语音模型Kokoro-82M:8200万参数,支持多语言和多声音选项

    Kokoro是一款先进的文本转语音(TTS)模型,以其精简的参数量和卓越的性能在众多竞争对手中脱颖而出。拥有8200万参数的Kokoro,其模型大小不超过300M,却能生成高质量的音频输出。特别值得一...
    语音模型# Kokoro-82M# TTS
    11个月前
    03,5010
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Moonvalley

    Moonvalley

    洛杉矶初创公司 Moonvalley 发布了一款名为“Marey”的 AI 视频生成模型。Marey 使用“自有或完全许可”的源数据进行训练,并提供精细的相机和运动控制等定制选项。
    NOFX

    NOFX

    NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统,支持 Binance、Hyperliquid和Aster DEX交易所,多AI模型实盘竞赛,具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。
    互联网大厂模拟器

    互联网大厂模拟器

    《互联网大厂模拟器》或许不会改变现实,但它提供了一个出口:在虚拟世界里,我们可以安全地体验“另一种职场人生”,然后笑着关掉页面,继续面对明天的站会。
    查看完整榜单