SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航

    模型

    共 641 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    华为正式开源盘古大模型与昇腾推理技术

    华为正式开源盘古大模型与昇腾推理技术

    周一,华为宣布一项重大举措:开源其盘古70亿参数(7B)密集模型和720亿参数(72B)Pro MoE混合专家模型,以及基于昇腾平台的高效推理技术。 这一动作被视为华为持续推进大型AI模型研究与产业应...
    大语言模型# 华为# 盘古大模型
    1周前
    0370
    Sakana AI 推出 AB-MCTS:让多个前沿模型协作解决复杂推理问题

    Sakana AI 推出 AB-MCTS:让多个前沿模型协作解决复杂推理问题

    Sakana AI 发布了一项令人瞩目的研究成果:他们开发出一种名为 AB-MCTS(自适应分支蒙特卡洛树搜索) 的新算法。该算法在 ARC-AGI-2 基准测试中表现出色,显著优于单独使用 o4-m...
    大语言模型# AB-MCTS# Sakana AI
    1周前
    0340
    Kyutai Labs推出新一代流式TTS模型Kyutai TTS:实时语音生成迈入新阶段

    Kyutai Labs推出新一代流式TTS模型Kyutai TTS:实时语音生成迈入新阶段

    近日,Kyutai Labs 正式开源了一款名为 Kyutai TTS 的文本转语音(TTS)模型,参数规模达到16亿,支持实时、流式处理,成为该领域的技术新标杆。这一模型不仅具备出色的语音生成能力...
    语音模型# Kyutai Labs# Kyutai TTS# TTS模型
    1周前
    0470
    Kurma AI专为水产养殖领域打造的通用语言模型AQUA-7B和AQUA-1B:以生成式 AI 重塑美国水产养殖业

    Kurma AI专为水产养殖领域打造的通用语言模型AQUA-7B和AQUA-1B:以生成式 AI 重塑美国水产养殖业

    美国拥有广阔的海岸线、纯净的水域资源以及领先的技术基础,具备发展高产、可持续水产养殖业的天然优势。然而,这一潜力远未被充分挖掘。 据2021年数据显示,美国人均海产品消费量已达约 20.5磅,其中 8...
    大语言模型# AQUA-1B# AQUA-7B# Kurma AI
    1周前
    0260
    阿里Ovis团队发布统一多模态模型Ovis-U1:理解、生成与编辑三位一体

    阿里Ovis团队发布统一多模态模型Ovis-U1:理解、生成与编辑三位一体

    近日,阿里巴巴通义实验室Ovis团队正式发布了新一代统一多模态大模型——Ovis-U1。该模型以30亿参数为基础,实现了对多模态任务的全面覆盖,涵盖图像理解、文本到图像生成以及图像编辑三大核心能力。 ...
    图像模型# Ovis-U1# 统一多模态模型
    1周前
    0380
    德国科技咨询公司TNG发布全新 DeepSeek R1-0528 变体DeepSeek-TNG R1T2 Chimera,速度提升 200%

    德国科技咨询公司TNG发布全新 DeepSeek R1-0528 变体DeepSeek-TNG R1T2 Chimera,速度提升 200%

    距离中国 AI 初创公司 DeepSeek 发布其热门开源模型 DeepSeek-R1-0528 不到两个月,该模型因其低成本训练和高性能推理能力迅速风靡全球 AI 社区。 如今,这款强大模型已被广泛...
    大语言模型# DeepSeek-R1-0528# DeepSeek-TNG R1T2 Chimera# TNG
    2周前
    0470
    苹果 & 香港研究人员推出 DiffuCoder:首个面向代码生成的扩散大语言模型

    苹果 & 香港研究人员推出 DiffuCoder:首个面向代码生成的扩散大语言模型

    近日,苹果与香港的研究团队联合提出了一种全新的基于扩散机制的大语言模型(Diffusion Large Language Model, dLLM)——DiffuCoder,专为代码生成任务设计。 Gi...
    大语言模型# DiffuCoder# 扩散大语言模型# 苹果
    2周前
    0380
    HelpingAI 团队推出全球首个支持“中间思维”的AI模型Dhanishtha-2.0

    HelpingAI 团队推出全球首个支持“中间思维”的AI模型Dhanishtha-2.0

    想象一个不仅能快速回答问题,还能像人类一样逐步思考、自我反思、甚至中途改变主意的人工智能。这不是科幻场景,而是 Dhanishtha-2.0 带来的现实。 模型:https://huggingface...
    大语言模型# Dhanishtha-2.0# HelpingAI
    2周前
    0280
    阿里通义实验室联合港科大 & 浙大推出 ThinkSound:首个支持视频到音频生成与编辑的统一框架

    阿里通义实验室联合港科大 & 浙大推出 ThinkSound:首个支持视频到音频生成与编辑的统一框架

    阿里巴巴通义实验室联合香港科技大学与浙江大学的研究团队提出了一种全新的多模态视频-音频生成与编辑框架 —— ThinkSound。 项目主页:https://thinksound-project.gi...
    语音模型# ThinkSound# 多模态视频-音频生成
    2周前
    0330
    智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

    智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

    随着智能任务日益复杂,视觉语言大模型(VLM)正从基础的多模态感知迈向更高层次的推理能力提升。为了应对这一趋势,智谱AI 与清华大学联合推出了新一代 VLM 开源模型 —— GLM-4.1V-9B-T...
    多模态模型# GLM-4.1V-9B-Thinking# 智谱AI
    2周前
    0380
    BRIA AI 推出 Bria 3.2:专为商业设计的下一代文本到图像模型

    BRIA AI 推出 Bria 3.2:专为商业设计的下一代文本到图像模型

    BRIA AI 正式发布其最新文本到图像模型 Bria 3.2。作为一款专为企业和商业应用打造的生成模型,Bria 3.2 凭借仅 40 亿参数 的轻量架构,在美学效果与文本渲染能力方面表现优异,经评...
    图像模型# Bria 3.2# BRIA AI
    2周前
    0430
    中科大 & 港科大联合推出 LongAnimation :实现长动画自动上色的新框架

    中科大 & 港科大联合推出 LongAnimation :实现长动画自动上色的新框架

    来自中国科学技术大学与香港科技大学的研究团队联合提出了一种名为 LongAnimation 的新型动画着色框架。该框架旨在实现长动画序列的自动化着色,并在整个动画过程中保持长期的颜色一致性。 项目主页...
    视频模型# LongAnimation# 动画自动上色
    2周前
    0440
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Open ASR 排行榜

    Open ASR 排行榜

    Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
    MinerU

    MinerU

    MinerU是一款功能强大、操作简单的文档解析工具。它不仅支持多种格式和导入方式,还能精准提取复杂元素,适用于多种场景。无论是学术研究、数据分析还是日常办公,MinerU都能为你带来流畅、准确的解析体验。在科研、学习和工作中,处理复杂文档格式一直是一个让人头疼的问题。无论是科技文献中的公式、表格,还是多语言扫描版PDF,传统工具往往难以满足高效、精准的解析需求。而今天要介绍的 MinerU,正是一款专为解决这些问题而生的免费文档解析神器。它不仅能精准提取复杂元素,还支持多种格式一键转换,适用于从机器学习到大模型语料生产的多种场景。 全格式兼容,轻松导入 MinerU 的一大亮点是其强大的格式兼容性。无论你的文档是 PDF、Word、PPT 还是图片,MinerU 都能轻松应对。通过简单的拖拽、截图或批量上传,你就可以快速将文件导入工具中,无需繁琐的操作。 支持格式:PDF、Word、PPT、图片等主流文档类型。 操作便捷:拖拽、截图、批量上传,一键完成导入。 智能识别:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。 复杂元素精准提取 对于科技文献、学术论文等包含复杂排版的文档,MinerU 表现尤为出色。它能够精准定位并提取图表、公式等复杂元素,确保内容完整且语义连贯。 精准定位:自动识别文档中的图表、公式、表格等复杂元素,并进行精准提取。 结构保留:输出结果保留原文档的标题、段落、列表等结构,确保逻辑清晰。 多模态解析:支持图像描述、表格标题、脚注等内容的提取,适配多种使用场景。 多场景极速输出 MinerU 不仅擅长解析文档,还提供了丰富的输出格式选择,满足不同场景的需求。无论是用于机器学习训练、大模型语料生产,还是构建 RAG(检索增强生成)系统,MinerU 都能提供高效的解决方案。 多种输出格式: Markdown:适合多模态与NLP任务。 JSON:按阅读顺序排序,便于后续处理。 LaTeX:自动识别并转换公式,极大提升科研效率。 HTML:自动转换表格,方便网页展示。 可视化支持:提供 layout 可视化、span 可视化等功能,便于高效确认输出效果与质检。 技术亮点与性能优化 MinerU 在技术层面同样表现出色,兼顾了易用性与性能优化: 跨平台支持:兼容 Windows、Linux 和 Mac 平台,满足不同用户的设备需求。 硬件加速:支持纯 CPU 环境运行,同时可选 GPU(CUDA)、NPU(CANN)、MPS 加速,显著提升处理速度。 高精度 OCR:针对扫描版PDF和乱码文档,MinerU 内置高精度OCR功能,支持84种语言的检测与识别。 主要功能一览 MinerU 的核心功能覆盖了文档解析的方方面面,帮助用户高效完成复杂的文档处理任务: 删除冗余元素:自动移除页眉、页脚、脚注、页码等内容,确保输出文本语义连贯。 阅读顺序优化:输出符合人类阅读习惯的文本,无论是单栏、多栏还是复杂排版都能轻松应对。 公式与表格转换: 自动识别并转换公式为 LaTeX 格式。 自动识别并转换表格为 HTML 格式。 多语言支持:OCR 功能支持84种语言,满足国际化需求。 灵活输出:支持多种格式输出(Markdown、JSON、LaTeX、HTML 等),适配多种应用场景。 适用场景广泛 MinerU 的设计初衷是为了服务于科研和技术发展,但它的应用范围远不止于此。以下是一些典型的应用场景: 机器学习与大模型训练:将大量文档转化为高质量的训练数据,助力模型语料生产。 RAG 系统构建:为检索增强生成系统提供结构化数据支持。 学术研究:快速解析科技文献,提取关键信息,提升科研效率。 企业办公:批量处理合同、报告等文档,节省人工整理时间。 为什么选择 MinerU? 相比其他文档解析工具,MinerU 的优势在于其全面性和精准性。它不仅能够处理各种复杂文档,还能根据用户需求输出多样化的结果。更重要的是,MinerU 完全免费,且持续优化以解决科技文献中的符号转化问题,为大模型时代的技术进步贡献力量。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Qwen Chat

    Qwen Chat

    Qwen Chat是阿里通义团队在海外市场推出了一款全新的AI助手,可以看作是通义千问的海外版,这款助手基于开源的Open WebUI框架开发而成。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    通义万象

    通义万象

    通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
    查看完整榜单