百川智能发布全模态开源模型Baichuan-Omni-1.5 百川智能宣布其最新研发的Baichuan-Omni-1.5开源全模态模型正式上线。这款模型支持文本、图像、音频和视频等多种格式的数据处理,并具备文本与音频的双模态生成能力。Baichuan-Omni-... 多模态模型# Baichuan-Omni-1.5# 百川智能 2周前0690
新型多模态基础模型VideoLLaMA 3:提升图像和视频理解的性能 阿里巴巴达摩院的研究人员推出新型多模态基础模型VideoLLaMA 3,旨在提升图像和视频理解的性能。该模型的核心设计理念是“以视觉为中心”(vision-centric),通过高质量的图像-文本数据... 多模态模型# VideoLLaMA 3 2周前0790
Llasa:基于LLaMA语言模型的先进文本转语音(TTS)系统 文本转语音(TTS)技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户服务和教育等行业对语音合成的需求不断增加,市场对逼真、情感丰富且支持多种语言的语音合成技术的需求也在迅速增长。然而,传统... 语音模型# Llasa# TTS 2周前01230
Hugging Face发布号称同类最小的多模态模型SmolVLM系列 Hugging Face团队最近发布了两款名为SmolVLM-256M和SmolVLM-500M的新模型,它们被宣称为能够分析图像、短视频以及文本的最小AI模型。这两款模型特别设计用于在资源受限的设备... 多模态模型# Hugging Face# SmolVLM 2周前0650
新型自动化 GUI交互模型 UI-TARS:能够通过感知屏幕截图作为输入,并执行类似人类操作的交互任务(如键盘输入和鼠标操作) 字节跳动与清华大学的研究人员推出新型自动化 GUI(图形用户界面)交互模型 UI-TARS,它是一种原生的 GUI 代理模型,能够通过感知屏幕截图作为输入,并执行类似人类操作的交互任务(如键盘输入和鼠... 多模态模型# UI-TARS# 字节跳动 2周前01050
腾讯混元-3D: 首个同时支持 文生和图生的3D开源模型 腾讯正式官宣开源上线混元 3D 生成大模型 2.0,腾讯混元还同步上线混元 3D AI 创作引擎,号称是“业界首个一站式 3D 内容 AI 创作平台”。该技术宣称一句话、一张图,甚至画个草图都能生成一... 3D模型# 3D开源模型# 混元-3D# 腾讯 2周前01340
深度求索发布开源推理大语言模型DeepSeek-R1,性能对标 OpenAI o1 正式版 幻方量化旗下的AI公司深度求索(DeepSeek)今日正式发布了其最新的大语言模型DeepSeek-R1,并同步开源了模型权重。这一举措旨在通过提供高性能的开源解决方案,推动人工智能领域的发展。 地址... 大语言模型# DeepSeek# DeepSeek-R1# 深度求索 2周前01410
Flex.1 Alpha: 一个新的改良版 Flux 模型,可以很好地进行微调 Flex.1 Alpha 是一款经过预训练的 Rectified Flow Transformer 模型,拥有80亿参数,专为根据文本描述生成图像而设计。尽管其架构与 FLUX.1-dev 相似,但在... Flux衍生# Flex.1 Alpha# FLUX 模型 2周前0990
专注于精确角色细节转录的线稿上色模型MangaNinja 香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员合作推出了一款专注于精确角色细节转录的线稿上色模型——MangaNinja。MangaNinja专门用于将线稿图像转换为彩色图像,同时保持与参考图... 图像模型# MangaNinja# 线稿上色模型 2周前01190
Jina AI推出一款1.5B参数的小型语言模型ReaderLM-v2:专注于将原始HTML高效准确地转换为Markdown或JSON格式 ReaderLM-v2 是由Jina AI开发的一款1.5B参数的小型语言模型,专注于将原始HTML高效准确地转换为Markdown或JSON格式。这款第二代模型在长上下文处理能力和多语言支持方面有了... 大语言模型# ReaderLM-v2 2周前0840
Wizard's Paper Model Universe:专为制作纸质微缩模型而设计的Flux Lora,擅长创建扁平纸板场景和3D纸质物体 Wizard's Paper Model Universe是一款用于制作纸质微缩模型的LoRA,这个LoRA专为制作纸质微缩模型而设计,擅长创建扁平纸板场景和3D纸质物体。它具有复古风格,尤其是人物和... Flux衍生# Flux LoRa# Paper Model Universe# 纸质微缩模型 2周前0850
壁智能推出MiniCPM-o 2.6:手机上的 GPT-4o 级多模态大模型,可实时语音通话和视频通话 MiniCPM-o 2.6 是面壁智能推出的 MiniCPM-o 系列中最新且功能最强大的模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和... 多模态模型# MiniCPM-o 2.6# 壁智能# 视频通话 2周前01140