香港科技大学推出歌词生成音乐模型YuE 香港科技大学的研究团队近期在探索从给定歌词生成完整歌曲音频的领域取得了重要进展,这一过程被称为“歌词到歌曲”(lyrics2song)。尽管基于文本条件的音乐生成模型在创作非人声音乐短片段方面已经展现... 语音模型# AI音乐# YuE 3天前0510
深度求索开源多模态理解与生成模型 Janus-Pro,已释出两个版本Janus-Pro-7B和Janus-Pro-1B 深度求索(DeepSeek-AI)在DeepSeek-R1爆火后,又在今天释出了多模态理解与生成模型 Janus-Pro,它是之前工作 Janus 的升级版本,目前释出了两个版本Janus-Pro-7... 多模态模型# Janus-Pro# Janus-Pro-1B# Janus-Pro-7B 3天前01000
百川智能发布全模态开源模型Baichuan-Omni-1.5 百川智能宣布其最新研发的Baichuan-Omni-1.5开源全模态模型正式上线。这款模型支持文本、图像、音频和视频等多种格式的数据处理,并具备文本与音频的双模态生成能力。Baichuan-Omni-... 多模态模型# Baichuan-Omni-1.5# 百川智能 3天前0650
新型多模态基础模型VideoLLaMA 3:提升图像和视频理解的性能 阿里巴巴达摩院的研究人员推出新型多模态基础模型VideoLLaMA 3,旨在提升图像和视频理解的性能。该模型的核心设计理念是“以视觉为中心”(vision-centric),通过高质量的图像-文本数据... 多模态模型# VideoLLaMA 3 3天前0750
Llasa:基于LLaMA语言模型的先进文本转语音(TTS)系统 文本转语音(TTS)技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户服务和教育等行业对语音合成的需求不断增加,市场对逼真、情感丰富且支持多种语言的语音合成技术的需求也在迅速增长。然而,传统... 语音模型# Llasa# TTS 3天前0870
Hugging Face发布号称同类最小的多模态模型SmolVLM系列 Hugging Face团队最近发布了两款名为SmolVLM-256M和SmolVLM-500M的新模型,它们被宣称为能够分析图像、短视频以及文本的最小AI模型。这两款模型特别设计用于在资源受限的设备... 多模态模型# Hugging Face# SmolVLM 3天前0600
新型自动化 GUI交互模型 UI-TARS:能够通过感知屏幕截图作为输入,并执行类似人类操作的交互任务(如键盘输入和鼠标操作) 字节跳动与清华大学的研究人员推出新型自动化 GUI(图形用户界面)交互模型 UI-TARS,它是一种原生的 GUI 代理模型,能够通过感知屏幕截图作为输入,并执行类似人类操作的交互任务(如键盘输入和鼠... 多模态模型# UI-TARS# 字节跳动 3天前0830
腾讯混元-3D: 首个同时支持 文生和图生的3D开源模型 腾讯正式官宣开源上线混元 3D 生成大模型 2.0,腾讯混元还同步上线混元 3D AI 创作引擎,号称是“业界首个一站式 3D 内容 AI 创作平台”。该技术宣称一句话、一张图,甚至画个草图都能生成一... 3D模型# 3D开源模型# 混元-3D# 腾讯 3天前01220
深度求索发布开源推理大语言模型DeepSeek-R1,性能对标 OpenAI o1 正式版 幻方量化旗下的AI公司深度求索(DeepSeek)今日正式发布了其最新的大语言模型DeepSeek-R1,并同步开源了模型权重。这一举措旨在通过提供高性能的开源解决方案,推动人工智能领域的发展。 地址... 大语言模型# DeepSeek# DeepSeek-R1# 深度求索 3天前01340
Flex.1 Alpha: 一个新的改良版 Flux 模型,可以很好地进行微调 Flex.1 Alpha 是一款经过预训练的 Rectified Flow Transformer 模型,拥有80亿参数,专为根据文本描述生成图像而设计。尽管其架构与 FLUX.1-dev 相似,但在... Flux衍生# Flex.1 Alpha# FLUX 模型 3天前0920
专注于精确角色细节转录的线稿上色模型MangaNinja 香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员合作推出了一款专注于精确角色细节转录的线稿上色模型——MangaNinja。MangaNinja专门用于将线稿图像转换为彩色图像,同时保持与参考图... 图像模型# MangaNinja# 线稿上色模型 3天前01060
Jina AI推出一款1.5B参数的小型语言模型ReaderLM-v2:专注于将原始HTML高效准确地转换为Markdown或JSON格式 ReaderLM-v2 是由Jina AI开发的一款1.5B参数的小型语言模型,专注于将原始HTML高效准确地转换为Markdown或JSON格式。这款第二代模型在长上下文处理能力和多语言支持方面有了... 大语言模型# ReaderLM-v2 3天前0730