新型视频生成模型Pyramidal Flow:提高视频生成的效率,同时保持生成视频的高质量北京大学、快手科技和北京邮电大学的研究人员推出新型视频生成模型Pyramidal Flow,这个模型的目的是提高视频生成的效率,同时保持生成视频的高质量。可以想象一下,你想制作一个视频,里面有一只小猫...视频模型# Pyramidal Flow# 视频生成模型12个月前04810
Sparc3D:用于高分辨率三维形状建模的稀疏表示和构建框架南洋理工大学、Math Magic和伦敦帝国理工学院的研究人员推出一个用于高分辨率三维形状建模的稀疏表示和构建框架 Sparc3D,它通过稀疏可变形的 Marching Cubes(Sparcubes...3D模型# Sparc3D8个月前04800
OpenAI 推出o3 和 o4-mini:迄今最智能、最强大的模型,具备全面工具访问能力今天,OpenAI发布 OpenAI o3 和 o4-mini,这是OpenAI o 系列模型的最新版本,经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型,显著提升了 Ch...大语言模型# o3# o4-mini# OpenAI10个月前04800
Golden Haggadah:基于FLUX.1-dev的金色哈加达风格LoRAGolden Haggadah是一款基于FLUX.1-dev,以 14 世纪加西班牙泰罗尼亚金色哈加达风格为基础训练的LoRA模型,适用于生成圣经故事图片。 模型:https://civitai.co...Flux衍生# FLUX.1-dev# Golden Haggadah# Lora12个月前04800
MemOS:为大语言模型设计的长期记忆操作系统MemOS 是由记忆张量科技联合上海交通大学、同济大学、浙江大学、北京大学等多所高校及研究机构联合开源的一项突破性研究成果——专为大语言模型(LLMs)设计的长期记忆操作系统。 项目主页:https...大语言模型# MemOS# 大语言模型7个月前04790
MiniMax推出视觉三重统一强化学习(RL)系统 V-Triune :使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务MiniMax推出视觉三重统一强化学习(RL)系统 V-Triune ,使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务。该系统通过整合三个互补组件——样本级数据格式化(Sample-Le...多模态模型# MiniMax# V-Triune# 视觉语言模型8个月前04790
TTS模型FishSpeech推出v1.5 版本:具备多语言支持、零样本即时语音克隆、低延迟等特性FishSpeech v1.5 是一款功能强大的文本到语音(TTS)模型,具备多语言支持、零样本即时语音克隆、低延迟等特性。该模型拥有仅5亿参数,却能够在多种语言之间无缝切换,并提供高质量的语音合成效...语音模型# FishSpeech v1.5# TTS模型12个月前04790
Collov Labs推出非自回归掩码图像建模的文本到图像合成模型MoneticoCollov Labs 最近在8块H100 GPU上训练了一周时间,推出了新的非自回归掩码图像建模的文本到图像合成模型——Monetico。这款模型能够生成高分辨率图像,并且被设计为在消费级显卡上高效...图像模型# Monetico# 文生图模型12个月前04780
高容量真实世界图像恢复模型DreamClear:结合隐私安全的数据处理流程(GenIR)和DiT技术,以实现对低质量图像的高质量恢复现实世界中的图像恢复(IR)面临着显著的挑战,主要是缺乏高容量模型和全面的数据集。为了解决这些问题,中国科学院自动化研究所、中国科学院大学人工智能学院、字节跳动公司和中国科学技术大学的研究人员提出了一...图像模型# DreamClear# 图像恢复模型12个月前04770
Simple Vector Flux:基于FLUX.1-dev的矢量动画LoRA 模型Simple Vector Flux是一款基于FLUX.1-dev的LoRA 模型,它在一组精选的约50张经典矢量风格的合成图像上训练的。 触发关键词:v3ct0r、vector 推荐强度:0.6 ...Flux衍生# FLUX.1-dev# LoRA 模型# Simple Vector Flux12个月前04770
增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力近年来,多模态大语言模型(MLLMs)在图像理解、生成和编辑任务中取得了显著进展。然而,现有的统一模型在同时处理这三种任务时面临挑战。例如,早期的模型(如 Chameleon 和 EMU3)使用 VQ...多模态模型# ILLUME# 图像生成# 多模态大语言模型10个月前04760
Prompt-to-Leaderboard (P2L):为特定使用场景量身定制的大语言模型排行榜LMArena 推出了 Prompt-to-Leaderboard(P2L),这是一种创新方法,旨在通过自然语言提示生成针对特定使用场景的实时大语言模型(LLM)排行榜。P2L 的核心思想是训练一个大...大语言模型# P2L# 大语言模型11个月前04740