基于Flux模型的创新角色生成框架InstantCharacter:单张图像生成高质量角色图像腾讯混元团队与InstantX团队近日联合推出了一种全新的角色定制方法——InstantCharacter。这一方法无需调优,仅通过单张图像即可实现高保真、文本可控且角色一致的图像生成,支持多种下游任...图像模型# FLUX模型# InstantCharacter# InstantX9个月前05340
FramePack:用神经网络破解视频生成难题,能够将输入上下文压缩至固定长度,使生成工作量不受视频长度影响视频生成技术一直是AI领域的热门研究方向之一。然而,现有的视频生成模型在处理长视频时常常面临两大挑战:一是“遗忘”问题,模型难以记住早期的视频内容,导致生成的视频缺乏连贯性;二是“漂移”问题,随着视频...视频模型# controlnet# FramePack# Lvmin Zhang8个月前04260
新型视频法线估计模型 NormalCrafter :能够从任意长度的开放世界视频中生成具有时间一致性和细粒度细节的法线序列香港理工大学、腾讯 PCG ARC 实验室、香港城市大学和华中科技大学的研究人员推出新型视频法线估计模型 NormalCrafter ,它能够从任意长度的开放世界视频中生成具有时间一致性和细粒度细节的...视频模型# NormalCrafter# 视频法线估计模型8个月前03670
OpenAI 推出o3 和 o4-mini:迄今最智能、最强大的模型,具备全面工具访问能力今天,OpenAI发布 OpenAI o3 和 o4-mini,这是OpenAI o 系列模型的最新版本,经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型,显著提升了 Ch...大语言模型# o3# o4-mini# OpenAI9个月前04420
开源版GPT‑4o?新型多模态生成模型 Liquid,用一个模型搞定视觉与语言任务在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能,火爆网络后,大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...图像模型# GPT‑4o# OpenAI# 多模态生成模型9个月前02620
智谱发布新一代 GLM-4-32B-0414 系列模型:高性能、多功能、易部署4 月 14 日,智谱发布了一则重磅消息:推出新一代 GLM-4-32B-0414 系列模型。这一系列模型凭借 320 亿参数的强大性能,效果直逼 OpenAI 的 GPT 系列和 DeepSeek ...大语言模型# GLM-4-32B-0414# 智谱AI9个月前03170
OpenAI发布全新GPT-4.1系列模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano本周一,OpenAI发布了全新的模型系列——GPT-4.1,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编程和指令遵循方面表现出色,标志着OpenAI在打造“代理...大语言模型早报# GPT-4.1# GPT-4.1 mini# GPT-4.1 nano9个月前04170
字节跳动推出视频生成模型Seaweed-7B:以较低的计算成本实现高效的训练和生成近年来,随着视频生成技术的快速发展,如何在资源有限的情况下实现高性能的模型训练成为研究热点。字节跳动提出了一种创新的训练策略,推出了一个中等规模的视频生成模型——Seaweed-7B。这个模型拥有约7...视频模型# Seaweed-7B# 字节跳动# 视频生成模型9个月前02630
Hi3DGen:通过法线图作为中间表示,从二维图像生成高保真度的3D几何模型香港中文大学(深圳)、字节跳动和清华大学的研究人员推出通过法线桥接从图像生成高保真度3D几何模型Hi3DGen,通过法线图作为中间表示,从二维图像生成高保真度的三维几何模型。该框架通过解决现有方法在生...3D模型# 3D模型# Hi3DGen9个月前03590
月之暗面推出高效开源视觉-语言模型Kimi-VL随着AI技术的快速发展,视觉-语言模型(VLM)在多模态任务中的应用越来越广泛。然而,如何在保持高性能的同时降低计算成本,一直是研究者面临的挑战。近日,国内知名AI公司“月之暗面”推出了 一款高效的开...多模态模型# Kimi-VL# 月之暗面9个月前03770
基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG:能够生成从简单图标到复杂动漫角色的高质量 SVG 图形复旦大学和阶跃星辰的研究人员推出基于视觉语言模型(VLMs)的端到端多模态 SVG 生成框架OmniSVG,能够生成从简单图标到复杂动漫角色的高质量 SVG 图形,支持文本到 SVG、图像到 SVG ...图像模型# OmniSVG# SVG# 视觉语言模型6个月前02510
基于 Mochi 微调的开源视频模型Pusa:低成本、高性能的开源视频生成模型Pusa 是基于 Mochi 微调的开源视频模型,不仅开源了整个微调过程,还以极低的训练成本(仅 100 美元)实现了多种视频生成任务的无缝支持。 GitHub:https://github.com...视频模型# Pusa# 视频生成模型9个月前01940