开源框架OpenDeepSearch,挑战Perplexity和ChatGPT搜索Sentient Foundation的研究团队近日发布了开源深度搜索(Open Deep Search,简称ODS),这是一款开源框架,能够匹敌如Perplexity和ChatGPT Search等...大语言模型# ODS# Open Deep Search# 开源深度搜索9个月前03800
Meta发布Llama 4系列多模态模型:首次采用MoE架构,最高1000万上下文长度2025年4月6日星期日,Meta正式推出了其最新的AI模型系列——Llama 4。这款新模型不仅支持网络版Meta AI助手,还为WhatsApp、Messenger和Instagram等平台提供了...大语言模型# Llama 4# Meta# MoE架构9个月前04580
高保真三维形状合成方法TripoSG:利用大规模的修正流模型从单张图像生成高质量的三维网格模型VAST、香港大学、德克萨斯大学奥斯汀分校和上海人工智能实验室的研究人员推出高保真三维形状合成方法TripoSG,它利用大规模的修正流模型(Rectified Flow Models)从单张图像生成高...3D模型# 3D模型# TripoSG9个月前02700
HSMR:用于从单张图像中重建具有生物力学准确骨架的三维人体模型德克萨斯大学奥斯汀分校和浙江大学的研究人员推出HSMR,用于从单张图像中重建具有生物力学准确骨架的三维人体模型。该方法通过训练一个基于 Transformer 的网络,估计生物力学模型 SKEL 的参...图像模型# HSMR# 三维人体模型# 骨架10个月前04010
新型框架 EliGen:用于实现图像生成中的实体级控制浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen,用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力(Regional ...图像模型# EliGen# 图像生成10个月前02060
昆仑万维开源图生视频模型SkyReels-A2,基于阿里Wan2.1微调而成昆仑万维在上个月推出面向 AI 短剧创作的视频生成模型 SkyReels-V1后,又在近期开源SkyReels-A2,可以将任意视觉元素(如人物、物体、背景等)根据文本提示组装成合成视频,同时严格保持...视频模型# SkyReels-A2# Wan2.1# 昆仑万维10个月前03700
新型多模态生成模型UniDisc:基于离散扩散过程的统一生成模型,能够同时理解和生成文本和图像卡内基梅隆大学的研究人员推出新型多模态生成模型 UniDisc(Unified Multimodal Discrete Diffusion),UniDisc 是一个基于离散扩散过程的统一生成模型,能够...图像模型# UniDisc# 多模态生成模型10个月前03930
IntrinsiX:能够直接从文本描述生成高质量的物理基础渲染(PBR)图像传统的文生图模型(如 Stable Diffusion)能够根据文本描述生成高质量的 RGB 图像,但这些图像通常包含固定的光照效果(如反射、阴影、高光),这限制了它们在需要 PBR 地图(如游戏、V...图像模型# IntrinsiX# PBR10个月前02490
自回归模型Lumina-mGPT 2.0:支持文生图、多轮图像编辑、可控生成等上海人工智能实验室和香港中文大学的研究人员之前推出了新型多模态自回归模型Lumina-mGPT,研究团队在今天推出了一种独立的、仅解码器的自回归模型Lumina-mGPT 2.0,从头开始训练,统一了...图像模型# Lumina-mGPT 2.0# 自回归模型10个月前03860
Tessa-T1:专为 React 前端开发打造的推理模型在前端开发领域,React 一直是构建现代 Web 应用的核心框架之一。然而,随着项目复杂度的增加,手动编写和优化 React 组件变得越来越耗时且容易出错。为了提升开发效率并简化前端工作流程,Tes...大语言模型# Qwen2.5-Coder# Tessa-T1# 推理模型10个月前02410
腾讯推出AnimeGamer:通过多模态大语言模型实现无限动漫生活模拟近年来,图像和视频合成技术的发展为生成游戏带来了新的可能性。特别是将动漫电影中的角色转化为可互动、可玩的实体,让玩家能够以自己喜爱的角色身份沉浸在动态的动漫世界中,通过语言指令进行生活模拟。这种游戏被...多模态模型# AnimeGamer# 多模态大语言模型# 无限动漫生活模拟10个月前03900
增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力近年来,多模态大语言模型(MLLMs)在图像理解、生成和编辑任务中取得了显著进展。然而,现有的统一模型在同时处理这三种任务时面临挑战。例如,早期的模型(如 Chameleon 和 EMU3)使用 VQ...多模态模型# ILLUME# 图像生成# 多模态大语言模型10个月前04630