Deep Cogito推出Cogito v1系列混合AI推理模型,基于Llama/Qwen训练Deep Cogito在今天发布了其最新成果——Cogito v1系列模型,这是一组参数规模从30亿到700亿不等的开源大语言模型(LLMs)。这些模型不仅在性能上超越了同等规模的最佳开源模型,还引入...大语言模型# Cogito v1# Deep Cogito# 混合AI推理模型1年前04030
拥有20亿参数的多模态大语言模型Open-Qwen2VL在多模态大语言模型(MLLMs)的研究与应用中,视觉与文本模态的融合正在不断拓展其边界,从图像描述到视觉问答,再到复杂文档的解读,这些模型展现出了强大的能力。然而,这一领域的进一步发展面临着诸多挑战...多模态模型# Open-Qwen2VL# 多模态大语言模型1年前01930
新型图像编码器FlexTok:能够将二维图像重新采样为长度可变的一维离散标记(token)序列苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok,它能够将二维图像重新采样为长度可变的一维离散标记(token)序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂...图像模型# FlexTok# 图像编码器1年前04680
新型框架WriteHERE:通过异构递归规划实现自适应的长文本写作长文本写作(如小说、技术报告等)需要在信息检索、推理和创作之间进行灵活的整合与交互。现有的方法通常依赖于预定义的工作流程和僵化的思维模式,先生成大纲再进行写作,这限制了写作过程中的适应性。 项目主页...大语言模型# WriteHERE# 长文本写作1年前04140
阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM:能够从单张图像中生成可动画化且可渲染的高斯头像阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM(Large Avatar Model),能够从单张图像中生成可动画化且可渲染的高斯头像。与以往需要大量视频序列训练或依赖辅助神经网络进...视频模型# LAM# 通义实验室# 高斯头像1年前04680
统一视觉自回归模型 VARGPT-v1.1:统一视觉理解和图像生成任务北京大学和香港中文大学的研究人员推出先进统一视觉自回归模型 VARGPT-v1.1 ,该模型在多模态理解和文本到图像生成任务中表现出色。它通过迭代指令微调和强化学习等创新训练策略,显著提升了模型的性能...多模态模型# VARGPT-v1.1# 统一视觉自回归模型1年前04590
新型框架HumanDreamer-X:用于从单张图像重建逼真的可动画化三维人类虚拟形象(avatar)GigaAI、中国科学院自动化研究所和北京大学的研究人员推出新型框架HumanDreamer-X,用于从单张图像重建逼真的可动画化三维人类虚拟形象(avatar)。该框架通过结合三维重建和视频修复技术...3D模型# HumanDreamer-X# 虚拟形象1年前05230
开源框架OpenDeepSearch,挑战Perplexity和ChatGPT搜索Sentient Foundation的研究团队近日发布了开源深度搜索(Open Deep Search,简称ODS),这是一款开源框架,能够匹敌如Perplexity和ChatGPT Search等...大语言模型# ODS# Open Deep Search# 开源深度搜索1年前04380
Meta发布Llama 4系列多模态模型:首次采用MoE架构,最高1000万上下文长度2025年4月6日星期日,Meta正式推出了其最新的AI模型系列——Llama 4。这款新模型不仅支持网络版Meta AI助手,还为WhatsApp、Messenger和Instagram等平台提供了...大语言模型# Llama 4# Meta# MoE架构1年前05960
高保真三维形状合成方法TripoSG:利用大规模的修正流模型从单张图像生成高质量的三维网格模型VAST、香港大学、德克萨斯大学奥斯汀分校和上海人工智能实验室的研究人员推出高保真三维形状合成方法TripoSG,它利用大规模的修正流模型(Rectified Flow Models)从单张图像生成高...3D模型# 3D模型# TripoSG1年前02720
HSMR:用于从单张图像中重建具有生物力学准确骨架的三维人体模型德克萨斯大学奥斯汀分校和浙江大学的研究人员推出HSMR,用于从单张图像中重建具有生物力学准确骨架的三维人体模型。该方法通过训练一个基于 Transformer 的网络,估计生物力学模型 SKEL 的参...图像模型# HSMR# 三维人体模型# 骨架1年前05390
新型框架 EliGen:用于实现图像生成中的实体级控制浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen,用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力(Regional ...图像模型# EliGen# 图像生成1年前02430