月之暗面推出高效开源视觉-语言模型Kimi-VL随着AI技术的快速发展,视觉-语言模型(VLM)在多模态任务中的应用越来越广泛。然而,如何在保持高性能的同时降低计算成本,一直是研究者面临的挑战。近日,国内知名AI公司“月之暗面”推出了 一款高效的开...多模态模型# Kimi-VL# 月之暗面8个月前03560
基于 Mochi 微调的开源视频模型Pusa:低成本、高性能的开源视频生成模型Pusa 是基于 Mochi 微调的开源视频模型,不仅开源了整个微调过程,还以极低的训练成本(仅 100 美元)实现了多种视频生成任务的无缝支持。 GitHub:https://github.com...视频模型# Pusa# 视频生成模型8个月前01920
基于像素空间流的图像生成模型PixelFlow:根据给定的文本描述生成高质量、语义一致的图像香港大学和Adobe的研究人员推出基于像素空间流的图像生成模型PixelFlow,它直接在像素空间中进行操作,与传统的基于潜在空间(latent space)的模型不同。PixelFlow通过高效的级...图像模型# PixelFlow# 图像生成模型8个月前01930
智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1北京智象未来科技开源了一款全新的图像生成基础模型HiDream-I1,其拥有 170 亿个参数,能够在几秒内实现顶尖的图像生成效果。这一模型提供了三种变体:Full、Dev 和 Fast,以满足不同用...图像模型# HiDream-I1# 图像生成模型# 智象未来8个月前05220
基于DeepSeek-R1构建的开源高效编码模型DeepCoder-14B由Together AI和Agentica联合推出了一款编码模型DeepCoder-14B,正以其卓越的性能和完全开源的特点,引发AI社区的广泛关注。这款基于DeepSeek-R1构建的模型,在多个编...大语言模型# DeepCoder-14B# DeepSeek-R1# 编码模型8个月前01990
字节跳动推出基于Flux的通用框架UNO:支持虚拟试穿、风格化生成、产品设计等功能字节跳动近日推出了UNO,这是一个强大的通用框架,能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力,还能将多样化的任务统一在一个模型之下,为图像生成领域带来了新的突破。 项目主页...图像模型# FLUX# UNO# 字节跳动9个月前06220
英伟达发布开源大语言模型Llama-3.1 Nemotron Ultra-253B-v1:以半数参数超越DeepSeek R1英伟达今天发布了一款全新的开源大语言模型—Llama-3.1 Nemotron Ultra-253B-v1,这款拥有2530亿参数的模型在多个基准测试中表现出色,甚至超越了竞争对手DeepSeek R...大语言模型# Llama-3.1 Nemotron Ultra# Llama-3.1 Nemotron Ultra-253B-v1# 英伟达9个月前02550
Deep Cogito推出Cogito v1系列混合AI推理模型,基于Llama/Qwen训练Deep Cogito在今天发布了其最新成果——Cogito v1系列模型,这是一组参数规模从30亿到700亿不等的开源大语言模型(LLMs)。这些模型不仅在性能上超越了同等规模的最佳开源模型,还引入...大语言模型# Cogito v1# Deep Cogito# 混合AI推理模型9个月前03350
拥有20亿参数的多模态大语言模型Open-Qwen2VL在多模态大语言模型(MLLMs)的研究与应用中,视觉与文本模态的融合正在不断拓展其边界,从图像描述到视觉问答,再到复杂文档的解读,这些模型展现出了强大的能力。然而,这一领域的进一步发展面临着诸多挑战...多模态模型# Open-Qwen2VL# 多模态大语言模型9个月前01860
香港大学与华为合作发布扩散大语言模型 Dream 7B香港大学与华为诺亚方舟实验室携手,正式发布了迄今为止最强大的开放扩散(Diffusion)大语言模型——Dream 7B。这一模型不仅在性能上大幅超越现有的扩散语言模型,还在通用能力、数学能力和编码能...大语言模型# Dream 7B# 华为诺亚方舟实验室# 扩散大语言模型9个月前04940
新型图像编码器FlexTok:能够将二维图像重新采样为长度可变的一维离散标记(token)序列苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok,它能够将二维图像重新采样为长度可变的一维离散标记(token)序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂...图像模型# FlexTok# 图像编码器9个月前03470
新型框架WriteHERE:通过异构递归规划实现自适应的长文本写作长文本写作(如小说、技术报告等)需要在信息检索、推理和创作之间进行灵活的整合与交互。现有的方法通常依赖于预定义的工作流程和僵化的思维模式,先生成大纲再进行写作,这限制了写作过程中的适应性。 项目主页...大语言模型# WriteHERE# 长文本写作9个月前03520