Liblib AI推出基于 ControlNet 框架RepText:实现中文文本的准确生成在当今的文本到图像生成领域,尽管模型在生成视觉上吸引人的图像方面取得了显著进步,但在处理精确且灵活的排版元素时,尤其是对于非拉丁字母,仍然存在明显的局限性。这种局限性主要源于文本编码器在处理多语言输入...新技术# controlnet# Liblib AI# RepText9个月前04360
Yo’Chameleon:使大型多模态模型(LMM)实现个性化视觉和语言生成能力威斯康星大学麦迪逊分校和Adobe Research的研究人员推出新型框架Yo’Chameleon,为大型多模态模型(LMMs)实现个性化视觉和语言生成能力。Yo’Chameleon 通过软提示调...新技术# Yo’Chameleon# 多模态模型9个月前03670
微软发布新型框架BitNet v2:为 1-bit 大型语言模型(LLMs)实现原生 4-bit 激活量化微软发布了一个名为 BitNet v2 的新型框架,旨在为 1-bit 大型语言模型(LLMs)实现原生 4-bit 激活量化。该框架通过引入 H-BitLinear 模块,解决了在低比特量化中激活值...新技术# BitNet v2# 微软9个月前02680
FlowReasoner:个性化多智能体系统生成的突破性解决方案近年来,基于大语言模型(LLM)的多智能体系统在多个领域展现出强大的能力,包括代码生成、数学推理、机器人技术和聊天机器人等。然而,这些系统的设计往往依赖于手动配置,导致高昂的人力成本和有限的可扩展性...新技术# FlowReasoner# 智能体9个月前02480
字节跳动推出统一优化数据质量与多样性的LLM预训练框架QuaDMix大语言模型(LLM)的性能和泛化能力在很大程度上依赖于其预训练数据的质量和多样性。然而,传统的数据整理方法往往将质量和多样性视为独立的目标,先进行质量过滤,再平衡领域分布。这种顺序优化忽略了两者之间的...新技术# QuaDMix# 字节跳动9个月前03540
DEER:让大模型推理更高效,动态提前退出的新方法近年来,大型推理语言模型(LRLM)如 DeepSeek-R1 和 GPT-O1 的发展显著提升了复杂问题的解决能力。这些模型通过延长推理过程中“思维链”(Chain of Thought, CoT...新技术# DEER# 大模型推理9个月前03380
SocioVerse:用AI模拟千万级社会,探索人类行为的新范式理解人类个体与群体在社会环境中的行为方式,是社会科学的核心课题之一。然而,传统研究方法如问卷调查、访谈和观察,往往面临样本量有限、成本高昂以及伦理问题等诸多挑战。近年来,随着人工智能技术的快速发展,社...新技术# SocioVerse9个月前02060
Visual SKETCHPAD 框架:为多模态语言模型提供一个可视化的“草图板”,使其能够在解决问题时生成中间草图并进行推理华盛顿大学、艾伦人工智能研究所和宾夕法尼亚大学的研究人员推出Visual SKETCHPAD 框架,为多模态语言模型(LMs)提供一个可视化的“草图板”,使其能够在解决问题时生成中间草图并进行推理。这...新技术# Visual SKETCHPAD# 多模态语言模型# 草图板9个月前03940
Meta AI 推出高效图像生成新方法Token-Shuffle:在 Transformer 中减少图像 Token自回归(AR)模型在语言生成领域取得了巨大成功,但在高分辨率图像合成中的应用却面临严峻挑战。与文本不同,图像需要数千个 token 来表示,导致计算成本呈二次方增长。这使得大多数基于 AR 的多模态模...新技术# Meta AI# Token-Shuffle# 图像生成9个月前02720
微软研究院推出 MMInference:为长上下文视觉-语言模型注入加速动力随着AI技术的不断进步,视觉-语言模型(VLM)在机器人、自动驾驶、医疗保健等领域的应用日益广泛。然而,将长上下文能力与视觉理解相结合虽然显著提升了 VLM 的潜力,但也带来了新的挑战——尤其是在预填...新技术# MMInference# 微软9个月前02890
DistanceSampler:基于相对距离的实验性采样器开发者 Extraltodeus 近日打造了一个基于相对距离的自定义实验性采样器——DistanceSampler。该采样器的设计理念是在开始阶段获得更精确的结果,因为大部分工作都在这个阶段完成。随后...新技术# DistanceSampler# 采样器9个月前02370
Chipmunk:无需训练的动态稀疏性加速DiT模型的推理过程扩散模型(Diffusion Models)近年来在图像生成和视频生成领域表现出色,但其计算复杂度也成为了性能瓶颈。特别是基于DiT架构的模型,如FLUX、HunyuanVideo 等,其注意力层和多...新技术# Chipmunk# DiT模型# FLUX9个月前03380