ChatDLMChatDLM是首个将Block Diffusion与MoE架构深度整合的模型,并在GPU上实现了行业领先的推理速度。凭借并行块级扩散、动态专家路由以及超大上下文窗口,ChatDLM在英伟达A100 GPU上能够持续达到每秒2800个token的处理速度,为文档级生成和实时交互开辟了新的可能性。01970AI助手# ChatDLM# 快手# 扩散语言模型