如果你曾让 AI 画一张“带有具体数据的饼图”、“排版精美的餐厅菜单”或“标注了坐标轴的数学函数图”,结果大概率会失望:文字变成乱码、布局歪七扭八、数据完全错误。
这是因为现有的文生图模型依赖模糊的自然语言来规划画面,无法精确理解“左上角”、“24号字体”、“红色标签”这样的空间指令。
- GitHub:https://github.com/micky-li-hd/CoCo
来自华南理工大学、StepFun、中国科学院自动化研究所、南洋理工大学和香港中文大学的研究团队推出了 CoCo (Code-as-CoT) 技术,给出了一个颠覆性的解决方案:别用自然语言描述画面,直接用代码画!

💡 核心理念:代码即思维链 (Code-as-CoT)
CoCo 的核心洞察是:代码是描述结构化布局最精确的语言。
与其让 AI 猜“左边有个红圆”,不如让它写一行 draw_circle(x=100, y=200, color='red')。代码没有歧义,可执行,且可验证。

CoCo 将文生图过程重构为 “先画蓝图(代码),再搞装修(美化)” 的三步走策略:
🏗️ 第一步:写“建筑蓝图” (Code Generation)
AI 不再直接生成像素,而是扮演程序员。它根据用户提示词,编写一段可执行的 Python 绘图代码(基于 Matplotlib 等库)。
- 精确性:代码中明确规定了画布大小、每个元素的坐标 (x, y)、尺寸、颜色值 (Hex/RGB)、字体类型和大小。
- 消除歧义:彻底解决了自然语言中“大概”、“附近”、“稍微大一点”带来的不确定性。
🏠 第二步:搭“毛坯房” (Draft Rendering)
AI 将生成的代码在一个安全的沙盒环境中运行。
- 产出:一张结构完美但视觉简陋的“草稿图”。
- 验证:这张图是 AI 思考过程的可视化证明。如果代码报错或布局不对,系统可以立即发现并修正代码,直到草稿结构完全正确。这是传统黑盒生成无法做到的。
🎨 第三步:搞“精装修” (Draft Refinement)
有了结构正确的草稿,AI 切换为艺术家模式。
- 任务:参考原始提示词和草稿结构,对画面进行美学升级。
- 保真:将简陋的色块变为精美插画,基础字体变为艺术字,添加光影质感。
- 铁律:严禁改变结构。标题不能移位,文字内容不能篡改,布局必须与草稿严格一致。
🌟 为什么 CoCo 是革命性的?
| 特性 | 传统文生图 (Diffusion/Transformer) | CoCo (Code-as-CoT) |
|---|---|---|
| 规划语言 | 模糊的自然语言 | 精确的可执行代码 |
| 文字渲染 | 经常乱码、拼写错误 | 100% 准确 (由代码引擎渲染) |
| 布局控制 | 难以控制相对位置 | 像素级精确 (坐标控制) |
| 可验证性 | 黑盒,错了只能重抽 | 白盒,草稿可检查、代码可调试 |
| 结构化能力 | 弱 (表格/图表易崩坏) | 极强 (天生适合图表/UI) |
| 长文本支持 | 困难 | 优秀 (代码可处理任意长度文本) |
📊 实测表现:碾压级优势
研究团队在三个权威基准测试中验证了 CoCo 的效果:
- 📐 结构化图像生成 (StructT2IBench)
- 任务:绘制图表、数学图形、表格。
- 结果:CoCo 准确率高达 73.52%,比直接生成提升了 68.83%。远超 GPT-Image (49.58%) 等主流模型。
- 🔤 多语言文本渲染 (OneIG-Bench)
- 任务:在图中生成准确的英文和中文。
- 结果:英文准确率 89.5%,中文 81.1%,综合得分 85.3%,显著领先。
- 📝 长文本生成 (LongText-Bench)
- 任务:生成包含大段文字的海报、新闻标题。
- 结果:CoCo 得分 75.4%,而基线模型仅为 34.2%,提升超过 41%。
🔍 关键发现
- 代码训练至关重要:未经专门代码训练的模型,生成的代码 90% 无法运行。CoCo 通过 CoCo-10K 数据集(1 万+ 代码 - 图像对)专门强化了这一能力。
- 少量样本即可生效:只需 5% 的代码训练数据,就能让模型掌握结构化推理能力,其余数据可用于优化美学效果。
- 草稿不可跳过:实验证明,跳过“代码->草稿”环节直接美化,结构错误率会飙升。草稿是保证准确性的基石。
🚀 应用场景展望
CoCo 的出现将极大拓展 AI 绘图的边界:
- 📊 数据可视化:一键生成准确无误的商业图表、科研论文配图。
- 🎨 平面设计:自动排版海报、传单、书籍封面,确保文字不乱码、布局专业。
- 📱 UI/UX 设计:快速生成高保真的界面原型,元素对齐精准。
- 📚 教育材料:自动生成带准确公式和标注的数学/物理习题图。
- 🌍 多语言本地化:轻松生成包含复杂非拉丁文字(如中文、阿拉伯文)的宣传图。
CoCo 证明了:在需要精确性和逻辑性的领域,编程思维优于直觉生成。它让 AI 从“凭感觉画画”的印象派画家,进化为“按图纸施工”的严谨工程师。
虽然目前代码和模型尚未公开,但这一思路无疑指明了文生图技术的下一个演进方向:结构化、可控化、可验证化。未来,我们或许不再需要反复抽卡只为得到一个文字正确的 Logo,因为 AI 已经学会了先写代码,再画图。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















