PaperBanana

1天前发布 4 00

在 AI 辅助科研的流程中,语言模型已能高效完成文献综述、代码生成甚至实验设计。但有一环始终依赖人工:绘制符合发表标准的学术插图。 无论是模型架构图、方法流程图还是统计图表,研究者仍需花费大量时间调整布局、统一风格、校对标注。为此,北京大学与 Google Cloud AI Research 联合推出了 PaperBanana——一个专为...

所在地:
中国
收录时间:
2026-02-18
其他站点:
PaperBananaPaperBanana

在 AI 辅助科研的流程中,语言模型已能高效完成文献综述、代码生成甚至实验设计。但有一环始终依赖人工:绘制符合发表标准的学术插图

无论是模型架构图、方法流程图还是统计图表,研究者仍需花费大量时间调整布局、统一风格、校对标注。为此,北京大学与 Google Cloud AI Research 联合推出了 PaperBanana——一个专为学术插图生成设计的多智能体框架。

PaperBanana

它不只是一个"文生图"工具,而是一套参考驱动、可迭代优化、符合学术规范的自动化工作流。

核心亮点速览

  • 参考驱动:自动检索相似论文图例,确保风格与逻辑符合领域惯例
  • 五智能体协作:检索、规划、风格、可视化、批评五大角色分工明确
  • 迭代细化机制:支持最多 3 轮自我批评与修正,提升输出质量
  • 双模输出:既支持示意图/架构图生成,也支持统计图表(代码 or 图像双路径)
  • 专属基准 PaperBananaBench:基于 NeurIPS 2025 论文构建,含 292 个测试用例
  • 多端集成:提供 CLI、Python API、MCP 服务器,支持 Claude Code 技能调用
  • 本地可控:中间产物与元数据完整留存,便于审计与复现

方法概述:五智能体如何协作?

PaperBanana 将学术插图生成拆解为一条流水线,由五个专门智能体协同完成:

原始方法文本
      ↓
[检索智能体] → 匹配 NeurIPS 风格参考图例
      ↓
[规划智能体] → 生成结构化文本描述(内容+逻辑+标注)
      ↓
[风格智能体] → 注入学术美学规范(配色/字体/布局)
      ↓
[可视化智能体] → 渲染图像 或 生成可执行绘图代码
      ↓
[批评智能体] → 对照源文本校验,反馈修正建议
      ↻(最多 3 轮迭代)
      ↓
最终输出:publication-ready 插图 + 完整元数据

各智能体职责详解

智能体核心任务关键技术
检索智能体从 curated 图例库中匹配最相关参考语义相似度检索 + 风格聚类
规划智能体将方法描述转化为可视化所需的结构化文本Gemini VLM 上下文学习 + 逻辑拆解
风格智能体确保输出符合学术出版美学标准NeurIPS 风格指南 + 视觉规则引擎
可视化智能体执行渲染:图像生成 or 代码输出Gemini 图像模型 / Matplotlib/Plotly 代码生成
批评智能体校验生成结果与源内容的一致性VLM 多模态比对 + 规则校验

💡 设计思路:将"生成"拆解为"规划→执行→校验"闭环,避免端到端黑箱模型常见的逻辑漂移与风格失准问题。

PaperBanana

基准构建:PaperBananaBench

为客观评估自动化插图生成质量,研究团队构建了 PaperBananaBench——首个面向学术方法图的专用评测基准。

构建流程

  1. 收集与解析:爬取 NeurIPS 2025 接收论文,提取方法章节与对应图例
  2. 质量过滤:人工筛选逻辑清晰、标注完整、风格典型的图例
  3. 分类标注:按研究领域(CV/NLP/RL 等)与图表类型(架构/流程/统计)打标
  4. 人工策展:最终形成 292 个测试用例 + 292 个参考用例,共 584 个高质量样本

评测维度

  • 忠实度(Fidelity):生成内容是否准确反映方法逻辑
  • 简洁性(Conciseness):信息密度与视觉冗余的平衡
  • 可读性(Readability):标注清晰度、字体大小、对比度
  • 美观性(Aesthetics):配色、布局、学术风格符合度

实验结果:全面优于基线

在 PaperBananaBench 上的系统评估显示:

方法忠实度简洁性可读性美观性综合得分
直接文生图(Gemini)72.168.475.370.271.5
Code-based 绘图代理78.674.181.265.874.9
PaperBanana(Ours)86.382.788.184.585.4

✅ 所有维度均显著优于单模型基线与纯代码生成方案
✅ 迭代细化机制对提升忠实度与可读性贡献最大
✅ 风格智能体有效缩小了与人工绘制图表的美学差距

扩展能力:高质量统计图生成

PaperBanana 同样适用于折线图、热力图、箱线图等统计图表。下图即为 Nano-Banana-Pro 根据原始数据自动生成的示例:

(此处可插入示例图,实际发布时替换为真实输出)

两个高级应用场景

应用 1:提升手工图表的美学质量

即使图表已由人工绘制,PaperBanana 的风格智能体仍可基于 NeurIPS 指南提供优化建议:

  • 自动调整配色方案,确保色盲友好
  • 统一字体字号与线宽,符合出版规范
  • 优化元素布局,减少视觉拥挤

适合:已绘制初稿、希望快速提升专业度的研究者

应用 2:图像生成 vs 代码生成,如何选择?

团队对比了两种统计图生成路径:

维度图像生成路径代码生成路径
呈现效果✅ 更美观,风格统一⚠️ 依赖模板,需手动调优
内容忠实度⚠️ 偶发细节偏差✅ 逻辑精确,可追溯
可编辑性❌ 位图,修改困难✅ 代码可复用、可调整
适用场景示意图、概念图、汇报用图实验结果图、需复现的统计图

💡 建议:方法架构图优先用图像生成;实验数据图推荐代码路径,兼顾准确性与可复现性。

快速上手指南

前置要求

  • Python 3.10 或更高版本
  • Google Gemini API 密钥(需开通 Gemini 2.0+ 权限)

步骤 1:安装

# 方式一:PyPI 安装(推荐)
pip install paperbanana

# 方式二:源码安装(开发模式)
git clone https://github.com/llmsresearch/paperbanana.git  
cd paperbanana
pip install -e ".[dev,google]"

步骤 2:配置 API 密钥

# 推荐:交互式设置(自动打开浏览器授权)
paperbanana setup

# 或手动配置
cp .env.example .env
# 编辑 .env 文件,填入:GOOGLE_API_KEY=your-key-here

步骤 3:生成你的第一张学术插图

# 使用内置示例
paperbanana generate \
  --input examples/sample_inputs/transformer_method.txt \
  --caption "Overview of our encoder-decoder architecture with sparse routing"

# 或使用自定义方法描述
cat > my_method.txt << 'EOF'
Our framework consists of an encoder that processes input sequences
through multi-head self-attention layers, followed by a decoder that
generates output tokens auto-regressively using cross-attention to
the encoder representations. We add a novel routing mechanism that
selects relevant encoder states for each decoder step.
EOF

paperbanana generate \
  --input my_method.txt \
  --caption "Overview of our encoder-decoder framework"

✅ 输出路径:outputs/run_<timestamp>/final_output.png
✅ 附带内容:所有中间迭代图像、智能体决策日志、元数据 JSON

工作原理:两阶段流程详解

第一阶段:线性规划(Planning)

  1. 检索器:从 13 个 curated NeurIPS 图例中,基于语义相似度选出 Top-3 参考
  2. 规划器:结合参考图例的结构与标注习惯,生成目标图的详细文本描述(含元素列表、连接关系、标注位置)
  3. 风格器:注入学术出版规范,如:
    • 字体:Arial/Helvetica,字号≥8pt
    • 配色:ColorBrewer 安全 palette,避免红绿对比
    • 布局:左→右/上→下逻辑流,避免交叉连线

第二阶段:迭代细化(Refinement)

  1. 可视化器:调用 Gemini 图像模型生成初稿,或输出 Matplotlib/Plotly 代码
  2. 批评器:对比源文本与生成图像,检查:
    • 关键组件是否遗漏
    • 箭头/连线逻辑是否正确
    • 标注文字是否准确
  3. 反馈循环:若发现问题,批评器生成修正指令,返回规划器调整描述,最多迭代 3 轮

🔄 设计优势:避免"一次生成定终身",通过多轮校验逼近人工绘制质量。

技术栈与集成方式

核心依赖

组件提供商模型/版本
视觉语言模型Google Geminigemini-2.0-flash
图像生成Google Geminigemini-3-pro-image-preview
代码执行沙箱本地 Python 环境Matplotlib 3.7+, Plotly 5.15+

集成接口

  • 命令行(CLI):适合脚本化批量生成
  • Python APIfrom paperbanana import Generator,支持自定义智能体配置
  • MCP 服务器:通过 Model Context Protocol 与 AI 助手(如 Claude Code)集成,支持技能调用:
    /generate-diagram --input method.txt
    /generate-plot --data results.csv --type heatmap
    /evaluate-diagram --image output.png --reference method.txt
    

适用人群与使用建议

用户类型推荐用法注意事项
科研学生用 /generate-diagram 快速绘制方法初稿,再手动微调首次使用建议从示例输入开始,熟悉输出格式
实验室 PI批量生成组内论文插图,统一风格规范建议建立团队专属参考图例库,提升检索准确率
期刊编辑/审稿人用 /evaluate-diagram 辅助检查投稿图表合规性当前仅支持 NeurIPS 风格,其他会议风格待扩展
AI 开发者通过 Python API 集成到论文写作工具链注意 API 调用频率限制,大任务建议加重试逻辑

数据统计

相关导航

Freepik AI Suite

Freepik AI Suite

Freepik是国外一家老牌素材库,旗下拥有Flaticon、Slidesgo和Videvo等知名素材库,它们从2024年开始推出一系列由AI驱动的图像、视频及音频创建和编辑工具,Freepik AI Suite包含各种工具,例如用于从文本或图像创建视频的视频生成器、用于将文字转换为图像的图像生成器,以及用于提高分辨率和细节的功能。该套件还提供了一个修饰工具,可以轻松替换细节,一个背景移除器,可以擦除任何图像背景,一个草图转图像工具,以及一个在线照片编辑器。

暂无评论

none
暂无评论...