Auto-claude-code-research-in-sleep (ARIS )

6小时前发布 1 00

ARIS 是一套基于 Claude Code Skills 的自主机器学习科研工作流系统。它的核心理念极其简单却强大:“你睡觉,它科研”。

所在地:
中国
收录时间:
2026-04-02
其他站点:
Auto-claude-code-research-in-sleep (ARIS )Auto-claude-code-research-in-sleep (ARIS )

ARIS 是一套基于 Claude Code Skills 的自主机器学习科研工作流系统。它的核心理念极其简单却强大:“你睡觉,它科研”

当你入睡时,ARIS 自动执行从文献调研、Idea 发现、代码实现、实验运行、论文撰写到 Rebuttal 回复的全流程。当你醒来,面对的是一份已被多轮“ adversarial(对抗式)”评审打磨过、实验数据详实、叙事逻辑严密的完整论文草稿。

Auto-claude-code-research-in-sleep (ARIS )

核心哲学:跨模型对抗式协作

ARIS 拒绝单模型“自问自答”的自我博弈,因为它容易陷入局部最优和盲区。ARIS 采用了双模型对抗机制

  1. 执行者 (Executor):通常由 Claude Code 担任。
    • 特长:快速、丝滑地读取文件、编写代码、部署环境、运行实验、收集数据。
  2. 审稿人 (Reviewer):通常由 Codex (GPT-5.4 xhigh) 或 Gemini 担任。
    • 特长:严谨、深入地发现逻辑漏洞、设计压力测试、提出尖锐的修改意见。

为什么是双模型?
这模拟了真实的学术同行评审(Peer Review)。执行者负责“攻”,审稿者负责“守”。这种 Adversarial Bandit(对抗性多臂老虎机) 模式比单模型的 Stochastic Bandit 更难被“欺骗”,能更有效地发现盲点,推动研究质量从 Borderline Reject 提升至 Accept 水平。

全链路工作流:从 Idea 到讲台

ARIS 将科研过程拆解为可自由组合的模块化 Skills,既支持全自动流水线,也支持按需调用。

1. Idea 发现与验证 (/idea-discovery)

  • 输入:一个具体的研究方向(如“离散扩散语言模型的 factorized gap”)。
  • 过程
    • 多源文献调研(Zotero, Obsidian, arXiv, Semantic Scholar)。
    • 头脑风暴生成 8-12 个候选 Idea。
    • 跨模型查新验证,剔除重复。
    • 自动运行 GPU Pilot 实验进行初步可行性验证。
  • 输出:带评分排序的 Idea 报告。

2. 实验桥接与执行 (/experiment-bridge)

  • 功能:将选定的 Idea 转化为可运行的代码。
  • 自动化
    • 克隆基础代码库 (base repo)。
    • 根据审稿意见自动编写消融实验脚本。
    • 通过 SSH/Screen 远程部署到 GPU 服务器。
    • 集成 W&B (Weights & Biases) 自动记录训练曲线。
    • 实验完成后自动拉取结果并更新报告。

3. 自动评审循环 (/auto-review-loop)

  • 核心机制:执行 4 轮自主评审。
    • Reviewer 打分并指出弱点(如“指标脱钩”、“声明不可复现”)。
    • Executor 针对性修复代码、重跑实验、重写叙事。
  • 效果:真实案例显示,可在无人干预下将论文评分从 5.0/10 提升至 7.5/10,期间自动运行 20+ 组 GPU 实验。

4. 论文写作与出版 (/paper-writing)

  • 流程:研究叙事 → 大纲生成 → 图表绘制 (Gemini/Mermaid) → LaTeX 编译 → PDF 生成。
  • 防幻觉:强制通过 DBLP/CrossRef 获取真实 BibTeX,杜绝虚假引用。
  • 输出:符合目标会议(ICLR, NeurIPS, ICML 等)格式要求的完整论文。

5. Rebuttal 助手 (/rebuttal)

  • 场景:收到审稿意见后。
  • 功能
    • 解析每条意见,制定回复策略。
    • 自动运行补充实验以回应质疑。
    • 起草 PASTE_READY.txt (精确字数,可直接粘贴) 和 REBUTTAL_DRAFT_rich.md (详细版)。
    • 三道安全门:不编造、不过度承诺、全覆盖。

6. 展示准备 (/paper-slides & /paper-poster)

  • 一键生成:Beamer PDF, PPTX, 演讲稿,Q&A 预案,以及 A0/A1 海报。

极致轻量:零依赖,纯 Markdown

ARIS 不是一个沉重的平台,而是一套方法论

  • 零框架:没有复杂的 Python 包依赖,没有 Docker 容器,没有守护进程。
  • 纯文本:每个 Skill 只是一个 SKILL.md 文件。任何 LLM 都能读懂,任何支持 Custom Instructions/Skills 的 IDE (Claude Code, Cursor, Trae, Windsurf, Codex CLI) 都能运行。
  • 可移植:Fork 仓库,复制 skills/ 文件夹到你的 ~/.claude/skills/,即刻生效。

支持的模型组合

虽然默认推荐 Claude Code (执行) + GPT-5.4 (审稿),但 ARIS 完全开放:

  • 免费方案:MiniMax-M2.7 + GLM-5 (通过 ModelScope 接入)。
  • 其他组合:Kimi, LongCat, DeepSeek 等任意支持 MCP 或 API 的模型。
  • 角色互换:也可配置为 Codex 执行,Claude/Gemini 审稿。

快速开始

1. 安装 Skills

git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
cp -r Auto-claude-code-research-in-sleep/skills/* ~/.claude/skills/

2. 配置审稿人 (以 Codex 为例)

npm install -g @openai/codex
codex setup  # 选择 gpt-5.4 模型
claude mcp add codex -s user -- codex mcp-server

(注:需在 ~/.codex/config.toml 中确认 model = "gpt-5.4")

3. 启动全流程

在 Claude Code 中输入:

/research-pipeline "离散扩散语言模型的 factorized gap" — AUTO_PROCEED: false
  • AUTO_PROCEED: false:在 Idea 选择等关键节点暂停,让你人工确认,避免浪费 GPU 资源。
  • human checkpoint: true:每轮评审后暂停,让你查看分数并给出额外指导。

真实效果案例

在某 ML 研究项目中,ARIS 自主运行了 4 轮循环:

轮次评分关键进展
初始5.0/10Borderline Reject,逻辑薄弱
第 1 轮6.5/10补充标准指标,发现指标脱钩问题
第 2 轮6.8/10核心声明被证伪,被迫转换叙事方向
第 3 轮7.0/10大规模 Seed 研究推翻了原有改善声明
第 4 轮7.5/10 ✅诊断证据确立,叙事稳固,达到投稿标准

全程无人干预,自动运行 20+ 次 GPU 实验,彻底重构了论文逻辑。

高级特性

  • 飞书集成:支持推送实验完成通知,甚至直接在飞书聊天窗口审批 Idea 或下达指令。
  • 领域扩展:社区已贡献 dse-loop (体系结构/EDA) 等专用 Skill,欢迎提交 PR 扩展你的领域。
  • 灵活参数:所有行为均可通过内联参数控制(如 sources: zotero, webvenue: CVPRillustration: gemini)。

“科研的本质是探索未知,而不是重复劳动。”
把繁琐的代码调试、实验跑分和格式调整交给 ARIS,你只需要专注于那个最核心的 Idea。

数据统计

相关导航

暂无评论

none
暂无评论...