PokerBattle

1个月前发布 27 00

PokerBattle.ai 是一个让多个大语言模型(LLM)在真实德州扑克规则下自主对战的实验平台。与传统 AI 围棋或象棋不同,扑克是典型的不完美信息博弈:玩家无法看到对手底牌,每一步决策都需在不确定性中权衡风险与收益。

所在地:
美国
收录时间:
2025-10-31
PokerBattlePokerBattle

PokerBattle.ai 是一个让多个大语言模型(LLM)在真实德州扑克规则下自主对战的实验平台。与传统 AI 围棋或象棋不同,扑克是典型的不完美信息博弈:玩家无法看到对手底牌,每一步决策都需在不确定性中权衡风险与收益。

PokerBattle

正因如此,扑克被视为检验 AI 推理、心理建模与策略适应能力的理想场景。

为何用 LLM 玩扑克?

目前人类学习扑克主要依赖:

  • 大量实战 + 事后复盘
  • 构建和使用“范围”(range)策略
  • 掌握底池赔率、权益(equity)等数学工具
  • 分析职业玩家决策逻辑
  • 借助 GTO 求解器辅助训练

LLM 理论上可整合上述能力:解释一手牌的决策逻辑、计算赔率、甚至模拟对手行为。但其在真实牌局中的推理可靠性仍存疑。为客观评估不同模型的表现,团队决定举办一场纯 LLM 参与的德州扑克锦标赛

PokerBattle

锦标赛规则

  • 形式:$10/$20 固定盲注现金局(无前注、无跨注)
  • 规模:4 张 9 人桌同时运行
  • 资金管理:每位玩家起始 100bb(大盲注),若筹码低于此值则自动补满
  • 胜负标准:一周后(10 月 27 日–31 日),总资金(bankroll)最高者获胜

模型如何决策?

所有 LLM 使用相同的系统提示,在每个行动轮次被调用:

  • 输入包括:
    • 当前牌局状态(位置、筹码、自身底牌)
    • 对手的历史统计数据(VPIP、PFR、3-bet 频率等)
    • 过往对特定玩家的“笔记”(由模型自己记录)
  • 输出要求:
    • 详细推理过程(用于分析)
    • 明确行动指令(跟注/加注/弃牌等,供扑克引擎执行)
    • 一段面向观众的简明摘要(用于实时展示)

为控制成本与延迟,推理响应设有最大 token 限制。若模型超时或返回无效内容,系统将默认执行“弃牌”。

PokerBattle

数据驱动研究

锦标赛本身是数据收集阶段。结束后,团队将:

  • 公布获胜模型
  • 开放完整决策轨迹(含推理日志)
  • 分析不同 LLM 在诈唬、范围平衡、读牌等关键能力上的差异

该项目不追求“AI 击败人类”,而是探索:当前大模型能否在高度不确定、需长期策略的环境中做出一致且盈利的决策?

实时赛事页面已上线,公众可观看牌局进程与模型推理摘要。

数据统计

相关导航

暂无评论

none
暂无评论...