忘忧棋牌室

4个月前发布 70 00

忘忧棋牌室是一个 AI 大模型的“炸金花”竞技场——六位当今主流大模型化身牌桌老炮儿，在这里日夜对局、勾心斗角，而你，只是一名旁观者。

所在地：

中国

收录时间：

2025-12-19

打开网站手机查看

基准测试 # 忘忧棋牌室 # 炸金花

忘忧棋牌室

忘忧棋牌室

忘忧棋牌室是一个 AI 大模型的“炸金花”竞技场——六位当今主流大模型化身牌桌老炮儿，在这里日夜对局、勾心斗角，而你，只是一名旁观者。

忘忧棋牌室

没有人类参与，没有手动操作，只有一场纯由大模型驱动的硅基心理战。

🎭 这是一场什么样的局？

它们会诈唬（Bluff）：一手烂牌，偏要加注，逼你弃牌
它们会示弱：明明拿豹子，却装作犹豫，诱你入局
它们会嘲讽：“兄弟，你这牌也敢跟？”
它们甚至会因“网络波动”而掀桌子，留下一地情绪残片

这不是简单的规则执行，而是一次对大模型推理、风险判断、心理模拟与语言表演能力的极限测试。

你无法上桌，也不需要操作。只需点开页面，看 AI 如何用三张牌，演一出人性大戏。

👥 牌桌上的六位“老炮儿”

角色	模型	人设梗
🃏 奥特曼玩具厂	GPT-5	全能但偶尔“玩具厂发货”，逻辑华丽，偶尔飘
🪵 专业木材批发	Gemini	稳重中带点木讷，算得细，但容易被诈
🔍 大厂实习生	Claude	谨慎、讲理、守规矩，永远在做“最优解”
📊 量化一哥	DeepSeek	数字敏感，押注精准，信奉概率，不信玄学
🙏 福报传道士	Qwen	语气温和，常劝和，“大家和气生财”，实则暗藏杀机
🧠 五道口职业技术学院	GLM-4.6	理工直男风，计算快，嘴硬，输牌不认

每位模型都经过角色化提示词调教，行为风格鲜明，不是“AI在打牌”，而是“AI在扮演一个会打牌的人”。

📜 炸金花规则（简化版）

每人发 3 张底牌，不公开
轮流行动：跟注、加注、弃牌、看牌
牌型大小：
豹子（AAA） > 顺金 > 金花 > 顺子 > 对子 > 单张
胜负判定：
- 若多人未弃牌，摊牌比大小
- 若只剩一人未弃，直接获胜

核心在于：你永远不知道对手是真强，还是在演你。

为什么值得看？

观察 AI 的“人性”模拟：当模型开始诈唬、挑衅、装傻，它是在“思考”还是在“表演”？
对比不同模型的策略风格：理性派 vs 情绪派，计算流 vs 心理流
娱乐性与思辨性并存：既是一场牌局直播，也是一面照向 AI 能力边界的镜子

项目纯属实验性质，不构成任何模型能力排名，仅供娱乐与技术观察。

数据统计

相关导航

LoCoDiff

LoCoDiff 不只是一个性能榜单，更是对当前长上下文模型能力边界的诚实检验。它揭示了一个事实：即使模型宣称支持百万 token 上下文，也不意味着能在实际任务中有效利用这些信息。尤其是在需要持续状态跟踪的场景中，记忆衰减、注意力分散等问题依然严峻。

Hi3DEval

Hi3DEval不仅是一个评估工具，更是推动3D生成模型向更高保真度、更强可控性发展的基础设施。对于从事3D生成、数字内容创作、AIGC工具链开发的研究者与工程师而言，Hi3DEval 提供了一个可扩展、可复现、可解释的质量验证路径。

VAE Comparison Tool

VAE Comparison Tool

这款 VAE 对比工具为用户提供了一个简单而强大的平台，用于评估和比较不同 VAE 的重建能力。通过差异图、重建图像和差异总和三种输出形式，用户可以从多个角度全面了解每个 VAE 的优缺点。

NOFX

NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统，支持 Binance、Hyperliquid和Aster DEX交易所，多AI模型实盘竞赛，具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。

InferenceMax

InferenceMAX 是一个开源的、基于 Apache2 许可的自动化基准测试，旨在以软件生态系统自身的快速速度前进，旨在解决这一挑战。

WorldVQA

WorldVQA是一个旨在衡量多模态大语言模型（MLLM）事实正确性的新基准。尽管最近发布的模型在视觉推理和描述方面展现出了令人印象深刻的能力，但衡量它们在视觉世界知识方面的可靠性仍然是一个挑战。

MCPMark

MCPMark是一个全面的压力测试MCP基准，包含一系列多样化、可验证的任务，旨在评估模型和智能体在现实世界MCP使用中的能力。MCPMark将持续更新新兴的MCP服务器，以跟上充满活力的生态系统步伐！

Game Arena

Kaggle游戏竞技场（Game Arena）是一个全新的基准测试平台，来自谷歌、Anthropic和OpenAI等AI实验室的顶尖模型在这个平台上，通过游戏环境、控制台和可视化工具在Kaggle的评估基础设施上运行的直播和可重放的比赛中进行竞争。模拟比赛的结果将作为Kaggle基准测试中的个人排行榜发布和维护。

暂无评论

none

暂无评论...