小马良

帅气的我简直无法用语言描述!
驳“大型推理模型不是真正的智能模型”:Claude Opus第一作者发文指出苹果论文实验设计局限

驳“大型推理模型不是真正的智能模型”:Claude Opus第一作者发文指出苹果论文实验设计局限

近日,Anthropic 研究团队在一篇新发布的论文中,对苹果公司 Shojaee 等人(2025)提出的观点进行了系统性反驳。该观点认为:大型推理模型(LRMs)在复杂规划任务中表现出“准确性崩溃...
8小时前
050
多智能体系统的构建与实战:Anthropic 如何打造高效研究代理

多智能体系统的构建与实战:Anthropic 如何打造高效研究代理

Anthomic 发布了一篇关于其多智能体研究系统的深度技术解析文章,详细阐述了他们如何利用多个 Claude 智能体协作完成复杂研究任务,并分享了从原型到生产过程中的关键经验教训。 本文不仅揭示了多...
8小时前
020
Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

Holo1 是由 HCompany 开发的一款专为网络代理系统设计的 动作视觉-语言模型(VLM),作为 Surfer-H 网络代理的核心组件之一,它具备像人类用户一样与网页界面交互的能力。 模型:h...
17小时前
040
字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

近年来,随着扩散模型等深度生成技术的发展,视频生成能力取得了显著进步。然而,在涉及多个参考主体的场景中,如何保证各主体之间的视觉一致性、身份一致性和生成稳定性,依然是一个重大挑战。 为了解决这一问题...
17小时前
040
浙大 & vivo 联合发布 MagicTryOn:首个基于扩散 Transformer 的视频虚拟试衣框架

浙大 & vivo 联合发布 MagicTryOn:首个基于扩散 Transformer 的视频虚拟试衣框架

在虚拟试衣技术持续发展的背景下,如何在视频中实现自然、真实、连贯的服装模拟,依然是一个极具挑战性的课题。 浙江大学、vivo 和博维智慧科技的研究团队提出了一种全新的视频虚拟试衣(Video Virt...
1天前
050
告别塑料感!腾讯开源新一代 3D 生成大模型混元 3D 2.1

告别塑料感!腾讯开源新一代 3D 生成大模型混元 3D 2.1

在计算机视觉领域顶级会议 CVPR 2025 上,腾讯宣布将旗下 混元 3D 2.1 大模型全面开源,这是目前首个实现全链路开源的工业级 3D 生成大模型,标志着国产 AI 在 3D 内容生成领域的又...
1天前
090
Firefox 139 正式支持 Perplexity AI 搜索引擎,提升学术与编程场景体验

Firefox 139 正式支持 Perplexity AI 搜索引擎,提升学术与编程场景体验

Mozilla 与 Perplexity AI 的合作终于落地。在最新发布的 Firefox 火狐浏览器 139 版本中,用户现已可以将 Perplexity AI 添加为搜索引擎,进一步拓展浏览器在...
1天前
050
微软 VS Code 1.101 发布:正式集成 MCP 协议,迈向“AI 编辑器”关键一步

微软 VS Code 1.101 发布:正式集成 MCP 协议,迈向“AI 编辑器”关键一步

微软近日发布了 Visual Studio Code 1.101 版本更新,重点引入了对 Model Context Protocol(MCP)协议 的原生支持。这一改动标志着 VS Code 正式向...
1天前
090
Meta豪掷150亿美元投资Scale AI,补强AI短板

Meta豪掷150亿美元投资Scale AI,补强AI短板

近日,社交巨头Meta宣布向数据标注初创公司Scale AI投资150亿美元,并聘请其联合创始人兼前CEO亚历山大·王(Alexandr Wang),引发业界广泛关注。 这笔交易不仅让Scale AI...
1天前
050
谷歌搜索新增“音频概览(Audio Overview)”功能:让搜索结果‘说出来

谷歌搜索新增“音频概览(Audio Overview)”功能:让搜索结果‘说出来

谷歌最近在搜索功能中引入了一项新尝试——基于搜索结果生成AI语音对话。这项功能被称为“音频概览(Audio Overview)”,它让你无需点击链接或阅读文字摘要,就能通过两个AI角色之间的对话,快速...
1天前
090