我们每天都在说话——开会、讨论、自言自语、听讲座。但绝大多数口头信息转瞬即逝,无法被系统记录或后续调用。
三位前 Google X 科学家想改变这一点。他们创立了 TwinMind,一款 AI 驱动的应用,目标是成为你的“虚拟第二大脑”:
在你允许的前提下,全天候监听环境语音,构建个人知识图谱,并在你需要时提供记忆回溯、任务建议与智能回答。
这不是另一个会议笔记工具。TwinMind 的不同之处在于:它不只记录你“主动开启”的对话,而是持续捕捉你“被动说出”的一切。

该公司已正式发布 Android 与 iOS 版本,并推出新一代语音识别模型 Ear-3,同时宣布完成 570 万美元种子轮融资(投后估值 6000 万美元),由 Streamlined Ventures 领投,Sequoia Capital 与 Stephen Wolfram 参投——后者更是首次以投资人身份支持初创公司。
核心理念:让 AI 真正理解你的上下文
当前大多数 AI 助手(如 ChatGPT、Claude)面临一个根本局限:它们不了解你的真实生活状态。你必须手动上传文档、复制聊天记录、描述背景,才能获得相关回应。
TwinMind 的创始人 Daniel George(CEO)和他的联合创始人 Sunny Tang 与 Mahi Karim(两位 CTO)认为:
“真正的智能助手,应该像一个长期共事的同事——知道你上周说了什么,记得你提过的项目,甚至能预判你的需求。”

为此,TwinMind 从两个维度构建上下文:
1. 音频上下文:全天候语音捕获
- 在用户授权下,应用在后台持续监听环境声音;
- 实时转录为文本,仅保留语义内容,原始音频即时删除;
- 支持离线运行,设备本地处理,最长可持续 16–17 小时而不显著耗电;
- 自动生成会议纪要、待办事项、关键决策点摘要。
与其他工具(如 Otter、Fireflies)需手动启动不同,TwinMind 的核心优势是“被动连续捕获”——无论你是参加 Zoom 会议、线下讨论,还是独自思考时喃喃自语,它都能自动收录。
创始人 George 曾在 JPMorgan 担任应用 AI 负责人,每天参与大量会议。他最初写脚本自动录音+转录+输入 ChatGPT 分析,效果惊人。后来发现他人也感兴趣,但不愿在工作电脑上运行风险程序,于是决定开发一个可在个人手机安全运行的独立应用。
2. 视觉上下文:浏览器行为理解
- 配套 Chrome 扩展使用视觉 AI 技术,扫描打开的网页标签;
- 自动解析 Gmail、Slack、Notion、LinkedIn 等平台内容;
- 结合音频与浏览行为,形成更完整的“认知画像”。
这一能力已被实际用于招聘:今年夏天,TwinMind 使用该扩展自动分析了 854 名实习生申请者 的 LinkedIn 与简历,并排序推荐最佳候选人。“我们最后录用的四人,全部来自它的建议。”George 表示。

技术实现:如何突破移动系统的限制?
要在 iOS 和 Android 上实现长时间后台音频采集,技术挑战极大——尤其是 Apple 对非原生应用的严格管控。
TwinMind 团队选择了一条高成本路径:
- 完全使用 Swift 原生开发(而非 React Native 等跨平台框架);
- 深度优化底层服务,绕过系统休眠机制;
- 花费近七个月时间,在“Apple 的围墙花园中找到多个 hack”。
相比之下,多数竞品依赖云端处理,无法长期驻留后台。而 TwinMind 实现了真正的端侧实时转录,无需持续联网。

新一代语音模型:TwinMind Ear-3
除了应用本身,团队还发布了全新语音识别模型 Ear-3,作为其核心技术输出:
| 参数 | 指标 |
|---|---|
| 支持语言 | 超过 140 种 |
| 词错误率(WER) | 5.26% |
| 说话者分割错误率 | 3.8% |
| 训练数据 | 微调多个开源模型,基于播客、电影、视频等人类标注数据 |
值得一提的是,团队发现:
“支持的语言越多,模型对口音和方言的理解反而越好。”
这是因为多语言训练让模型接触更广泛的发音模式,提升了鲁棒性。
不过,由于模型体积较大,Ear-3 运行在云端,成本约 $0.23/小时。为保障连续性,当网络中断时,应用会自动切换回轻量级的 Ear-2(纯离线模型),恢复连接后再切回 Ear-3。
未来几周内,该模型将通过 API 向开发者和企业开放。
隐私设计:不存音频、不传云端、不用于训练
面对“全天监听”的敏感功能,TwinMind 在隐私保护上做了三项关键设计:
- 音频不存储:原始录音在转录完成后立即删除,仅保留文本;
- 数据本地化:所有处理默认在设备上完成,无需上传服务器;
- 绝不用于训练:用户数据不会被用来改进任何 AI 模型。
这与许多同类产品形成鲜明对比——后者常将录音上传至云进行分析,并可能用于模型迭代。
此外,TwinMind 不允许用户回放原始音频,进一步降低滥用风险。你只能看到结构化的笔记与摘要。
用户现状与商业模式
目前 TwinMind 已拥有 超过 30,000 名用户,其中约 15,000 为月活用户。主要分布于:
- 美国(最大市场)
- 印度、巴西、菲律宾、非洲多国及欧洲
用户构成:
- 50%–60% 为专业人士(工程师、产品经理、顾问等)
- 约 25% 为学生
- 其余用于个人用途,例如有人用它撰写自传
定价策略
- 免费版:包含无限小时转录、设备上识别、基础 AI 总结等功能;
- Pro 版:$15/月,提供高达 200 万 token 的上下文窗口、优先支持等高级能力。
API 单独计费,面向企业和开发者开放。
背后的团队:从 LIGO 到 Google X 的硬核背景
创始团队具备罕见的技术纵深:
- Daniel George:24 岁一年拿下天体物理 AI 博士学位,曾参与 LIGO 引力波探测项目;2017 年加入 Stephen Wolfram 实验室;后任职 Google X 与 JPMorgan。
- Sunny Tang & Mahi Karim:均在 Google X 参与多个早期项目,涵盖机器人、健康传感等领域。
George 表示:“Google X 是创办公司的完美训练场——那里同时有 30–40 个类初创项目在运行,相当于几年内体验数十次创业过程。”
而 Wolfram 不仅是 George 的前雇主,也成为 TwinMind 的首位外部投资人,“这是我人生第一次投资一家初创公司。”
挑战与未来方向
尽管前景广阔,TwinMind 仍面临挑战:
- 信任门槛高:说服用户接受“永久监听”需要极强的透明度与品牌背书;
- 电池与性能平衡:即使优化再好,长时录音仍影响续航;
- 法律合规差异:各国对录音的“单方同意”规定不一,需谨慎适配。
未来计划包括:
- 组建 UX 设计团队,提升交互体验;
- 建立业务开发团队,推动 API 商业化;
- 投入部分资金用于用户增长。














