谷歌推出全新AI与无障碍功能，助力Android和Chrome用户体验升级

早报11个月前发布小马良

213 0

谷歌于今天宣布了一系列针对 Android 和 Chrome 的新功能更新，通过AI技术提升无障碍体验。这些功能不仅为视障、听障用户提供了更强大的支持，还优化了日常使用场景中的便利性。以下是此次更新的亮点内容及详细解读。

1. TalkBack 与 Gemini 集成：让屏幕阅读更智能

谷歌进一步深化了其 AI 技术在无障碍领域的应用，将 Gemini 的强大功能整合到 Android 的屏幕阅读器 TalkBack 中。这一更新为盲人或视力低下者带来了全新的交互方式：

图像内容问答：用户现在可以对图像提问并获取详细回答。例如，当朋友发送一张吉他的照片时，你不仅可以获取描述，还可以询问品牌、颜色等具体信息。
屏幕内容问答：除了图像，用户还能获取整个手机屏幕的描述，并提出问题。比如，在购物应用中浏览商品时，你可以直接询问材质、折扣等信息。

这一功能极大地扩展了 TalkBack 的实用性，使用户能够更全面地了解屏幕上的内容，而无需依赖他人。

2. Expressive Captions：捕捉情感与细节

谷歌还对实时字幕功能 Expressive Captions 进行了升级，使其不仅能捕捉“说了什么”，还能理解“如何表达”。新功能包括：

时长功能：能够区分拉长词语的声音，例如体育解说员喊出“太棒的射门”或视频中发出“nooooo”的情感表达，而不是简单的“no”。
声音标签：新增更多声音标签，例如吹口哨、清嗓子等，帮助用户更好地理解语音背后的情感和语境。

该更新将在 美国、英国、加拿大和澳大利亚 的 Android 15 及以上设备 上以英语推出。

3. Chrome 的无障碍改进：PDF 和页面缩放功能

谷歌也在桌面版和移动端的 Chrome 浏览器 上推出了两项重要更新，进一步提升了无障碍体验：

3.1 扫描 PDF 的 OCR 支持

此前，屏幕阅读器无法与扫描的 PDF 文件交互，这为许多用户带来了不便。现在，Chrome 引入了 光学字符识别（OCR）技术，能够自动识别扫描的 PDF 文件内容，允许用户：

高亮、复制和搜索文本。
像处理普通网页一样使用屏幕阅读器读取内容。

3.2 页面缩放功能

在 Android 版 Chrome 上，用户现在可以通过 页面缩放 功能放大文本大小，而不影响网页布局或浏览体验。你可以：

自定义缩放程度。
将设置应用于所有页面或仅特定页面。

要启用此功能，只需点击 Chrome 右上角的三点菜单，选择缩放偏好即可。

4. 开发者资源与全球语音识别支持

谷歌致力于推动无障碍技术的普及，并为开发者提供了新的工具和资源：

4.1 Project Euphonia 开源存储库

为了改善非标准语音用户的语音识别体验，谷歌通过 Project Euphonia 的 GitHub 页面发布了开源存储库。开发者可以：

构建个性化音频工具用于研究。
训练模型以适应多样化的语音模式。

4.2 支持非洲语言项目

谷歌与 Google.org 合作，支持伦敦大学学院创建 数字语言包容中心（CDLI）。该项目的目标是：

创建 10 种非洲语言的开源数据集。
构建新的语音识别模型。
支持相关组织和开发者生态系统，改善非英语使用者的技术体验。

5. 学生无障碍选项扩展

谷歌还为残疾学生提供了更多无障碍选项，例如：

Face Control：通过面部手势导航 Chromebook。
Reading Mode：定制阅读体验。

此外，在 College Board 的 Bluebook 测试应用（用于 SAT 和 AP 考试）中，Chromebook 用户现在可以访问谷歌的所有内置无障碍功能，包括：

ChromeVox 屏幕阅读器。
Dictation 语音输入工具。

文章版权归作者所有，未经允许请勿转载。

ChatGPT 应用商店提交流程曝光：五步审核、人工复核，上线在即

早报 # ChatGPT # OpenAI

4个月前

0230

亚马逊推出视频生成模型Nova Reel 1.1：生成长达 2 分钟的视频内容

早报 # Nova Reel # 亚马逊 # 视频生成模型

12个月前

02300

微软在美国推出 Copilot Health：您的专属 AI 健康管家，但绝非医生

早报 # Copilot Health # 微软

3周前

0140

AI 编程初创公司Codeium 新一轮融资估值接近 30 亿美元，AI编程领域竞争加剧

早报 # AI编程 # Codeium # Windsurf Editor

1年前

02740

暂无评论

暂无评论...

谷歌推出全新AI与无障碍功能，助力Android和Chrome用户体验升级

1. TalkBack 与 Gemini 集成：让屏幕阅读更智能

2. Expressive Captions：捕捉情感与细节

3. Chrome 的无障碍改进：PDF 和页面缩放功能

3.1 扫描 PDF 的 OCR 支持

3.2 页面缩放功能

4. 开发者资源与全球语音识别支持

4.1 Project Euphonia 开源存储库

4.2 支持非洲语言项目

5. 学生无障碍选项扩展

微软在 Windows 11 测试“Hey, Copilot!”语音唤醒功能

Grok 即将推出“任务（Tasks）”功能，支持自动化定期执行

相关文章

ChatGPT 应用商店提交流程曝光：五步审核、人工复核，上线在即

亚马逊推出视频生成模型Nova Reel 1.1：生成长达 2 分钟的视频内容

微软在美国推出 Copilot Health：您的专属 AI 健康管家，但绝非医生

AI 编程初创公司Codeium 新一轮融资估值接近 30 亿美元，AI编程领域竞争加剧

暂无评论

文章

智谱突袭发布GLM-5.1：编码能力暴涨 30%，直逼 Claude Opus，手把手教你接入 Claude Code 与 OpenClaw

新阿里通义千问发布 Qwen3.5-Omni：全模态原生大模型，215 项 SOTA 碾压 Gemini 3.1 Pro

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

新Kimi 会员计费大升级：告别“按次计数”，迎来“统一额度”时代

LMArena 最新排名出炉！阿里千问杀入全球前五，Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

PaCo-RL：西安交大首创“一致性裁判”强化学习框架，让AI生成四张图也能保持角色与风格完美统

OpenMAIC

ITELLOU

S.H.I.T

Tripo

CoPaw

Accio Work

谷歌推出全新AI与无障碍功能，助力Android和Chrome用户体验升级

1. TalkBack 与 Gemini 集成：让屏幕阅读更智能

2. Expressive Captions：捕捉情感与细节

3. Chrome 的无障碍改进：PDF 和页面缩放功能

3.1 扫描 PDF 的 OCR 支持

3.2 页面缩放功能

4. 开发者资源与全球语音识别支持

4.1 Project Euphonia 开源存储库

4.2 支持非洲语言项目

5. 学生无障碍选项扩展

微软在 Windows 11 测试“Hey, Copilot!”语音唤醒功能

Grok 即将推出“任务（Tasks）”功能，支持自动化定期执行

相关文章

文章

标签云

网址

OpenMAIC

ITELLOU

S.H.I.T

Tripo

CoPaw

Accio Work