Genspark 推出 Photo Genius：支持语音控制的 AI 照片编辑功能上线

早报7个月前发布小马良

97 0

Genspark 正式推出 Photo Genius——一项基于语音指令的 AI 照片编辑功能，现已在 iOS 与 Android 应用中上线。用户可通过自然语言描述需求，快速完成多种图像调整任务，降低专业级照片编辑的使用门槛。

该功能面向日常摄影场景设计，适用于自拍美化、社交内容准备、旧照修复等多种用途，目标是让图像编辑更直观、高效。

核心功能：用说话的方式编辑照片

Photo Genius 的核心在于将语音交互与多模态 AI 技术结合，用户无需手动操作复杂工具，只需说出意图即可获得修改建议或直接生成结果。

主要支持的能力包括：

面部修饰：通过语音指令实现肤色调整、祛痘去皱、补妆等效果，例如：“让我的皮肤看起来更光滑”、“加一点腮红”。
发型与穿搭变换：尝试不同发型、季节服饰或姿态，“换个短发”、“给我换上冬天的衣服”。
背景替换：更改照片背景至指定场景，如公园、咖啡馆或地标建筑，“把我放到埃菲尔铁塔前”。
表情与姿态修复：自动识别闭眼、模糊或姿势不佳的照片，并提供修复建议。
多人照片优化：移除不需要的人物元素，或将自己合成进他人拍摄的照片中。
社交平台适配：一键优化图片尺寸、色调与构图，适配 Instagram、TikTok 等主流平台要求。

所有操作均可通过对话式语音输入完成，系统支持连续表达多个指令，例如：“化个淡妆，换个卷发，然后把我移到海边。”

技术实现：融合语音理解与图像生成

Photo Genius 在后台整合了多个前沿模型，以实现端到端的语音到图像响应流程：

语音交互层：采用 OpenAI Realtime 技术处理实时语音输入，准确解析用户语义意图；
图像编辑引擎：基于 Google Nano-Banana 模型（注：此处名称疑似虚构，请核实）执行高保真图像生成与编辑任务，确保细节自然、边界融合合理；
上下文管理模块：维护对话状态，支持多轮修改与条件叠加，避免每次重新描述。

整个流程在设备端与云端协同完成，在保证响应速度的同时兼顾隐私安全。敏感数据可在本地处理，不强制上传原始照片。

使用体验：从“操作工具”到“表达想法”

传统照片编辑依赖层层菜单与手动调节，对非专业用户存在学习成本。而 Photo Genius 的设计理念是：

编辑不是技术活，而是表达。

你不需要知道“亮度+10%”或“高斯模糊半径5px”，只需要说：

“这张太暗了，调亮一点”
“我想看起来精神点”
“把这个路人去掉”

系统会自动判断最优参数并生成预览结果，用户可选择接受或进一步调整。

目前功能主要面向移动端优化，响应时间控制在数秒内，适合快速出图场景。

获取方式

Photo Genius 已集成至 Genspark 主应用，无需额外下载：

iOS 用户：点击前往 App Store
Android 用户：点击前往 Google Play
网盘下载：点击前往提取码：23Hk

更新至最新版本后，在照片编辑界面即可启用语音输入功能。

早报 # Genspark # Photo Genius # 照片编辑

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

扎克伯格宣布：Meta正在建设5吉瓦级AI数据中心Hyperion

扎克伯格宣布：Meta正在建设5吉瓦级AI数据中心Hyperion

早报 # AI数据中心 # Hyperion # Meta

9个月前

01510

PayPal 用户可免费领取一年 Perplexity Pro 与 Comet 浏览器邀请

PayPal 用户可免费领取一年 Perplexity Pro 与 Comet 浏览器邀请

早报 # Comet # PayPal # Perplexity Pro

7个月前

01960

Anthropic 推出 Claude Code Security：AI 赋能代码审计，传统网安股应声下跌

Anthropic 推出 Claude Code Security：AI 赋能代码审计，传统网安股应声下跌

早报 # Anthropic # Claude Code Security

2个月前

0140

Gmail 新增 AI 收件箱、邮件摘要与校对功能，Gemini 深度整合

Gmail 新增 AI 收件箱、邮件摘要与校对功能，Gemini 深度整合

早报 # Gemini # Gmail # 谷歌

3个月前

0700

暂无评论

none

暂无评论...