Genspark 推出 Photo Genius:支持语音控制的 AI 照片编辑功能上线

早报3个月前发布 小马良
91 0

Genspark 正式推出 Photo Genius——一项基于语音指令的 AI 照片编辑功能,现已在 iOS 与 Android 应用中上线。用户可通过自然语言描述需求,快速完成多种图像调整任务,降低专业级照片编辑的使用门槛。

该功能面向日常摄影场景设计,适用于自拍美化、社交内容准备、旧照修复等多种用途,目标是让图像编辑更直观、高效。

核心功能:用说话的方式编辑照片

Photo Genius 的核心在于将语音交互与多模态 AI 技术结合,用户无需手动操作复杂工具,只需说出意图即可获得修改建议或直接生成结果。

主要支持的能力包括:

  • 面部修饰:通过语音指令实现肤色调整、祛痘去皱、补妆等效果,例如:“让我的皮肤看起来更光滑”、“加一点腮红”。
  • 发型与穿搭变换:尝试不同发型、季节服饰或姿态,“换个短发”、“给我换上冬天的衣服”。
  • 背景替换:更改照片背景至指定场景,如公园、咖啡馆或地标建筑,“把我放到埃菲尔铁塔前”。
  • 表情与姿态修复:自动识别闭眼、模糊或姿势不佳的照片,并提供修复建议。
  • 多人照片优化:移除不需要的人物元素,或将自己合成进他人拍摄的照片中。
  • 社交平台适配:一键优化图片尺寸、色调与构图,适配 Instagram、TikTok 等主流平台要求。

所有操作均可通过对话式语音输入完成,系统支持连续表达多个指令,例如:“化个淡妆,换个卷发,然后把我移到海边。”

技术实现:融合语音理解与图像生成

Photo Genius 在后台整合了多个前沿模型,以实现端到端的语音到图像响应流程:

  • 语音交互层:采用 OpenAI Realtime 技术处理实时语音输入,准确解析用户语义意图;
  • 图像编辑引擎:基于 Google Nano-Banana 模型(注:此处名称疑似虚构,请核实)执行高保真图像生成与编辑任务,确保细节自然、边界融合合理;
  • 上下文管理模块:维护对话状态,支持多轮修改与条件叠加,避免每次重新描述。

整个流程在设备端与云端协同完成,在保证响应速度的同时兼顾隐私安全。敏感数据可在本地处理,不强制上传原始照片。

使用体验:从“操作工具”到“表达想法”

传统照片编辑依赖层层菜单与手动调节,对非专业用户存在学习成本。而 Photo Genius 的设计理念是:

编辑不是技术活,而是表达。

你不需要知道“亮度+10%”或“高斯模糊半径5px”,只需要说:

  • “这张太暗了,调亮一点”
  • “我想看起来精神点”
  • “把这个路人去掉”

系统会自动判断最优参数并生成预览结果,用户可选择接受或进一步调整。

目前功能主要面向移动端优化,响应时间控制在数秒内,适合快速出图场景。

获取方式

Photo Genius 已集成至 Genspark 主应用,无需额外下载:

更新至最新版本后,在照片编辑界面即可启用语音输入功能。

© 版权声明

相关文章

暂无评论

none
暂无评论...