Genspark 正式推出 Photo Genius——一项基于语音指令的 AI 照片编辑功能,现已在 iOS 与 Android 应用中上线。用户可通过自然语言描述需求,快速完成多种图像调整任务,降低专业级照片编辑的使用门槛。
该功能面向日常摄影场景设计,适用于自拍美化、社交内容准备、旧照修复等多种用途,目标是让图像编辑更直观、高效。
核心功能:用说话的方式编辑照片
Photo Genius 的核心在于将语音交互与多模态 AI 技术结合,用户无需手动操作复杂工具,只需说出意图即可获得修改建议或直接生成结果。
主要支持的能力包括:
- 面部修饰:通过语音指令实现肤色调整、祛痘去皱、补妆等效果,例如:“让我的皮肤看起来更光滑”、“加一点腮红”。
- 发型与穿搭变换:尝试不同发型、季节服饰或姿态,“换个短发”、“给我换上冬天的衣服”。
- 背景替换:更改照片背景至指定场景,如公园、咖啡馆或地标建筑,“把我放到埃菲尔铁塔前”。
- 表情与姿态修复:自动识别闭眼、模糊或姿势不佳的照片,并提供修复建议。
- 多人照片优化:移除不需要的人物元素,或将自己合成进他人拍摄的照片中。
- 社交平台适配:一键优化图片尺寸、色调与构图,适配 Instagram、TikTok 等主流平台要求。
所有操作均可通过对话式语音输入完成,系统支持连续表达多个指令,例如:“化个淡妆,换个卷发,然后把我移到海边。”
技术实现:融合语音理解与图像生成
Photo Genius 在后台整合了多个前沿模型,以实现端到端的语音到图像响应流程:
- 语音交互层:采用 OpenAI Realtime 技术处理实时语音输入,准确解析用户语义意图;
- 图像编辑引擎:基于 Google Nano-Banana 模型(注:此处名称疑似虚构,请核实)执行高保真图像生成与编辑任务,确保细节自然、边界融合合理;
- 上下文管理模块:维护对话状态,支持多轮修改与条件叠加,避免每次重新描述。
整个流程在设备端与云端协同完成,在保证响应速度的同时兼顾隐私安全。敏感数据可在本地处理,不强制上传原始照片。
使用体验:从“操作工具”到“表达想法”
传统照片编辑依赖层层菜单与手动调节,对非专业用户存在学习成本。而 Photo Genius 的设计理念是:
编辑不是技术活,而是表达。
你不需要知道“亮度+10%”或“高斯模糊半径5px”,只需要说:
- “这张太暗了,调亮一点”
- “我想看起来精神点”
- “把这个路人去掉”
系统会自动判断最优参数并生成预览结果,用户可选择接受或进一步调整。
目前功能主要面向移动端优化,响应时间控制在数秒内,适合快速出图场景。
获取方式
Photo Genius 已集成至 Genspark 主应用,无需额外下载:
- iOS 用户:点击前往 App Store
- Android 用户:点击前往 Google Play
- 网盘下载:点击前往 提取码:23Hk
更新至最新版本后,在照片编辑界面即可启用语音输入功能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















