E2GAN:用于图像到图像翻译的高效训练和推理的生成对抗网络(GAN)模型Snap和东北大学的研究人员推出E2GAN,这是一种用于图像到图像翻译的高效训练和推理的生成对抗网络(GAN)模型。简单来说,E2GAN的目标是让计算机能够通过学习大量图像数据,快速生成或编辑出符合特...新技术# E2GAN# 生成对抗网络(GAN)模型2年前04970
EvolveDirector 框架:通过使用公开可用的资源来训练一个能够与高级文生图模型相媲美的模型近年来,生成模型在生成高质量图像方面取得了显著进展,但大多数模型依赖于专有的高质量数据集,并且有些模型保留了其参数,只提供可访问的应用程序编程接口(APIs)。这限制了这些模型在下游任务中的应用。为了...新技术# EvolveDirector# 文生图模型1年前04960
3D网格模型生成框架AToM来自Snap、沙特阿卜杜拉国王科技大学、多伦多大学的研究人员推出一款3D模型生成框架AToM(Amortized Text-to-Mesh),AToM的核心特点是能够同时优化多个文本提示(prompt...新技术# 3D网格模型# AToM2年前04960
Manus 可能并非中国的第二个“DeepSeek 时刻”科技媒体 TechCrunch报道:上周,一个名为Manus的“代理式”AI平台以预览形式发布,引发了巨大的关注和炒作。Hugging Face的产品负责人称Manus为“我尝试过的最令人印象深刻的A...早报# DeepSeek# Manus1年前04950
一位参与 GPT-4.5 研发的加拿大籍OpenAI 研究员绿卡申请被拒近日,一位参与 GPT-4.5 研发的 OpenAI 研究员 Kai Chen 的绿卡申请被拒,引发了科技界和移民政策领域的广泛关注。这一事件不仅揭示了当前美国移民政策对外籍高技能人才的限制,也再次引...早报# GPT-4.5# OpenAI# 绿卡12个月前04920
用于视觉配音的先进框架PersonaTalk:实现高保真和个性化的视觉配音在音频驱动的视觉配音中,合成准确的口型同步同时保持和突出说话者的“个性”是一个巨大的挑战。现有方法往往未能捕捉到说话者的独特说话风格或保留面部细节。为了解决这一问题,字节跳动提出了 PersonaTa...新技术# PersonaTalk# 视觉配音1年前04920
新型框架FreeTraj:在视频扩散模型中实现无需调整参数的轨迹控制南洋理工大学、 香港科技大学和腾讯人工智能实验室的研究人员推出新型框架FreeTraj,它用于在视频扩散模型中实现无需调整参数的轨迹控制。简而言之,FreeTraj允许用户在生成视频时精确控制视频中对...新技术# FreeTraj# 轨迹控制2年前04910
谷歌正在测试Gem分享功能,Gemini用户或将很快能共享自定义Gem谷歌正悄然推进其Gemini生态系统的扩展,近期在Gemini网页界面的更新中,开发人员发现了一个令人兴奋的新功能——Gem分享按钮。这一功能的出现表明,谷歌可能很快允许用户将其自定义Gem(类似于O...早报# Gem# Gemini# 谷歌11个月前04900
如何将 Copilot 设置为 Edge 新标签页?超实用教程来了!微软 Edge 浏览器的 Copilot 功能正在不断拓展其应用场景。目前,微软正在试验一项新功能,允许用户将 Copilot 设置为 Edge 的新标签页。这一改变为用户提供了更便捷的交互体验,相比...早报# Copilot# Edge12个月前04900
ElevenLabs发布全球首个AI“狗语”TTS模型Text To Bark,开启跨物种沟通新时代?ElevenLabs于4月1日一本正经的宣布推出全球首个为狗开发的AI文本转语音模型:Text To Bark,号称标志着人类与宠物之间的沟通进入了一个全新的时代。 用户只需输入一条消息,选择狗狗的品...早报# ElevenLabs# Text To Bark# 狗语1年前04900
新型条件图像生成模型BiGR:不仅能创作出高质量的图像,还能理解和识别图像中的内容香港大学、香港科技大学、云天励飞和香港中文大学的研究人员介绍了一种名为BiGR(Binary Generative Representation)的新型条件图像生成模型。BiGR 使用紧凑的二进制潜在...新技术# BiGR# 条件图像生成模型1年前04900
ElevenLabs 发布 Eleven v3(Alpha 版),迄今最具表现力的TTS模型在语音合成技术不断进化的今天,ElevenLabs 正式推出了其最新一代文本转语音模型 —— Eleven v3(Alpha 版)。该版本在情感表达、对话自然度和多语言支持方面实现了重大突破,被誉为目...早报# Eleven v3# ElevenLabs# TTS模型10个月前04890