OpenAI 推出基准测试SWE-Lancer:评估 AI 模型在真实软件工程任务中的表现OpenAI 最近推出了 SWE-Lancer,这是一个基于真实世界软件工程任务的基准测试平台。SWE-Lancer 包含超过 1400 个来自 Upwork 的自由软件工程任务,这些任务的总报酬价值...新技术# OpenAI# SWE-Lancer# 基准测试11个月前02970
埃隆·马斯克员工开发 DOGE AI 助手,目标提升美国政府效率据 TechCrunch 报道,埃隆·马斯克的一名高级员工创建了一个名为 DOGE 的 AI 聊天机器人,旨在帮助美国政府效率部门(Government Efficiency Department,简...新技术# DOGE AI# 埃隆·马斯克11个月前02440
无需训练的视频重新打光方法Light-A-Video:对任意给定的视频序列或前景序列进行平滑且高质量的光照控制上海交通大学、中国科学技术大学、香港中文大学、香港科技大学、斯坦福大学和上海人工智能实验室的研究人员推出Light-A-Video,这是一个无需训练(training-free)的视频重新打光(vid...新技术# Light-A-Video# 重新打光10个月前02720
清华大学开源项目KTransformers突破大模型算力瓶颈:RTX 4090 单卡实现满血版DeepSeek-R1运行在 AI 大模型领域,运行像 DeepSeek-R1 这样的千亿级参数模型一直是个难题。普通用户要么依赖云服务,要么只能运行大幅缩水的本地版本,而租赁服务器的成本也让开发者望而却步。但现在,这一局面正...新技术# DeepSeek-R1# KTransformers11个月前02380
强化学习新范式OREAL:基于结果奖励的强化学习(RL)提升大语言模型在数学推理任务中的表现上海AI实验室、上海交通大学、香港中文大学和InnoHK的研究人员提出基于结果奖励的强化学习新范式OREAL,通过基于结果奖励的强化学习(RL)提升大语言模型(LLMs)在数学推理任务中的表现。该框架...新技术# OREAL# 大语言模型# 强化学习11个月前03980
新型图生视频模型VidCRAFT3:能够同时控制相机运动、物体运动和光照方向复旦大学、浙江大学、华为诺亚方舟实验室、西湖大学的研究人员推出新型高质量图像到视频生成模型VidCRAFT3 ,能够同时控制相机运动、物体运动和光照方向。它通过解耦这些视觉元素的控制,实现了对生成视频...新技术# VidCRAFT3# 视频生成11个月前03820
阿里通义实验室推出高保真角色图像动画生成框架Animate Anyone 2阿里通义实验室推出高保真角色图像动画生成框架Animate Anyone 2,它不仅利用运动信号来驱动角色动画,还从驱动视频中提取环境表示,使角色动画能够与环境自然地融合。前代技术Animate An...新技术# Animate Anyone 2# 通义实验室11个月前02480
Go-with-the-Flow:通过实时扭曲噪声实现对视频生成的运动控制Netflix Eyeline Studios、Netflix、石溪大学、马里兰大学和斯坦福大学的研究人员推出一种简单高效的控制视频扩散模型运动模式的方法Go-with-the-Flow ,通过实时扭...新技术# Go-with-the-Flow12个月前02910
字节跳动推出新型单目深度估计方法Video Depth Anything:专门用于超长视频(数分钟)的高质量、一致的深度估计字节跳动推出新型单目深度估计方法Video Depth Anything,专门用于超长视频(数分钟)的高质量、一致的深度估计。该方法基于 Depth Anything V2,通过引入高效的空间-时间头...新技术# Video Depth Anything# 字节跳动12个月前02610
阿里推出新型音频驱动的虚拟角色视频生成方法EMO2:同时生成富有表现力的面部表情和手势动作阿里在去年2月推出新型音频驱动的虚拟角色视频生成方法EMO,近期又发布了 EMO2,它能够同时生成富有表现力的面部表情和手势动作。该方法特别关注于语音伴随手势(co-speech gestures)的...新技术# EMO212个月前05780
GameFactory框架:通过生成式交互视频来创建全新的游戏香港大学和快手科技的研究人员推出GameFactory框架,旨在通过生成式交互视频来创建全新的游戏。该框架利用预训练的视频扩散模型(video diffusion models),结合少量的第一人称游...新技术# GameFactory# 快手12个月前02890
新型多概念个性化方法TokenVerse:通过预训练的DiT架构文生图模型实现从单张或多张图像中提取复杂视觉概念,并支持无缝组合这些概念以生成新的图像谷歌 DeepMind、特拉维夫大学、以色列理工学院和魏茨曼研究所的研究人员推出新型多概念个性化方法TokenVerse,旨在通过预训练的DiT架构文生图模型实现从单张或多张图像中提取复杂视觉概念,并...新技术# TokenVerse12个月前02500