深度求索开源第三弹DeepGEMM:专为高效 FP8 矩阵乘法设计的库在开源周的第三天,DeepSeek 推出了一个名为 DeepGEMM 的新库,专为高效、简洁的 FP8 通用矩阵乘法(GEMM)而设计。这一工具旨在解决现代 AI 计算中矩阵乘法的效率和精度问题,特别...新技术# DeepGEMM# DeepSeek# 深度求索12个月前02920
深度求索开源第二弹DeepEP:一款专为MoE模型和专家并行(EP)设计的开源通信库在大语言模型领域,专家混合(MoE)架构因其能在不显著增加计算量的情况下提升模型容量而受到青睐。但MoE模型在GPU间通信方面面临挑战,传统的全对全通信方法可能成为瓶颈。为此,深度求索开源第二弹Dee...新技术# DeepEP# DeepSeek# 深度求索12个月前02560
清华大学与瑞莱智慧联合团队推出RealSafe-R1:基于 DeepSeek R1 的安全优化大语言模型随着大语言模型(LLMs)在各个领域的广泛应用,其安全性问题日益受到关注。尽管这些模型在性能上表现出色,但在面对恶意查询和越狱攻击时,仍存在一定的风险。为了应对这一挑战,清华大学与瑞莱智慧联合团队推出...新技术# DeepSeek-R1# RealSafe-R1# 大语言模型1年前05130
DeepSeek开源高效解码内核FlashMLA:从英伟达Hopper GPU中榨取最大性能随着全球对高性能计算需求的不断增长,AI模型训练和推理对硬件资源的需求也在快速攀升。然而,由于美国出口限制等原因,中国市场更多依赖于英伟达的“缩减版”H800 GPU(相较于H100功能有所削减)。这...新技术# DeepSeek# FlashMLA# H8001年前02260
字节跳动推出统一的视频生成框架Phantom :通过跨模态对齐实现主体一致性的视频生成字节跳动的研究人员推出一个统一的视频生成框架Phantom ,通过跨模态对齐实现主体一致性的视频生成(Subject-to-Video, S2V),用于单主体和多主体参考,构建在现有的文本到视频和图像...新技术# Phantom# 字节跳动# 视频生成10个月前02850
OpenAI 推出基准测试SWE-Lancer:评估 AI 模型在真实软件工程任务中的表现OpenAI 最近推出了 SWE-Lancer,这是一个基于真实世界软件工程任务的基准测试平台。SWE-Lancer 包含超过 1400 个来自 Upwork 的自由软件工程任务,这些任务的总报酬价值...新技术# OpenAI# SWE-Lancer# 基准测试1年前03020
埃隆·马斯克员工开发 DOGE AI 助手,目标提升美国政府效率据 TechCrunch 报道,埃隆·马斯克的一名高级员工创建了一个名为 DOGE 的 AI 聊天机器人,旨在帮助美国政府效率部门(Government Efficiency Department,简...新技术# DOGE AI# 埃隆·马斯克1年前02490
无需训练的视频重新打光方法Light-A-Video:对任意给定的视频序列或前景序列进行平滑且高质量的光照控制上海交通大学、中国科学技术大学、香港中文大学、香港科技大学、斯坦福大学和上海人工智能实验室的研究人员推出Light-A-Video,这是一个无需训练(training-free)的视频重新打光(vid...新技术# Light-A-Video# 重新打光12个月前02760
清华大学开源项目KTransformers突破大模型算力瓶颈:RTX 4090 单卡实现满血版DeepSeek-R1运行在 AI 大模型领域,运行像 DeepSeek-R1 这样的千亿级参数模型一直是个难题。普通用户要么依赖云服务,要么只能运行大幅缩水的本地版本,而租赁服务器的成本也让开发者望而却步。但现在,这一局面正...新技术# DeepSeek-R1# KTransformers1年前02440
强化学习新范式OREAL:基于结果奖励的强化学习(RL)提升大语言模型在数学推理任务中的表现上海AI实验室、上海交通大学、香港中文大学和InnoHK的研究人员提出基于结果奖励的强化学习新范式OREAL,通过基于结果奖励的强化学习(RL)提升大语言模型(LLMs)在数学推理任务中的表现。该框架...新技术# OREAL# 大语言模型# 强化学习1年前04120
新型图生视频模型VidCRAFT3:能够同时控制相机运动、物体运动和光照方向复旦大学、浙江大学、华为诺亚方舟实验室、西湖大学的研究人员推出新型高质量图像到视频生成模型VidCRAFT3 ,能够同时控制相机运动、物体运动和光照方向。它通过解耦这些视觉元素的控制,实现了对生成视频...新技术# VidCRAFT3# 视频生成1年前03980
阿里通义实验室推出高保真角色图像动画生成框架Animate Anyone 2阿里通义实验室推出高保真角色图像动画生成框架Animate Anyone 2,它不仅利用运动信号来驱动角色动画,还从驱动视频中提取环境表示,使角色动画能够与环境自然地融合。前代技术Animate An...新技术# Animate Anyone 2# 通义实验室1年前02530