基于扩散模型的创新技术TrajectoryCrafter :重新定义单目视频中的相机轨迹,能够从单目视频中推断并生成全新的视角腾讯和香港中文大学的研究人员推出一项基于扩散模型(diffusion models)的创新技术TrajectoryCrafter ,重新定义单目视频中的相机轨迹,能够从单目视频中推断并生成全新的视角...视频模型# TrajectoryCrafter# 相机轨迹10个月前02780
全新CLIP架构改进方案 CLIP-fine-tune-registers-gatedCLIP(对比语言-图像预训练)是 OpenAI 开发的一种多模态模型,通过对比学习在大量图像-文本对上训练,将图像和文本嵌入到同一个共享空间中,便于零样本任务。然而,CLIP 在处理全局信息时存在一...图像模型# CLIP# CLIP-fine-tune-registers-gated10个月前02740
AI21开源大语言模型Jamba 1.6系列,适合企业私有部署AI21 正式发布开源模型Jamba 1.6 系列,专为企业私有部署设计,兼具卓越性能和数据安全性。 模型地址:https://huggingface.co/collections/ai21labs...大语言模型# AI21# Jamba 1.6# 大语言模型10个月前04270
老显卡福音!美团技术团队开源INT8无损满血版DeepSeek R1美团技术团队于3月6日宣布对 DeepSeek R1 模型进行了 INT8 精度量化,使其能够在如 A100 等老型号 GPU 上进行部署。这一技术突破为 DeepSeek R1 的广泛应用提供了更多...大语言模型# DeepSeek-R1# 美团10个月前03660
AMD 推出完全开源的 3B 参数语言模型Instella-3B,媲美 Llama-3.2-3B 和 Qwen2.5-3B在AI领域,开源模型的发展一直是推动技术进步和创新的重要力量。AMD宣布推出 Instella,这是一系列完全开源的语言模型,基于 AMD Instinct™ MI300X GPU 从头训练,参数量达...大语言模型# AMD# Instella-3B# Llama-3.2-3B11个月前02180
阿里达摩院开源多语言大语言模型Babel:解决现有开源多语言模型在语言覆盖上的不足阿里达摩院推出开源多语言大语言模型Babel,旨在解决现有开源多语言模型在语言覆盖上的不足。Babel 支持全球前 25 种使用人数最多的语言,覆盖超过 90% 的全球人口,并特别关注那些被现有模型忽...大语言模型# Babel# 多语言大语言模型# 阿里达摩院11个月前02290
腾讯开源混元图生视频模型HunyuanVideo-I2V在腾讯开源其混元视频模型HunyuanVideo之后,经过三个月的等待,腾讯终于推出了专注于图像到视频生成任务的混元图生视频模型HunyuanVideo-I2V。 GitHub:https://git...视频模型# HunyuanVideo-I2V# 混元图生视频模型# 腾讯11个月前03350
阿里Qwen团队推出强化学习增强的推理模型QwQ-32B阿里云的Qwen团队最近宣布了一项重要进展,他们通过整合大规模强化学习(RL)技术来提升大语言模型的智能水平,并推出了新的推理模型QwQ-32B。这款拥有320亿参数的模型,在性能上能够与具有6710...大语言模型# Qwen# QwQ-32B# 强化学习11个月前03190
谷歌开源野生动物识别 AI 模型 SpeciesNet谷歌本周宣布开源野生动物识别 AI 模型 SpeciesNet,帮助动物学家更高效地处理和分析大量野生动物监测影像。这一工具能够显著加快生物多样性监测和保育研究的进程。 SpeciesNet:AI 助...图像模型# SpeciesNet# 谷歌# 野生动物11个月前03980
LTX-Video推出0.9.5版本:原生 ComfyUI 支持,关键帧与视频扩展增强可控性时隔近3个月,LTX-Video再次引来更新,随着2025年3月5日发布的v0.9.5版本,LTX-Video带来了多项改进和新特性,进一步增强了用户体验。通过质量提升、功能增强和用户体验改进,LTX...视频模型# LTX# LTX Video# 视频生成11个月前03360
360推出Light-R1-32B:通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B在数学竞赛 AIME24 上,尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分,但一直未能成功。 模型 集成模型 推出日期 ...大语言模型# 360# Light-R1-32B# 推理模型11个月前03800
视频抠像框架MatAnyone:实现高质量、高稳定性的视频抠像南洋理工大学和商汤科技研究院的研究人员推出视频抠像(Video Matting)框架MatAnyone,可以实现高质量、高稳定性的视频抠像,即使在复杂的背景和多目标场景中也能保持出色的性能。MatAn...视频模型# MatAnyone# 视频抠像11个月前04190