不影响性能!Perplexity 开源基于DeepSeek-R1推出的无审查版本R1 1776 R1 1776是Perplexity基于DeepSeek-R1推出的无审查版本,该模型号称提供公正、准确和真实的信息,同时保持高推理能力。目前,用户可以在 HuggingFace 上下载该模型,或者通... 大语言模型# DeepSeek-R1# Perplexity# R1 1776 21小时前020
SliderSpace:自动分解文生图模型的视觉能力,将其转化为简单的滑块控件,使用户能够更直观地控制生成结果 扩散模型(Diffusion Models)在生成高质量图像方面表现出色,但其生成过程的黑箱性质限制了用户的控制能力。为了增强扩散模型的可控性和可解释性,来自美国东北大学和 Adobe Researc... 图像模型# Adobe Research# SliderSpace# 东北大学 1天前030
谷歌发布多语言视觉语言编码器SigLIP 2 今天,谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进,进一步提升了视觉语言模型的性能。 官方说明:https:/... 多模态模型# PaliGemma 2# SigLIP 2# 视觉编码器 1天前030
西北工业大学开源语音理解模型OSUM 近年来,大语言模型(LLMs)在自然语言处理领域取得了显著进展,这启发了业界对语音理解语言模型(Speech Understanding Language Models, SULMs)的开发。SULM... 语音模型# OSUM# 西北工业大学# 语音理解模型 2天前050
阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL 阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL,对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I... 多模态模型# Qwen2.5-VL# 视觉语言模型 2天前0820
谷歌推出PaliGemma 2 Mix:在混合视觉语言任务上进行微调的视觉语言模型版本,涵盖 OCR、长短字幕等多种任务 去年 12 月5日,谷歌发布了 PaliGemma 2,这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型(VLM)系列。这些模型提供了三种不同的尺寸(3B、10B、28B)和三... 多模态模型# PaliGemma 2 Mix# 视觉语言模型# 谷歌 3天前090
昆仑万维开源首个面向 AI 短剧创作的视频生成模型 SkyReels-V1和表情动作可控算法 SkyReels-A1 昆仑万维近日开源了国内首个面向 AI 短剧创作的视频生成模型 SkyReels-V1,以及国内首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1,这款模型已在昆仑万维海外A... 视频模型# SkyReels-A1# SkyReels-V1# 昆仑万维 4天前090
让大语言模型“看懂”图形界面!微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体 微软的 OmniParser 发布了 V2 更新,这一版本的核心目标是将任何大语言模型(LLM)转化为能够理解和交互图形用户界面(GUI)的智能体。相比前一代,OmniParser V2 在检测更小可... 多模态模型# OmniParser V2.0# 微软# 智能体 4天前090
基于DiT模型的多领域程序化序列生成框架MakeAnything:根据文本描述或图像生成分步骤的教程 新加坡国立大学的研究团队推出 MakeAnything,这是一个基于DiT模型的多领域程序化序列生成框架,能够根据文本描述或图像生成分步骤的教程,也就是生成一致性图片序列。 GitHub:https:... 图像模型# DiT模型# MakeAnything 5天前0110
阶跃星辰开源面向智能语音交互的框架Step-Audio:1300 亿参数的统一语音-文本多模态模型,能够实现语音理解与生成的统一 阶跃星辰团队开源了面向智能语音交互的框架 Step-Audio,旨在解决当前开源语音模型在数据收集成本高、动态控制能力弱和智能水平有限等问题。Step-Audio 提出了一个 1300 亿参数的统一语... 语音模型# Step-Audio# 语音-文本多模态模型# 语音交互 5天前0810
阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V:能够生成长达 204 帧的高质量视频 由前微软全球副总裁、微软亚洲互联网工程院首席科学家姜大昕创办的AI公司阶跃星辰,开源了一款强大的文生视频模型——Step-Video-T2V。该模型拥有 300 亿参数,能够生成长达 204 帧的高质... 视频模型# Step-Video-T2V# Step-Video-T2V-Turbo# 文生视频模型 5天前0190
新型视频生成技术Magic 1-For-1:通过优化内存消耗和推理延迟,快速生成高质量的视频内容 北京大学、Hedra和英伟达的研究人员推出新型视频生成技术Magic 1-For-1 ,通过将复杂的文本到视频(T2V)生成任务分解为两个更简单的子任务:文本到图像(T2I)生成和图像到视频( I2V... 视频模型# Magic 1-For-1# 视频生成 1周前0170