模型,SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。不仅提供Stable Diffusion、ComfyUI、Fooocus、Flux等热门工具的详细教程和丰富资源，还为您带来行业最新进展与趋势解读。无论您是初学者还是资深创作者，都能在这里快速找到所需信息，开启AI创作之旅。

不影响性能！Perplexity 开源基于DeepSeek-R1推出的无审查版本R1 1776

R1 1776是Perplexity基于DeepSeek-R1推出的无审查版本，该模型号称提供公正、准确和真实的信息，同时保持高推理能力。目前，用户可以在 HuggingFace 上下载该模型，或者通...

21小时前

020

SliderSpace：自动分解文生图模型的视觉能力，将其转化为简单的滑块控件，使用户能够更直观地控制生成结果

扩散模型（Diffusion Models）在生成高质量图像方面表现出色，但其生成过程的黑箱性质限制了用户的控制能力。为了增强扩散模型的可控性和可解释性，来自美国东北大学和 Adobe Researc...

图像模型 # Adobe Research # SliderSpace # 东北大学

1天前

030

谷歌发布多语言视觉语言编码器SigLIP 2

今天，谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进，进一步提升了视觉语言模型的性能。官方说明：https:/...

多模态模型 # PaliGemma 2 # SigLIP 2 # 视觉编码器

1天前

030

西北工业大学开源语音理解模型OSUM

近年来，大语言模型（LLMs）在自然语言处理领域取得了显著进展，这启发了业界对语音理解语言模型（Speech Understanding Language Models, SULMs）的开发。SULM...

语音模型 # OSUM # 西北工业大学 # 语音理解模型

2天前

050

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL，对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I...

多模态模型 # Qwen2.5-VL # 视觉语言模型

2天前

0820

谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

去年 12 月5日，谷歌发布了 PaliGemma 2，这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型（VLM）系列。这些模型提供了三种不同的尺寸（3B、10B、28B）和三...

多模态模型 # PaliGemma 2 Mix # 视觉语言模型 # 谷歌

3天前

090

昆仑万维开源首个面向 AI 短剧创作的视频生成模型 SkyReels-V1和表情动作可控算法 SkyReels-A1

昆仑万维近日开源了国内首个面向 AI 短剧创作的视频生成模型 SkyReels-V1，以及国内首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1，这款模型已在昆仑万维海外A...

视频模型 # SkyReels-A1 # SkyReels-V1 # 昆仑万维

4天前

090

让大语言模型“看懂”图形界面！微软推出 OmniParser V2.0：将大语言模型转化为 GUI 交互智能体

微软的 OmniParser 发布了 V2 更新，这一版本的核心目标是将任何大语言模型（LLM）转化为能够理解和交互图形用户界面（GUI）的智能体。相比前一代，OmniParser V2 在检测更小可...

多模态模型 # OmniParser V2.0 # 微软 # 智能体

4天前

090

基于DiT模型的多领域程序化序列生成框架MakeAnything：根据文本描述或图像生成分步骤的教程

新加坡国立大学的研究团队推出 MakeAnything，这是一个基于DiT模型的多领域程序化序列生成框架，能够根据文本描述或图像生成分步骤的教程，也就是生成一致性图片序列。 GitHub：https:...

图像模型 # DiT模型 # MakeAnything

5天前

0110

阶跃星辰开源面向智能语音交互的框架Step-Audio：1300 亿参数的统一语音-文本多模态模型，能够实现语音理解与生成的统一

阶跃星辰团队开源了面向智能语音交互的框架 Step-Audio，旨在解决当前开源语音模型在数据收集成本高、动态控制能力弱和智能水平有限等问题。Step-Audio 提出了一个 1300 亿参数的统一语...

语音模型 # Step-Audio # 语音-文本多模态模型 # 语音交互

5天前

0810

阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V：能够生成长达 204 帧的高质量视频

由前微软全球副总裁、微软亚洲互联网工程院首席科学家姜大昕创办的AI公司阶跃星辰，开源了一款强大的文生视频模型——Step-Video-T2V。该模型拥有 300 亿参数，能够生成长达 204 帧的高质...

视频模型 # Step-Video-T2V # Step-Video-T2V-Turbo # 文生视频模型

5天前

0190

新型视频生成技术Magic 1-For-1：通过优化内存消耗和推理延迟，快速生成高质量的视频内容

北京大学、Hedra和英伟达的研究人员推出新型视频生成技术Magic 1-For-1 ，通过将复杂的文本到视频（T2V）生成任务分解为两个更简单的子任务：文本到图像（T2I）生成和图像到视频（ I2V...

视频模型 # Magic 1-For-1 # 视频生成

1周前

0170