模型 | 第45页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

新型多模态扩散基础模型MMaDA：通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能

普林斯顿大学、北京大学、清华大学和字节跳动的研究人员推出新型多模态扩散基础模型MMaDA系列，该模型通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能。 ...

多模态模型 # MMaDA # 多模态扩散基础模型

7个月前

04000

过程奖励模型WEB-SHEPHERD ：专门用于评估网络导航任务中的智能代理行为

延世大学和卡内基梅隆大学的研究人员推出一个名为 WEB-SHEPHERD 的过程奖励模型（PRM），专门用于评估网络导航任务中的智能代理行为。网络导航是一个复杂的领域，需要智能代理能够进行长期的序列决...

多模态模型 # WEB-SHEPHERD # 过程奖励模型

7个月前

02120

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

腾讯推出了Hunyuan-TurboS，这是一个新型的大型混合 Transformer-Mamba 专家混合（MoE）模型。它结合了 Mamba 架构在长序列处理上的高效性与 Transformer ...

大语言模型 # Hunyuan-TurboS # 腾讯

7个月前

02600

可控角色动画生成框架RealisDance-DiT：在处理稀有姿态、风格化角色、角色与物体的交互、复杂光照和动态场景等挑战性问题时表现出色

阿里巴巴达摩院、浙江大学、湖畔实验室、南方科技大学和深圳大学的研究人员推出可控角色动画生成框架RealisDance-DiT，其在处理稀有姿态、风格化角色、角色与物体的交互、复杂光照和动态场景等挑战性...

视频模型 # RealisDance-DiT # Wan 2.1 # 动画生成

7个月前

03760

谷歌推了个能装进手机的大模型Gemma 3n，速度快、内存低、还能听会说

谷歌宣布推出其最新开源模型 Gemma 3n 的预览版，这是继 Gemma 3 和 Gemma 3 QAT 后，谷歌在轻量级大模型领域的又一重要进展。 Gemma 3n 专为手机、平板和笔记本电脑等设...

大语言模型 # Gemma 3n # 谷歌

7个月前

02270

Mistral 推出新编码模型 Devstral：开源、轻量、性能超越 GPT-4-mini

法国AI 初创公司 Mistral 宣布推出其最新开源模型 —— Devstral，专为软件工程任务设计。该模型由 Mistral 与 AI 公司 All Hands AI 联合开发，采用 Apach...

大语言模型 # All Hands AI # Devstral # Mistral

7个月前

03800

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

谷歌推出了一项新的实验性研究模型 —— Gemini Diffusion，这是其在文本生成领域的一次重要尝试，探索扩散模型在语言任务中的潜力。不同于传统的自回归模型逐词生成文本的方式，Gemini ...

大语言模型 # Gemini Diffusion # 扩散模型 # 谷歌

7个月前

03520

基于扩散模型的微调协议Marigold：用于各种图像分析任务，例如单目深度估计、表面法线预测和内在图像分解

苏黎世联邦理工学院的研究人员推出一个基于扩散模型（diffusion-based models）的微调协议Marigold，用于各种图像分析任务，例如单目深度估计、表面法线预测和内在图像分解。Mari...

图像模型 # Marigold # 扩散模型

7个月前

03210

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

Meta推出了一款名为 KernelLLM 的大语言模型，该模型基于 Llama 3.1 Instruct，专注于使用 Triton 编写高效GPU内核的任务。KernelLLM的核心目标是通过自动化...

大语言模型 # KernelLLM # Llama 3.1 Instruct # Meta

7个月前

01350

视频人脸超分辨率的新型框架KEEP：解决视频中人脸图像的超分辨率问题，同时保持时间一致性

视频人脸超分辨率（VFSR）的目标是从低分辨率（LR）或严重退化的视频中重建出高分辨率（HR）的人脸图像。尽管人脸图像超分辨率（FSR）领域已经取得了显著进展，但视频人脸超分辨率仍然是一个相对较少被研...

视频模型 # KEEP # 视频人脸超分辨率

7个月前

01830

B站Index团队开源动漫视频生成模型 AniSora：一键生成多种风格的动漫视频片段

哔哩哔哩（B站）Index团队开源了一款名为 AniSora 的动漫视频生成模型。作为目前最强大的开源动漫视频生成工具，AniSora 能够一键生成多种风格的动漫视频片段，包括番剧剧集、国创动画、漫画...

视频模型 # AniSora # B站 # 动漫视频生成模型

7个月前

04280

Falcon-Edge：一系列强大、通用、可微调的1.58位语言模型

Falcon 团队正式发布了 Falcon-Edge 系列模型——一组基于 BitNet 架构设计的三值格式语言模型。这些模型不仅具备高性能，还支持灵活的微调能力，为边缘设备上的高效部署提供了全新可能...

大语言模型 # BitNet # Falcon-Edge

7个月前

02920

加载更多

模型

新型多模态扩散基础模型MMaDA：通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能

过程奖励模型WEB-SHEPHERD ：专门用于评估网络导航任务中的智能代理行为

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

可控角色动画生成框架RealisDance-DiT：在处理稀有姿态、风格化角色、角色与物体的交互、复杂光照和动态场景等挑战性问题时表现出色

谷歌推了个能装进手机的大模型Gemma 3n，速度快、内存低、还能听会说

Mistral 推出新编码模型 Devstral：开源、轻量、性能超越 GPT-4-mini

谷歌新研究模型 Gemini Diffusion：用扩散模型重新定义文本生成

基于扩散模型的微调协议Marigold：用于各种图像分析任务，例如单目深度估计、表面法线预测和内在图像分解

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

视频人脸超分辨率的新型框架KEEP：解决视频中人脸图像的超分辨率问题，同时保持时间一致性

B站Index团队开源动漫视频生成模型 AniSora：一键生成多种风格的动漫视频片段

Falcon-Edge：一系列强大、通用、可微调的1.58位语言模型

人生 K 线

Fogsight (雾象)

秒哒

Higgsfield AI

朱雀大模型检测

A2UI

模型

网址

人生 K 线

Fogsight (雾象)

秒哒

Higgsfield AI

朱雀大模型检测

A2UI