博客 | 第6页 | SD百科导航

STARFlow-V：苹果推出标准化流视频生成模型，挑战扩散模型主流地位

苹果最新发布的 STARFlow-V 为视频生成领域带来了全新技术路径——作为一款基于标准化流（Normalizing Flows）的端到端模型，它打破了当前扩散模型主导的格局，凭借全局-局部架构、因...

2周前

0430

阶跃星辰开源Step-Audio-R1：首个支持测试时计算扩展的音频大语言模型，“越想越准”比肩Gemini 3

阶跃星辰开源的 Step-Audio-R1 打破了传统音频模型的性能瓶颈，成为首个支持“测试时计算扩展”的音频大语言模型。它通过创新的模态落地推理蒸馏技术，让模型直接基于声学特征进行链式思考，而非依赖...

语音模型 # Step-Audio-R1 # 阶跃星辰

2周前

0300

Mistral AI正式发布Mistral 3系列模型：开源多模态模型家族，覆盖从边缘到企业级场景

Mistral AI 正式推出新一代模型系列 Mistral 3，此次发布不仅包含适配边缘场景的 Ministral 3 系列小型密集模型，更带来了性能顶尖的稀疏专家混合模型 Mistral Larg...

多模态模型 # Mistral 3 # Mistral AI # Mistral Large 3

2周前

0290

阿里开源Ovis-Image：7B 参数实现高质量文本渲染的文生图模型，海报 / UI 设计秒生成

Ovis-Image 是由阿里巴巴国际数字商务团队开发的 70亿参数文本到图像（Text-to-Image）生成模型，专注于解决文生图系统中长期存在的文本模糊、拼写错误、排版失真等痛点。该模型在保持...

图像模型 # Ovis-Image # 文生图模型

2周前

01860

阿里开源Marco-Voice：说话人-情感独立调控，语音克隆相似度0.8275碾压同类

阿里巴巴国际数字商务团队推出的开源语音合成框架 Marco-Voice，以“说话人-情感解耦”为核心创新，整合语音克隆、情感可控合成、跨语言生成三大功能，构建了统一且高效的文本转语音系统。该框架通过批...

语音模型 # Marco-Voice # TTS

2周前

0150

越来越多的硅谷公司正在基于免费的中国AI模型进行构建

AI初创企业的估值屡创新高，但许多企业是建立在廉价、可免费下载的中国AI模型基础之上的。今年早些时候，在审视美国AI领域的状况时，Misha Laskin 感到担忧。 Laskin 是一位理论物理学...

科普 # AI模型 # 中国 # 硅谷

2周前

080

DeepSeek V3.2正式发布：推理能力追平GPT-5，首个思考+工具调用开源模型

经过两个多月测试，DeepSeek 正式推出 V3.2 系列模型，包括平衡型主力版本 DeepSeek V3.2 与极致推理增强版 DeepSeek V3.2 Speciale。前者以“推理能力不逊 ...

大语言模型早报 # DeepSeek V3.2

2周前

0490

可灵 AI 发布 O1 视频模型：统一架构支持多模态视频生成

可灵 AI正式推出 O1 视频模型，并同步上线新版创作界面。该模型采用统一的生成式架构，旨在解决当前 AI 视频工具中常见的“功能割裂”问题——即文生视频、图生视频、编辑、补全等任务需依赖多个独立模型...

早报 # O1 视频模型 # 可灵 AI

2周前

0220

Vidu Q2 上线：聚焦图像生成一致性与编辑实用性，开启限免一个月活动

近日，国产 AI 视频生成平台 Vidu 推出 Q2 版本，重点强化了参考生图的一致性与图像编辑的实用性。作为成立仅两年多的初创团队，Vidu 在最新Artificial Analysis榜单中，其图...

早报 # Vidu Q2

2周前

0380

OpenAI 测试版代码现广告痕迹，ChatGPT 免费用户或见广告

尽管 ChatGPT 拥有约 8亿周活跃用户，其中 95% 使用免费版本，OpenAI 始终未在其聊天界面中植入广告。但最新证据显示，这一策略可能即将改变。开发者蒂博尔·布拉霍（Tibor Blah...

早报 # OpenAI # 广告

2周前

0100

180亿债券+560亿贷款！甲骨文AI扩张引华尔街担忧，信用风险升至三年新高

甲骨文正因大举投入人工智能基础设施而面临日益严峻的信用压力。一项关键风险指标——五年期信用违约互换（CDS）成本——已攀升至125个基点，创下2022年以来新高。这意味着投资者为对冲每100万美元甲骨...

早报 # 华尔街 # 摩根士丹利 # 甲骨文

2周前

0130

Runway推出全新视频生成模型Gen-4.5：1247 Elo分刷新视频生成纪录，物理级运动保真+复杂指令精准执行

Runway 推出的全新视频生成模型 Gen-4.5（曾用代号 Whisper Thunder/David），凭借在预训练数据效率、后训练技术上的重大突破，以 1247 Elo 分登顶 Artific...

早报 # Gen-4.5 # Runway

2周前

0480

加载更多