新通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner:支持流式、多语言、高并发的语音识别与对齐工具
Qwen(通义千问)团队正式开源全新一代语音技术方案——Qwen3-ASR系列语音识别模型与Qwen3-ForcedAligner强制对齐模型。该系列包含Qwen3-ASR-1.7B、Qwen3-AS...
新ComfyUI DiffSynth Studio Wrapper:在 ComfyUI 中调用 Z-Image I2L 实现图像到 LoRA 的实时转换
ComfyUI DiffSynth Studio Wrapper 是一个轻量级自定义节点封装器,旨在将 DiffSynth-Studio 的 Z-Image I2L(Image-to-LoRA)功能无...
新Gemini 3 Flash 引入智能体视觉:视觉推理+代码执行,答案基于视觉证据
谷歌正式为 Gemini 3 Flash 推出全新能力——智能体视觉,通过将视觉推理与代码执行深度结合,让AI从“静态一瞥”升级为“主动调查”,彻底改变图像理解方式。这项功能可使多数视觉基准测试质量提...
新Genie 3驱动!Project Genie 上线:文本/照片生成可探索世界,限时60秒体验
Google DeepMind 正式宣布,实验性AI工具 Project Genie 即日起向美国地区的 Google AI Ultra 订阅用户开放访问。这款由最新世界模型 Genie 3、图像生成...
新百度飞桨发布PaddleOCR-VL-1.5:0.9B轻量多模态模型,真实场景文档解析全面SOTA
百度飞桨近期完成 PaddleOCR 3.4.0 版本更新,正式推出新一代视觉语言模型 PaddleOCR-VL-1.5。这款面向真实场景的文档解析专用模型,仅0.9B参数量却实现资源高效与性能领先...
新腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合
腾讯混元项目组正式开源 HunyuanImage 3.0-Instruct —— 一款专注于图像编辑的原生多模态大模型。该模型不仅能理解输入图像的语义内容,还能基于复杂指令进行推理,并生成高保真、高一...
新Grok Imagine 正式登陆 ComfyUI:支持图像与视频生成的 xAI 模型现已可用
来自 xAI 的电影感、氛围感图像与视频生成模型,正式以官方合作节点形式入驻 ComfyUI。 ComfyUI 官方宣布,xAI 旗下的 grok-imagine-image 与 grok-imagi...
新ComfyUI Z-Image I2L:从参考图像一键生成个性化 LoRA,无需训练
ComfyUI Z-Image I2L 是由 RunningHub 开发的一组 ComfyUI 自定义节点,基于 DiffSynth-Studio 的 Z-Image 流程,实现从少量参考图像直接生成...
新使用 Nano Banana Pro 制作 Instagram 与小红书风格的 3D 弹出效果图片
以下为两套高度结构化的提示词模板,专为 Nano Banana Pro 设计,用于生成具有“破框而出”3D 效果的社交媒体风格图像。每套均包含构图、UI 元素、人物姿态、光影与质感等关键维度,确保输出...
新LM Studio 0.4.0 发布:核心引擎与 GUI 分离,支持自托管服务器与多会话并发
LM Studio 是一款广受好评的本地大模型运行工具,允许用户在 Windows、macOS 或 Linux 设备上离线运行 Llama、Gemma、GPT-OSS 等开源模型,无需依赖云服务。最新...















