小马良

帅气的我简直无法用语言描述!
通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner:支持流式、多语言、高并发的语音识别与对齐工具

通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner:支持流式、多语言、高并发的语音识别与对齐工具

Qwen(通义千问)团队正式开源全新一代语音技术方案——Qwen3-ASR系列语音识别模型与Qwen3-ForcedAligner强制对齐模型。该系列包含Qwen3-ASR-1.7B、Qwen3-AS...
9小时前
060
ComfyUI DiffSynth Studio Wrapper:在 ComfyUI 中调用 Z-Image I2L 实现图像到 LoRA 的实时转换

ComfyUI DiffSynth Studio Wrapper:在 ComfyUI 中调用 Z-Image I2L 实现图像到 LoRA 的实时转换

ComfyUI DiffSynth Studio Wrapper 是一个轻量级自定义节点封装器,旨在将 DiffSynth-Studio 的 Z-Image I2L(Image-to-LoRA)功能无...
9小时前
090
Gemini 3 Flash 引入智能体视觉:视觉推理+代码执行,答案基于视觉证据

Gemini 3 Flash 引入智能体视觉:视觉推理+代码执行,答案基于视觉证据

谷歌正式为 Gemini 3 Flash 推出全新能力——智能体视觉,通过将视觉推理与代码执行深度结合,让AI从“静态一瞥”升级为“主动调查”,彻底改变图像理解方式。这项功能可使多数视觉基准测试质量提...
10小时前
070
Genie 3驱动!Project Genie 上线:文本/照片生成可探索世界,限时60秒体验

Genie 3驱动!Project Genie 上线:文本/照片生成可探索世界,限时60秒体验

Google DeepMind 正式宣布,实验性AI工具 Project Genie 即日起向美国地区的 Google AI Ultra 订阅用户开放访问。这款由最新世界模型 Genie 3、图像生成...
10小时前
0140
百度飞桨发布PaddleOCR-VL-1.5:0.9B轻量多模态模型,真实场景文档解析全面SOTA

百度飞桨发布PaddleOCR-VL-1.5:0.9B轻量多模态模型,真实场景文档解析全面SOTA

百度飞桨近期完成 PaddleOCR 3.4.0 版本更新,正式推出新一代视觉语言模型 PaddleOCR-VL-1.5。这款面向真实场景的文档解析专用模型,仅0.9B参数量却实现资源高效与性能领先...
11小时前
0120
腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合

腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合

腾讯混元项目组正式开源 HunyuanImage 3.0-Instruct —— 一款专注于图像编辑的原生多模态大模型。该模型不仅能理解输入图像的语义内容,还能基于复杂指令进行推理,并生成高保真、高一...
11小时前
050
Grok Imagine 正式登陆 ComfyUI:支持图像与视频生成的 xAI 模型现已可用

Grok Imagine 正式登陆 ComfyUI:支持图像与视频生成的 xAI 模型现已可用

来自 xAI 的电影感、氛围感图像与视频生成模型,正式以官方合作节点形式入驻 ComfyUI。 ComfyUI 官方宣布,xAI 旗下的 grok-imagine-image 与 grok-imagi...
11小时前
050
ComfyUI Z-Image I2L:从参考图像一键生成个性化 LoRA,无需训练

ComfyUI Z-Image I2L:从参考图像一键生成个性化 LoRA,无需训练

ComfyUI Z-Image I2L 是由 RunningHub 开发的一组 ComfyUI 自定义节点,基于 DiffSynth-Studio 的 Z-Image 流程,实现从少量参考图像直接生成...
12小时前
080
使用 Nano Banana Pro 制作 Instagram 与小红书风格的 3D 弹出效果图片

使用 Nano Banana Pro 制作 Instagram 与小红书风格的 3D 弹出效果图片

以下为两套高度结构化的提示词模板,专为 Nano Banana Pro 设计,用于生成具有“破框而出”3D 效果的社交媒体风格图像。每套均包含构图、UI 元素、人物姿态、光影与质感等关键维度,确保输出...
13小时前
060
LM Studio 0.4.0 发布:核心引擎与 GUI 分离,支持自托管服务器与多会话并发

LM Studio 0.4.0 发布:核心引擎与 GUI 分离,支持自托管服务器与多会话并发

LM Studio 是一款广受好评的本地大模型运行工具,允许用户在 Windows、macOS 或 Linux 设备上离线运行 Llama、Gemma、GPT-OSS 等开源模型,无需依赖云服务。最新...
24小时前
0200