VibeVoice-ComfyUI :将微软高质量TTS模型VibeVoice深度集成至 ComfyUIVibeVoice-ComfyUI 是一款文本转语音(TTS)插件,将微软最新的 VibeVoice 语音合成模型深度集成至 ComfyUI 工作流中。 它不仅支持自然流畅的单人语音生成,更实现了 多...插件# TTS# VibeVoice# 微软2个月前03130
微软推出全新多模态大语言模型家族Florence-VL马里兰大学和微软研究院的研究团队共同提出了Florence-VL,这是一个全新的多模态大语言模型(MLLMs)家族。Florence-VL的视觉表示由生成式视觉基础模型Florence-2生成,与传统...多模态模型# Florence-VL# 多模态大语言模型# 微软10个月前03090
微软宣布对Security Copilot 工具进行重大升级,引入强大的 AI 代理功能在当今数字化时代,网络安全威胁日益复杂和多样化,黑客攻击手段不断升级,给企业和个人带来了巨大的安全隐患。为了有效应对这些挑战,微软宣布对其 Security Copilot 工具进行重大升级,引入强大...早报# Security Copilot# 微软9个月前03020
微软推出 Copilot 3D:AI 图像转 3D 模型的新尝试微软近期在其 AI 生态系统中悄然上线了一项新实验性功能——Copilot 3D,这是一款将平面图像转化为 3D 模型的工具,目前仍处于早期原型阶段。 尽管部分功能尚未完全开放,但其界面和初步设计已透...早报# Copilot 3D# 微软6个月前03000
微软正式开源了Phi-4:拥有140亿参数的小型语言模型去年12月,微软推出了其Phi系列的最新成员——Phi-4,该模型在解决数学问题等方面展现了显著的进步。这些进步主要得益于训练数据质量的提升,特别是采用了高质量的合成数据集和人类生成的内容数据集。然而...大语言模型# Phi-4# 微软10个月前02930
MAI-DS-R1:微软团队基于DeepSeek-R1 推理模型进行后训练的版本MAI-DS-R1 是一个由微软 AI 团队对 DeepSeek-R1 推理模型进行后训练的版本,提升其对受限话题的响应能力并改善其风险状况,同时保持推理能力和竞争力。简单来说就是把欧美的偏见加进去...大语言模型# DeepSeek-R1# MAI-DS-R1# 微软8个月前02900
微软推出NLWeb:让每个网站都能拥有AI驱动的自然语言界面在2025年Build大会上,微软宣布推出一个名为 NLWeb 的开放项目,旨在简化为网页创建自然语言界面的过程。这一技术使任何网站都能轻松转变为人工智能驱动的应用程序,用户可以通过简单的对话界面(即...早报# NLWeb# 微软7个月前02820
微软Copilot Search上线,挑战谷歌搜索模式,引入 AI 互动助用户延伸搜索在搜索引擎领域,AI技术正逐渐成为提升用户体验的关键。继谷歌上个月推出AI模式实验后,微软也迅速跟进,推出了Bing Copilot Search,正式向谷歌发起挑战。 谷歌的AI搜索模式 谷歌的AI...早报# Copilot Search# 微软# 谷歌8个月前02780
微软Copilot Studio 上线“计算机使用”功能,让AI智能体直接与网站和桌面应用互动4月15日,微软公司发布博文,宣布上线“计算机使用(Computer Use)”功能,这一新功能让Copilot Studio AI智能体能够直接与网站和桌面应用程序进行互动。这标志着自动化技术在企业...早报# Computer Use# Copilot Studio# 微软8个月前02770
微软为Copilot增添一系列新技能:能够浏览网页并执行操作,还能提供个性化服务和实时视频分析微软正在为其AI驱动的Copilot聊天机器人增添一系列新技能,以庆祝公司成立50周年。这些新功能让Copilot不仅能够浏览网页并执行操作,还能提供个性化服务和实时视频分析,使其在智能助手领域更具竞...早报# Copilot# 微软8个月前02740
让大语言模型“看懂”图形界面!微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体微软的 OmniParser 发布了 V2 更新,这一版本的核心目标是将任何大语言模型(LLM)转化为能够理解和交互图形用户界面(GUI)的智能体。相比前一代,OmniParser V2 在检测更小可...多模态模型# OmniParser V2.0# 微软# 智能体10个月前02730
微软提出 GUI-Actor:基于视觉语言模型的无坐标 GUI 定位新范式在构建基于视觉语言模型(VLM)的 GUI 代理系统中,一个关键挑战是如何准确理解屏幕上的视觉内容并定位应执行操作的区域。传统方法通常将此问题建模为“文本到坐标的生成”任务,即通过语言描述预测具体像素...多模态模型# GUI-Actor# 微软6个月前02680