小马良

帅气的我简直无法用语言描述!

SliderSpace:自动分解文生图模型的视觉能力,将其转化为简单的滑块控件,使用户能够更直观地控制生成结果

扩散模型(Diffusion Models)在生成高质量图像方面表现出色,但其生成过程的黑箱性质限制了用户的控制能力。为了增强扩散模型的可控性和可解释性,来自美国东北大学和 Adobe Researc...
1小时前
010

ComfyUI-FreeMemory:优化ComfyUI图像生成工作流的内存管理

ComfyUI-FreeMemory 是 ComfyUI 的一个自定义节点扩展,专为图像生成工作流程中的高级内存管理而设计。它旨在帮助用户避免内存不足错误,并在执行复杂操作时优化资源使用。 GitHu...
1小时前
000

谷歌发布多语言视觉语言编码器SigLIP 2

今天,谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进,进一步提升了视觉语言模型的性能。 官方说明:https:/...
3小时前
000

DeepSeek官方API不能充值?火山引擎邀请你免费领干万DeepSeek额度

自今年一月以来,DeepSeek在全球范围内迅速爆火,用户量激增。然而,随之而来的是官网和应用频繁出现繁忙、崩溃的问题,严重影响了用户体验。值得庆幸的是,目前国内外的AI应用及云服务商已经上线了完整的...
4小时前
020

西北工业大学开源语音理解模型OSUM

近年来,大语言模型(LLMs)在自然语言处理领域取得了显著进展,这启发了业界对语音理解语言模型(Speech Understanding Language Models, SULMs)的开发。SULM...
22小时前
030

xAI宣布 Grok 3 模型免费开放,推理和深度搜索功能都可以免费使用

备受期待的 xAI 团队开发的 Grok 3 模型于今日正式上线,并以一种令人惊喜的方式亮相——包括推理模式(Reasoning)和深度搜索(DeepSearch)功能在内的所有核心功能,均向公众免费...
1天前
050

微软推出游戏生成式 AI 模型 Muse:能够生成游戏视觉、控制器动作

微软研究院和 Xbox 游戏工作室 Ninja Theory 合作开发了一个能够生成游戏视觉、控制器动作的视频游戏生成式 AI 模型 Muse ,号称是第一个世界与人类行动模型(WHAM),旨在革新游...
1天前
050

AI 编程初创公司Codeium 新一轮融资估值接近 30 亿美元,AI编程领域竞争加剧

据消息人士透露,AI 编程初创公司 Codeium 正在进行新一轮融资,其估值已接近 30 亿美元。具体而言,本轮融资的估值为 28.5 亿美元,包括新注入的资金。此轮融资由回归投资者 Kleiner...
1天前
020

谷歌为 iPhone 用户带来类似“圈选搜索”的功能

谷歌在本周推出了一项新更新,为 iPhone 用户带来了更便捷的搜索体验。通过这项更新,用户可以在 iOS 上的 Google Chrome 或 Google 搜索应用中,使用简单的手势来搜索屏幕上的...
1天前
050

谷歌iOS版APP不再支持Gemini功能,要求用户下载独立Gemini应用

谷歌曾在 iOS 版 Google 应用中集成 Gemini 功能,这一模式一直持续到 2024 年 11 月,当时谷歌为 iPhone 用户推出了独立的 Gemini 应用。尽管如此,Gemini ...
1天前
040