SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    谷歌

    共 252 篇文章
    排序
    发布更新浏览点赞
    新型图像匹配技术OmniGlue:首个以泛化为核心设计原则的可学习图像匹配器

    新型图像匹配技术OmniGlue:首个以泛化为核心设计原则的可学习图像匹配器

    德克萨斯大学奥斯汀分校和谷歌的研究人员推出新型图像匹配技术OmniGlue,这是首个以泛化为核心设计原则的可学习图像匹配器。OmniGlue利用来自视觉基础模型的广泛知识来指导特征匹配过程,从而增强了...
    新技术# OmniGlue# 谷歌
    2年前
    06800
    谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果

    谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果

    Google Research、Google DeepMind和华盛顿大学的研究团队推出新框架ImageInWords(IIW),此框架旨在创建准确且细节丰富的图像描述,以提高视觉-语言模型(VLMs...
    新技术# IIW# ImageInWords# 数据集
    2年前
    06910
    谷歌推出基于问答的自动评估指标Gecko,用于评估文生图模型的性能

    谷歌推出基于问答的自动评估指标Gecko,用于评估文生图模型的性能

    谷歌推出基于问答的自动评估指标Gecko2K,用于评估文生图模型的性能。文生图模型生成的图像并不总是能够完全符合文本中的所有细节。因此,评估这些模型生成的图像与文本描述的匹配程度是一个重要的研究问题...
    新技术# Gecko# Gecko2K# 自动评估
    2年前
    06590
    图像逆向技术ReNoise:可能图像内容进行编辑重建

    图像逆向技术ReNoise:可能图像内容进行编辑重建

    来自特拉维夫大学和谷歌的研究团队推出图像逆向技术ReNoise,这是一种通过迭代噪声处理来实现真实图像在预训练扩散模型域内重建的方法。简单来说,就像我们有时候需要从一张已经损坏或者风格化的照片恢复出原...
    新技术# ReNoise# 图像编辑# 谷歌
    2年前
    05450
    图像编辑技术Prompt-to-Prompt:通过提示词进行局部或全局编辑

    图像编辑技术Prompt-to-Prompt:通过提示词进行局部或全局编辑

    来自谷歌和特拉维夫大学的团队推出图像编辑技术Prompt-to-Prompt,这是一种直观的从提示到提示的编辑框架,其中编辑操作仅通过文本进行控制。此团队深入分析了文本条件模型,并观察到交叉注意力层在...
    新技术# Prompt-to-Prompt# 图像编辑# 提示词
    2年前
    06200
    谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    谷歌推出创新框架VLOGGER,它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下,你只需提供一张你的照片和你的语音记录,VLOGGER就能制作出一个视频,在视频中你可以看...
    新技术# VLOGGER# 谷歌
    2年前
    05640
    谷歌发布“多步一致性模型”(Multistep Consistency Models)

    谷歌发布“多步一致性模型”(Multistep Consistency Models)

    谷歌发布新型生成模型“多步一致性模型”(Multistep Consistency Models),它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”(Consiste...
    新技术# 多步一致性模型# 谷歌
    2年前
    05610
    谷歌推出新一代开源模型Gemma,轻量级高性能,助力AI创新

    谷歌推出新一代开源模型Gemma,轻量级高性能,助力AI创新

    谷歌推出开源模型Gemma,这是一款轻量级、先进的开源模型,供开发者和研究人员用于AI构建。Gemma模型家族包括Gemma 2B和Gemma 7B两种尺寸,能够在不同的设备类型上运行,包括笔记本电脑...
    大语言模型# Gemma# 大语言模型# 谷歌
    10个月前
    07160
    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进...
    新技术# VideoPrism# 视频编码器# 谷歌
    6个月前
    06850
    谷歌ImageFX:将用户输入的描述性语言或关键词迅速转化高品质图片

    谷歌ImageFX:将用户输入的描述性语言或关键词迅速转化高品质图片

    我们之前介绍了谷歌旗下的最新图像生成模型Imagen2,其中提到了ImageFX。ImageFX是谷歌旗下实验性AI项目「AI Test Kitchen」中的一项功能,作为一个生成式AI工具,它能够将...
    工具# ImageFX# Imagen2# 谷歌
    2年前
    06010
    谷歌旗下最新图像生成模型Imagen2,已在Bard和ImageFX上线

    谷歌旗下最新图像生成模型Imagen2,已在Bard和ImageFX上线

    无论是制作音乐、获取编程帮助还是创建图像,像Lyria、Codey和Imagen这样的基于任务的AI模型正在帮助人们将创意变为现实。 自从去年推出以来,我们的Imagen技术已经帮助人们和企业仅使用几...
    工具# Bard# ImageFX# Imagen2
    1年前
    05560
    谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion

    谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion

    谷歌的研究团队推出了新的文生图模型MobileDiffusion,它能够在手机上几乎瞬间(亚秒级)生成高质量的图片。该模型在架构和采样技术方面进行广泛优化,在iPhone 15 Pro上,Mobile...
    新技术# MobileDiffusion# 安卓# 扩散模型
    2年前
    07500
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    OpenAI音频模型

    OpenAI音频模型

    OpenAI正式推出了全新的音频模型,涵盖了文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大核心功能,为语音交互领域带来了重大突破。
    Eigent AI

    Eigent AI

    Eigent 是全球首个 多智能体工作流 桌面应用程序,帮助您构建、管理和部署定制化的 AI 工作团队,将最复杂的工作流程转化为自动化任务。基于 CAMEL-AI 广受赞誉的开源项目,我们的系统引入了 多智能体工作流,通过并行执行、定制化和隐私保护 提升生产力。
    oLLM

    oLLM

    oLLM 是一个轻量级的 Python 库,用于大型上下文 LLM 推理,基于 Huggingface Transformers 和 PyTorch 构建。它使运行像 gpt-oss-20B、qwen3-next-80B 或 Llama-3.1-8B-Instruct 这样的模型在 100k 上下文下使用约 200 美元的消费级 GPU(8GB VRAM)成为可能。不使用量化——仅使用 fp16/bf16 精度。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    查看完整榜单