SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 943 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    新型实时目标检测系统YOLOv9:通过创新的网络设计和梯度信息处理来提高目标检测的准确性和效率

    新型实时目标检测系统YOLOv9:通过创新的网络设计和梯度信息处理来提高目标检测的准确性和效率

    来自中国台湾的研究人员推出新型实时目标检测系统YOLOv9,通过引入可编程梯度信息(Programmable Gradient Information, PGI)和一种新的轻量级网络架构——广义高效层...
    新技术# YOLOv9# 目标检测系统
    2年前
    05550
    ToDo:为了提高高分辨率图像生成的效率而设计

    ToDo:为了提高高分辨率图像生成的效率而设计

    来自Leonardo AI的研究人员推出ToDo(Token Downsampling),它是为了提高高分辨率图像生成的效率而设计的。这种方法主要是为了解决图像扩散模型在处理大图像时面临的时间和内存限...
    新技术# ToDo# 扩散模型
    2年前
    07670
    D-Flow框架:更加精确地控制生成模型的输出

    D-Flow框架:更加精确地控制生成模型的输出

    D-Flow框架是一种用于控制生成过程的方法,通过在流中进行微分来控制生成过程,以优化源(噪声)点。该方法的主要局限是生成时间相对较长(通常需要5-15分钟),这可能会在某些应用中限制其使用。 论文地...
    新技术# D-Flow框架# 生成模型
    2年前
    05530
    字节跳动推出文生图模型SDXL-Lightning:基于SDXL1.0基础模型提炼

    字节跳动推出文生图模型SDXL-Lightning:基于SDXL1.0基础模型提炼

    SDXL-Lightning是由字节跳动发布的一款速度极快的文生图模型,它采用新型扩散模型蒸馏方法,优化扩散模型,能在短时间内高效生成分辨率为1024像素的高品质图像。 模型地址:https://hu...
    新技术# SDXL-Lightning# SDXL1.0# 字节跳动
    2年前
    06160
    DiLightNet:用于文生图模型图像生成过程中对照明效果精细控制

    DiLightNet:用于文生图模型图像生成过程中对照明效果精细控制

    来自浙江大学、微软亚洲研究院、威廉玛丽学院和清华大学的研究人员提出一种新方法DiLightNet,它用于在基于文本提示的扩散模型图像生成过程中实现精细的照明控制。 论文地址 扩散模型是一种能够根据文本...
    新技术# DiLightNet# 照明效果
    2年前
    05860
    视觉语言模型CoLLaVO:提高视觉语言模型在零样本视觉语言任务中的性能

    视觉语言模型CoLLaVO:提高视觉语言模型在零样本视觉语言任务中的性能

    韩国研究人员推出视觉语言模型CoLLaVO(Crayon Large Language and Vision mOdel),此模型旨在通过增强对象级别的图像理解能力,提高视觉语言模型(VLMs)在零样...
    新技术# CoLLaVO# 视觉语言模型
    2年前
    09390
    神经网络扩散(Neural Network Diffusion):利用扩散模型来生成高性能的神经网络参数

    神经网络扩散(Neural Network Diffusion):利用扩散模型来生成高性能的神经网络参数

    来自新加坡国立大学、Meta AI和加州大学伯克利分校的研究人员提出了一种名为“神经网络扩散(Neural Network Diffusion)”的新型方法,它利用扩散模型(diffusion mod...
    新技术# Neural Network Diffusion# 神经网络扩散
    2年前
    08570
    全新文生图框架RealCompo:结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量

    全新文生图框架RealCompo:结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量

    RealCompo是一个全新的文生图框架,它旨在解决当前文生图模型在处理多对象组合生成时遇到的困难,通过动态平衡真实性和组合性来提高生成图像的质量。 GitHub 论文 RealCompo利用了文本到...
    新技术# GLIGEN模型# RealCompo# 文生图框架
    2年前
    07320
    神经网络架构MVDiffusion++:用于从单个或少量图像中重建3D物体

    神经网络架构MVDiffusion++:用于从单个或少量图像中重建3D物体

    来自西蒙弗雷泽大学和Meta Reality Labs的研究人员推出神经网络架构MVDiffusion++,它用于从单个或少量图像中重建3D物体。这个模型能够在没有相机姿态信息的情况下,生成密集且高分...
    新技术# 3D# MVDiffusion++# 神经网络架构
    2年前
    06440
    视频字幕生成模型Video ReCap:能为长达数小时的视频生成多层次的字幕

    视频字幕生成模型Video ReCap:能为长达数小时的视频生成多层次的字幕

    来自北卡罗来纳大学教堂山分校和 Meta AI的研究人员推出视频字幕生成模型Video ReCap,它能够为长达数小时的视频生成多层次的字幕。 这个模型的设计受到了人类行为层次结构的启发,人类行为通常...
    新技术# Video ReCap# 视频字幕生成模型
    2年前
    05200
    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进...
    新技术# VideoPrism# 视频编码器# 谷歌
    7个月前
    06920
    新型神经网络渲染技术Joint-TensoRF:使用2D图像作为监督,实现相机姿态和场景几何的精细调整

    新型神经网络渲染技术Joint-TensoRF:使用2D图像作为监督,实现相机姿态和场景几何的精细调整

    来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF,提高神经渲染中相机姿态和场景几何表示的联合优化性能,特别是在处理复杂场景时的鲁棒性,这对于许多3D视觉和图形应用领...
    新技术# Joint-TensoRF# 神经网络渲染
    2年前
    05670
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    oLLM

    oLLM

    oLLM 是一个轻量级的 Python 库,用于大型上下文 LLM 推理,基于 Huggingface Transformers 和 PyTorch 构建。它使运行像 gpt-oss-20B、qwen3-next-80B 或 Llama-3.1-8B-Instruct 这样的模型在 100k 上下文下使用约 200 美元的消费级 GPU(8GB VRAM)成为可能。不使用量化——仅使用 fp16/bf16 精度。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Genspark

    Genspark

    Genspark 超级智能体——您的全能AI伙伴,从拨打电话、制作幻灯片到生成TikTok短视频,轻松应对日常任务。内置80+预装工具与海量数据集,更快、更可靠、更可控。
    PDF2Audio

    PDF2Audio

    PDF2Audio是一款受到谷歌NotebookLM播客功能启发而开发的开源替代品,可以将 PDF 文件转换成音频播客、讲座、摘要等。它利用 OpenAI 的 GPT 大语言模型来生成文本和进行文本到语音的转换。
    Figma Sites

    Figma Sites

    借助新的AI驱动工具Figma Sites,设计师可以轻松创建网站并直接发布。网站生成后,协作人员无需额外提示即可通过编辑器轻松更改网站元素。用户还可以在网站中添加过渡、动画和滚动效果,同时确保网站具有响应式设计。Figma正在为Figma Sites新增直接生成博客文章的功能。
    查看完整榜单