SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    数据集

    共 8 篇文章
    排序
    发布更新浏览点赞
    Janus-4o:基于数据集 ShareGPT-4o-Image 的新型多模态图像生成模型

    Janus-4o:基于数据集 ShareGPT-4o-Image 的新型多模态图像生成模型

    香港中文大学(深圳) 的研究人员推出了一项重要的多模态研究成果 —— ShareGPT-4o-Image 数据集 及其衍生的开源多模态大语言模型 Janus-4o。该研究旨在将 GPT-4o 在图像生...
    图像模型# Janus-4o# ShareGPT-4o-Image# 数据集
    7个月前
    03260
    EleutherAI 发布首个大规模许可训练数据集 The Common Pile v0.1

    EleutherAI 发布首个大规模许可训练数据集 The Common Pile v0.1

    近日,开源人工智能研究组织 EleutherAI 正式发布了名为 The Common Pile v0.1 的全新训练数据集。该数据集据称是目前用于训练 AI 模型的最大合法授权+公共领域文本集合之一...
    大语言模型# EleutherAI# The Common Pile v0.1# 数据集
    7个月前
    03070
    用于创建数据集的桌面工具qapyq:最新版增加了图像缩放、自动遮罩和裁剪功能,以及自动字幕功能

    用于创建数据集的桌面工具qapyq:最新版增加了图像缩放、自动遮罩和裁剪功能,以及自动字幕功能

    qapyq 是一款专为生成式 AI 模型的数据集整理、微调(finetune)和 LoRA 设计的图像查看器和编辑工具。它提供了丰富的功能,帮助用户高效地处理和准备图像数据,特别适合需要大量图像标注和...
    工具# qapyq# 图像缩放# 数据集
    1年前
    03790
    强调了结构化注释的使用!用于训练复杂图像-文本模型的大规模数据集LAION-SG

    强调了结构化注释的使用!用于训练复杂图像-文本模型的大规模数据集LAION-SG

    浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团的研究人员推出一个用于训练复杂图像-文本模型的大规模数据集LAION-SG,特别强调了结构化注释的使用。LAION-SG通过提供场景图(Scene ...
    新技术# LAION-SG# 数据集
    1年前
    02960
    BLIP3-KALE:包含2.18亿个图像-文本对的数据集

    BLIP3-KALE:包含2.18亿个图像-文本对的数据集

    华盛顿大学、Salesforce Research、斯坦福大学和加州大学伯克利分校推出一个包含2.18亿个图像-文本对的数据集BLIP3-KALE,它弥合了描述性合成字幕和网络规模的事实性替代文本之间...
    新技术# BLIP3-KALE# 数据集
    1年前
    04200
    多内容数据集ImagiNet:为了提高合成图像检测的泛化能力而设计

    多内容数据集ImagiNet:为了提高合成图像检测的泛化能力而设计

    保加利亚大特尔诺沃自然科学与数学高中、索非亚大学、保加利亚普罗夫迪夫数学高中和斯坦福大学的研究人员推出多内容数据集ImagiNet,它是为了提高合成图像检测的泛化能力而设计的。合成图像是由计算机生成的...
    新技术# ImagiNet# 数据集
    1年前
    06460
    Adobe推出Toffee:用于主题驱动的文本到图像生成的高效数据集构建方法

    Adobe推出Toffee:用于主题驱动的文本到图像生成的高效数据集构建方法

    Adobe Research和加州大学圣克鲁斯分校的研究人员推出Toffee系统,它是一个用于主题驱动的文本到图像生成的高效数据集构建方法。简单来说,Toffee能够创建大量的图像和文本对,这些图像能...
    新技术# Adobe Research# Toffee# 数据集
    2年前
    06450
    谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果

    谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果

    Google Research、Google DeepMind和华盛顿大学的研究团队推出新框架ImageInWords(IIW),此框架旨在创建准确且细节丰富的图像描述,以提高视觉-语言模型(VLMs...
    新技术# IIW# ImageInWords# 数据集
    2年前
    06960
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    alphaXiv

    alphaXiv

    作为 arxiv labs 的官方产品,alphaXiv 不仅整合了 arXiv 的论文内容和开放的评论系统,还引入了先进的 AI 功能。用户不仅可以针对某篇论文进行问答,还可以通过 @ 引用其他论文的章节,类似于 AI 代码编辑器 Cursor 中 @ 引用其他代码文件或方法,这种创新的交互方式极大地丰富了学术讨论的形式。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    DiffRhythm(谛韵)

    DiffRhythm(谛韵)

    DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。
    查看完整榜单