百科 | 第55页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

3D对象生成和重建流程PartGen：可以从文本、图像或非结构化3D对象开始，生成由多个有意义部分组成的3D对象

近年来，文本到3D生成器和3D扫描仪技术取得了显著进展，能够生成高质量的3D资产。然而，这些资产通常由单一的融合表示组成，例如隐式神经场、高斯混合或网格，缺乏任何有用的结构。这种单一表示方式使得资产难...

新技术 # 3D对象 # PartGen

1年前

04770

文本到纹理方法RoCoTex：用于生成高质量、一致性强的3D模型纹理

NCSOFT 图形 AI 实验室、韩国大学计算机科学与工程系和韩国中央大学图像系的研究人员推出一种稳健的文本到纹理方法RoCoTex，它是一种用于生成高质量、一致性强的3D模型纹理的方法。简单来说，R...

新技术 # 3D模型纹理 # RoCoTex

2年前

04770

无需预先训练框架MotionClone：通过复制参考视频中的动作来指挥文本导向的视频生成

中国科学技术大学、上海交通大学、香港中文大学和上海人工智能实验室的研究人员推出无需预先训练框架MotionClone，它能够实现一种无需训练的运动克隆，用于可控的视频生成。简单来说，这项技术可以让一个...

新技术 # MotionClone # 视频生成

2年前

04770

谷歌确认将在Windows 11的Chrome浏览器中集成Gemini，并预告重大AI升级

谷歌近日在反垄断诉讼中的一份幻灯片意外曝光了其在Windows平台上的AI战略蓝图。谷歌计划将 Gemini Live 集成到 Windows 11 和 Windows 10 的 Chrome 浏览器...

百科 # Gemini # Windows 11 # 谷歌

11个月前

04750

SAMPart3D：可扩展的零样本3D部件分割框架

3D部件分割是3D感知中的一项关键任务，在机器人、3D生成和3D编辑等应用中发挥着重要作用。最近的方法利用强大的视觉语言模型（VLMs）进行2D到3D的知识蒸馏，实现了零样本的3D部件分割。然而，这些...

新技术 # 3D部件分割框架 # SAMPart3D

1年前

04750

新型视觉基础模型Lotus：使用扩散模型来生成高质量的密集预测结果

香港科技大学（广州）、阿德莱德大学、诺亚方舟实验室和香港科技大学的研究人员推出新型视觉基础模型Lotus，它使用扩散模型来生成高质量的密集预测结果。简单来说，Lotus就像一个超级聪明的图像处理专家...

新技术 # Lotus # 视觉基础模型

2年前

04750

月之暗面发布多模态思考模型 Kimi k1.5 ，实现 SOTA 级多模态推理能力

月之暗面宣布推出 Kimi 的全新模型——k1.5 多模态思考模型。这款模型在多模态推理和通用推理能力上达到了 state-of-the-art（SOTA）级别，标志着 AI 领域的又一次重大进步...

早报 # Kimi k1.5 # 月之暗面

1年前

04740

一步式文本到图像扩散模型SwiftBrush v2：通过优化训练方法和引入新的损失函数，来提高图像质量和文本图像对齐度

越南VinAI 研究和胡志明邮电技术学院的研究人员推出SwiftBrush v2，这是一个先进的文本到图像扩散模型，它通过优化训练方法和引入新的损失函数，比如“clamped CLIP loss”，来...

新技术 # SwiftBrush v2

2年前

04740

数据生成管道Gen4Gen：创建高质量的个性化图像和文本描述

来自加州大学伯克利分校、牛津大学、哈佛大学、卡耐基梅隆大学、香港大学、加州大学戴维斯分校的研究人员推出数据生成管道Gen4Gen，它用于创建一个名为MyCanvas的数据集，旨在提高文本到图像扩散模型...

新技术 # Gen4Gen # 数据生成管道

2年前

04730

新型视频生成框架CustomCrafter：根据文本提示和主题参考图像生成高质量视频

浙江大学、腾讯人工智能实验室和腾讯 PCG ARC 实验室的研究人员推出新型视频生成框架CustomCrafter，它可以根据文本提示和主题参考图像生成高质量视频。这项技术的目标是让用户能够自定义视频...

新技术 # CustomCrafter # 视频生成

2年前

04720

警惕！谷歌 Gemini CLI 存在高危漏洞，可能被用于静默窃取敏感信息

一款旨在提升开发效率的 AI 编码工具，也可能成为攻击者入侵系统的跳板。谷歌于 2025 年 6 月推出的 Gemini CLI——一款集成其最先进 Gemini 2.5 Pro 模型的命令行代码助...

早报 # Gemini CLI # 谷歌

8个月前

04710

Ollama v0.10.0 发布：图形界面来了，还能“看”图了

Ollama 正式发布 v0.10.0 版本，带来多项关键更新，显著提升了本地大模型的使用体验。最引人注目的是，此次更新首次引入了图形用户界面（GUI），不再局限于命令行操作，让非技术用户也能轻松上手...

早报 # Ollama # 图形界面

8个月前

04710

加载更多

百科

3D对象生成和重建流程PartGen：可以从文本、图像或非结构化3D对象开始，生成由多个有意义部分组成的3D对象

文本到纹理方法RoCoTex：用于生成高质量、一致性强的3D模型纹理

无需预先训练框架MotionClone：通过复制参考视频中的动作来指挥文本导向的视频生成

谷歌确认将在Windows 11的Chrome浏览器中集成Gemini，并预告重大AI升级

SAMPart3D：可扩展的零样本3D部件分割框架

新型视觉基础模型Lotus：使用扩散模型来生成高质量的密集预测结果

月之暗面发布多模态思考模型 Kimi k1.5 ，实现 SOTA 级多模态推理能力

一步式文本到图像扩散模型SwiftBrush v2：通过优化训练方法和引入新的损失函数，来提高图像质量和文本图像对齐度

数据生成管道Gen4Gen：创建高质量的个性化图像和文本描述

新型视频生成框架CustomCrafter：根据文本提示和主题参考图像生成高质量视频

警惕！谷歌 Gemini CLI 存在高危漏洞，可能被用于静默窃取敏感信息

Ollama v0.10.0 发布：图形界面来了，还能“看”图了

S.H.I.T

ITELLOU

Tripo

BuildCores

CutCut

同事.skill

百科

网址

S.H.I.T

ITELLOU

Tripo

BuildCores

CutCut

同事.skill