百科 | 第62页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

统一的控制视频生成方法AnimateAnything：实现对视频内容的精确和一致性的操控，包括相机轨迹、文本提示和用户运动注释等多种条件

视频生成是一个复杂而多样的任务，涉及多个条件的控制，如摄像机轨迹、文本提示和用户运动注释。现有的方法通常只能在特定条件下生成视频，缺乏灵活性和一致性。为了解决这些问题，浙江大学 CAD&CG ...

新技术 # AnimateAnything # 视频生成

1年前

03480

FireFlow：用于快速反转和编辑图像语义内容，提高图像生成和编辑的效率和准确性

尽管带有蒸馏的校正流（ReFlows）为快速采样提供了一种有前景的方法，但其快速反演过程——即将图像转换回结构化噪声以进行恢复和后续编辑——仍然面临挑战。具体来说，传统的ReFlow方法在反演过程中可...

新技术 # FireFlow # 图像生成

1年前

03470

适用于FLUX模型！新型零样本主题驱动图像生成方法Diptych Prompting

主题驱动的文本到图像生成旨在通过准确捕捉主体的视觉特征和文本提示的语义内容，在期望的上下文中生成新主体的图像。传统方法依赖于耗时耗资源的微调以实现主题对齐，而最近的零样本方法则依赖于即时的图像提示，通...

新技术 # Diptych Prompting # FLUX模型

1年前

03470

MagicDriveDiT：提高视频合成的效率和可控性，以更好地服务于自动驾驶应用

随着扩散模型的迅速发展，视频合成技术尤其是可控视频生成领域取得了重大突破，这对自动驾驶等应用具有重要意义。然而，现有的视频生成方法在处理高分辨率和长视频时面临可扩展性和控制条件整合的挑战，限制了它们在...

新技术 # MagicDriveDiT # 自动驾驶

1年前

03470

阿里通义发布新一代语音识别大模型 Fun-ASR：更准、更懂场景

阿里通义实验室近日推出新一代端到端语音识别大模型 Fun-ASR。该模型基于大语言模型（LLM）能力构建，在家装、保险、畜牧等多个垂直行业的语音识别准确率提升15%以上，部分场景最高提升达18%，显著...

早报 # Fun-ASR # 阿里通义

4个月前

03460

Grok新功能升级：“Tasks”任务调度更便捷，AI自动化再进一步

xAI团队正在持续推进Grok即将上线的“Tasks”功能更新。最新版本带来了用户界面的多项改进，标志着该功能正逐步走向成熟。更加直观的任务入口在此次更新中，左侧导航栏新增了专属的“Tasks”按...

早报 # Grok # Tasks

7个月前

03460

字节跳动推出统一优化数据质量与多样性的LLM预训练框架QuaDMix

大语言模型（LLM）的性能和泛化能力在很大程度上依赖于其预训练数据的质量和多样性。然而，传统的数据整理方法往往将质量和多样性视为独立的目标，先进行质量过滤，再平衡领域分布。这种顺序优化忽略了两者之间的...

新技术 # QuaDMix # 字节跳动

8个月前

03460

MEMO：用于生成富有表情的、与音频同步的说话视频的端到端音频驱动肖像动画技术

天工 AI、南洋理工大学和新加坡国立大学的研究人员提出了MEMO（Memory-Guided Emotion-Aware Diffusion），这是一种端到端的音频驱动肖像动画方法，旨在生成身份一致且...

新技术 # MEMO # 肖像动画

1年前

03450

DuckDuckGo CEO 估计 Chrome 价值约 500 亿美元，OpenAI、Perplexity 甚至雅虎都表示有意收购 Chrome

谷歌的 Chrome 浏览器正成为反垄断审判的焦点，而其潜在的出售引发了科技界巨头的浓厚兴趣。这一事件不仅关乎谷歌的未来，也可能重塑互联网搜索和数字广告的格局。 DuckDuckGo CEO 估价 C...

早报 # Chrome # DuckDuckGo # OpenAI

8个月前

03440

基础世界模型The Matrix：用于生成无限长度和实时的视频

在追求高质量、实时视频生成的过程中，研究人员和开发者们面临着一系列挑战。传统的视频生成模型往往因高昂的计算成本、有限的视频时长以及缺乏实时交互性而受到限制。特别是在需要长时间、高分辨率视频生成的应用场...

新技术 # The Matrix # 世界模型

1年前

03440

埃隆·马斯克的Grok推出AI伴侣：可爱哥特风动漫女孩Ani和红色3D卡通狐狸Bad Rudy

埃隆·马斯克旗下的 AI 聊天机器人 Grok 迎来了新的功能更新 —— AI 伴侣角色。这一新功能现已对 Grok 的订阅用户（SuperGrok，每月30美元）开放，首批角色包括： Ani：一位...

早报 # AI伴侣 # Grok

5个月前

03430

I/O 2025：谷歌推出Veo 3、Imagen 4以及专为电影制作设计的新工具Flow

在谷歌I/O 2025大会上，谷歌宣布推出Veo 3、Imagen 4以及专为电影制作设计的新工具Flow。这些最新的生成媒体模型不仅实现了重大突破，还能创造出令人叹为观止的图像、视频和音乐，为艺术家...

早报 # Flow # Imagen 4 # Lyria 2

7个月前

03430

加载更多

百科

统一的控制视频生成方法AnimateAnything：实现对视频内容的精确和一致性的操控，包括相机轨迹、文本提示和用户运动注释等多种条件

FireFlow：用于快速反转和编辑图像语义内容，提高图像生成和编辑的效率和准确性

适用于FLUX模型！新型零样本主题驱动图像生成方法Diptych Prompting

MagicDriveDiT：提高视频合成的效率和可控性，以更好地服务于自动驾驶应用

阿里通义发布新一代语音识别大模型 Fun-ASR：更准、更懂场景

Grok新功能升级：“Tasks”任务调度更便捷，AI自动化再进一步

字节跳动推出统一优化数据质量与多样性的LLM预训练框架QuaDMix

MEMO：用于生成富有表情的、与音频同步的说话视频的端到端音频驱动肖像动画技术

DuckDuckGo CEO 估计 Chrome 价值约 500 亿美元，OpenAI、Perplexity 甚至雅虎都表示有意收购 Chrome

基础世界模型The Matrix：用于生成无限长度和实时的视频

埃隆·马斯克的Grok推出AI伴侣：可爱哥特风动漫女孩Ani和红色3D卡通狐狸Bad Rudy

I/O 2025：谷歌推出Veo 3、Imagen 4以及专为电影制作设计的新工具Flow

Fogsight (雾象)

朱雀大模型检测

ITELLOU

Tripo

Higgsfield AI

Google AI Studio

百科

网址

Fogsight (雾象)

朱雀大模型检测

ITELLOU

Tripo

Higgsfield AI

Google AI Studio