新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容这篇论文介绍了一个名为VSP-LLM(Visual Speech Processing incorporated with LLMs)的新框架,它结合了视觉语音处理和大语言模型(LLMs),以提高视觉...新技术# VSP-LLM# 大语言模型# 视觉语音翻译2年前06770
视觉-语言适配器PaLM2-VAdapter:将传统的视觉编码器和大语言模型结合起来PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型,以提高它们之间的协同工作效果。 论文 它能够有效地将传统的视觉编码器(vision encoders)和大语言模型(LL...新技术# PaLM2-VAdapter# 大语言模型# 视觉编码器2年前08750
LoRA:为解决大语言模型微调而开发微软的研究人员于2021年推出LoRA(Low-Rank Adaptation of Large Language Models,大语言模型的低阶适应),这是为解决大语言模型微调而开发的一项技术,用于...新技术# Lora# 大语言模型# 微软2年前05860
新型图像生成技术StrokeNUWA:利用大语言模型生成矢量图形StrokeNUWA是一种新型图像生成技术,用于仅通过大语言模型(LLM)生成矢量图形,无需依赖专门的视觉模块。 论文 该方法的关键创新在于利用矢量图形固有的视觉语义,将矢量图形编码为"笔画"标记,这...新技术# LLM# StrokeNUWA# 大语言模型2年前06490
新型视觉模型训练方法SynCLR:完全从生成模型中学习,不需要任何真实数据来自谷歌和MIT的研究人员提出一种新型视觉模型训练方法SynCLR,它完全从生成模型中学习,而不需要任何真实数据。 GitHub 论文 SynCLR的核心思想是利用大语言模型(LLMs)生成大量的图像...新技术# SynCLR# 大模型# 大语言模型2年前06180