新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容 这篇论文介绍了一个名为VSP-LLM(Visual Speech Processing incorporated with LLMs)的新框架,它结合了视觉语音处理和大语言模型(LLMs),以提高视觉... 新技术# VSP-LLM# 大语言模型# 视觉语音翻译 1年前04620