阿里达摩院开源Video-LLaMA 帮大语言模型加上“眼睛”、“耳朵”-世界焦点

时间:2023-06-12 08:23:24 来源:云掌财经

(相关资料图)

阿里达摩院的研究人员提出了Video-LLaMA，一个具有综合视听能力大模型。Video-LLaMA能够感知和理解视频中的视频和音频信号，并能理解用户输入的指令，完成一系列基于音视频的复杂任务，例如音/视频描述，写作，问答等。目前论文，代码，交互demo都已开放。另外，在Video-LLaMA的项目主页中，该研究团队还提供了中文版本的模型，让中文用户的体验更丝滑。

关键词：

返回首页返回频道

相关新闻

新闻热点

奇闻趣事

频道推荐

返回网站首页返回频道首页