剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

推荐平台	链接	平台介绍
币安网	注册链接	币安是全球领先的区块链生态系统，推出了一系列产品，其中包括最大的加密货币交易平台。我们的使命是在未来成为全球性加密货币基础架构供应商。
欧易OKX	注册链接	欧易是全球著名的数字资产交易平台之一，主要面向全球用户提供比特币、莱特币、以太币等数字资产的币币和衍生品交易服务。
HTX火币	注册链接	火币全球专业站，是火币集团旗下服务于全球专业交易用户的创新数字资产国际站，致力于发现优质的创新数字资产投资机会。

来源：新智元

能听还能看，给模型不同的感官理解世界！

当下的大型语言模型，如ChatGPT只能接收文本作为输入，即便升级版的GPT-4也只是增加了图像输入的功能，无法处理其他模态的数据，如视频、音频等。

最近，来自剑桥大学、奈良先端科学技术大学院大学和腾讯的研究人员共同提出并开源了通用指令遵循模型PandaGPT模型，也是首个实现了跨六种模态（图像/视频、文本、音频、深度、thermal和IMU）执行指令遵循数据的基础模型。

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

论文链接：https://arxiv.org/pdf/2305.16355.pdf

代码链接：https://github.com/yxuansu/PandaGPT

在没有明确多模态监督的情况下，PandaGPT就展现出了强大的多模态能力，可以执行复杂的理解/推理任务，如详细的图像描述生成、编写视频启发的故事、回答有关音频的问题，或是多轮对话等。

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

总之，PandaGPT的核心创新在于可以同时接受多个模态输入，并自然地组合不同模态的语义，超越传统的单模态分析，扩展了下游应用场景，也更贴近AGI的实现方式。

示例

基于图片的问答：

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

基于图片的多轮问答：

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

基于视频的问答：

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

受图像/视频启发的创意性写作：

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

视觉推理能力：

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

音频推理能力：

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

图片+音频的多模态理解能力：

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

视频+音频的多模态理解能力：

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

和困在计算机内的AI模型相比，人类具有多种感官来了解世界，可以看一幅画，可以听到自然界的各种声音；机器如果也能输入多模态的信息，就可以更全面地解决各种问题。

目前多模态的研究大多数局限于单模态，或是文本与其他模态的组合，缺乏感知和理解多模态输入的整体性和互补性。

为了让PandaGPT具有多模态输入能力，研究人员结合了ImageBind的多模态编码器和大型语言模型Vicuna，二者在视觉和音频基础的指令遵循任务中都取得了非常强大的性能。

同时，为了使二个模型的特征空间一致，研究人员使用开源的16万个图像-语言指令遵循数据来训练PandaGPT，其中每个训练实例包括一个图像和一组多轮对话数据，对话中包含每轮人类的指令和系统的回复。

为了减少可训练参数的数量，研究人员只训练用来连接Vicuna的ImageBind表征，以及Vicuna的注意力模块上的额外LoRA权重。

剑桥华人团队开源PandaGPT：首个横扫「六模态」的大型基础模型

训练过程中，按照8×A100 40G GPU的计算资源来算，Vicuna-13B最大序列长度被设定为400的情况下，训练需要大约7小时。

值得注意的是，当前版本的PandaGPT只用对齐的图像-文本数据进行训练，但通过利用冻结的ImageBind编码器中继承的六种模态（图像/视频、文本、音频、深度、thermal和IMU）的绑定属性，PandaGPT展示出了涌现，即零样本跨模态的能力。

尽管PandaGPT在处理多模态及模态组合方面有惊人的能力，但还有几种方法可以用来进一步改进PandaGPT：

1. PandaGPT的训练过程可以通过引入更多对齐数据来丰富，比如其他与文本匹配的模态（音频-文本）

2. 研究人员对文本以外的模态内容只使用一个嵌入向量来表征，还需要对细粒度的特征提取畸形更多研究，如跨模态的注意力机制可能会对性能提升有好处

3. PandaGPT目前只是将多模态信息作为输入，未来可能会在生成端引入更丰富的多媒体内容，比如在音频中生成图像和文字回复。

4. 还需要有新的基准来评估多模态输入的组合能力

5. PandaGPT也可以表现出现有语言模型的几个常见缺陷，包括幻觉、毒性和刻板印象。

研究人员也指出，PandaGPT目前还只是一个研究原型，不能直接用于现实世界的应用。

参考资料：

推荐平台	链接	平台介绍
Gate芝麻开门	平台介绍	Gate.io芝麻开门创立于2013年，是全球真实交易量TOP10的加密货币交易平台，向全球数千万用户提供安全可靠、真实透明的数字资产交易服务。
Bitget	注册链接	Bitget的背后是一群区块链技术的早期接受者，也是区块链未来发展的信仰者，一直致力于提供安全、一站式的交易解决方案，帮助用户更聪明地交易。
Bybit	注册链接	Bybit通过数字资产与传统金融的结合，引领数字资产的生态发展。提供一流的流动性，致力于打造业内最安全、公平、高效及人性化的交易服务平台。
派网	注册链接	派网提供多样化的量化交易机器人，用户可依照自身交易需求和策略选择最适合的机器人。同时派网也提供合约交易与合约网格机器人，给予更方便的合约交易体验。