全球首个全模态大模型来了（多模态大模型初现）

小君 2023-10-04 03:53:56 485

全球首个全模态大模型来了（多模态大模型初现）首先解释一下，我个人从事的是自然语言处理和机器翻译相关的研究。大模型来了之后，实际上从2020年GPT-3出来之后，我就参与了自动化所发起的多模态大模型项目，我主要负责语言这一块。今天我作为一个参与者，跟大家分享一下自动化所大模型相关的情况。大家上午好！我是自动化所张家俊。“紫东太初”是中科院自动化所团队推出的全球首个千亿参数多模态大模型。张家俊称，这一模型支持Token级别、模态级别与样本级别的多任务自监督学习，多模态弱关联数据在512卡训练128天，同时实现模态理解与模态生成统一建模。“紫东太初”支持以文搜图、以图生音、以音生图等跨模态检索与生成实例，比如输入一个真实图像，紫东太初就能生成个性化的3D形象。目前，团队已推出了紫东太初开放服务平台1.0、紫东太初·洛神1.0 AIGC智能生成平台，并整合产学研用各方资源搭建人工智能开源开放生态，探索通用人工智能产业化路径。以下为张家俊的演

全球首个全模态大模型来了（多模态大模型初现）(1)

智东西

编辑 | GTIC

智东西4月10日报道，在刚刚落幕的GTIC 2023中国AIGC创新峰会上，中国科学院自动化研究所研究员&博士生导师、武汉人工智能研究院副院长张家俊进行了主题为《紫东太初大模型——认识世界，理解世界》，基于“紫东太初”大模型，他解读了其是如何整合资源、并进一步探索通用人工智能产业化路径的技术奥秘。

张家俊谈道，深度学习预训练大模型效果不断提升。当下，通过自监督学习条件下“大数据大模型”方式，多模态大模型初现“多专多能”，在小样本学习、自然语言问答、跨模态生成等方面快速进步。大模型带动了创新潮，但其能耗和成本极高，认知能力与人相比仍有很大差距。

“紫东太初”是中科院自动化所团队推出的全球首个千亿参数多模态大模型。张家俊称，这一模型支持Token级别、模态级别与样本级别的多任务自监督学习，多模态弱关联数据在512卡训练128天，同时实现模态理解与模态生成统一建模。“紫东太初”支持以文搜图、以图生音、以音生图等跨模态检索与生成实例，比如输入一个真实图像，紫东太初就能生成个性化的3D形象。

目前，团队已推出了紫东太初开放服务平台1.0、紫东太初·洛神1.0 AIGC智能生成平台，并整合产学研用各方资源搭建人工智能开源开放生态，探索通用人工智能产业化路径。

以下为张家俊的演讲实录：

大家上午好！我是自动化所张家俊。

首先解释一下，我个人从事的是自然语言处理和机器翻译相关的研究。大模型来了之后，实际上从2020年GPT-3出来之后，我就参与了自动化所发起的多模态大模型项目，我主要负责语言这一块。今天我作为一个参与者，跟大家分享一下自动化所大模型相关的情况。

一、大模型正在从单模态有监督，迈向多模态自监督学习

大模型出现之前，基本上模型的能力都是单一的，而且需要依赖于大量的标注数据，而且泛化能力非常差。

大模型来了之后，基于其大的数据、大的模型，很多种比如自然语言处理、语音识别、计算机视觉等任务得到了非常大的改善。我们现在也会发现，模型参数量也在不断提升。我们不知道GPT-4是多少参数量，但肯定是千亿以上，不会比ChatGPT还少。

不管是图像还是文本，单一模态大模型采用的是非常好、非常自然的训练目标，也就是自监督训练，图像我们可以通过重构方式，文本可以通过下一个单词预测的方式。而现实世界是一个多模态环境，在多模态环境当中又该如何去进行训练或者设计它的目标？另一方面，多模态环境下如何从之前的“一专一能”方式过渡到“多专多能”的模型或者框架，现在实际上很多认知能力与我们期待的还很遥远。

正如刚才提到的，一方面从文本到多模态实际有很多挑战，但是我们生活在这样一个多模态的环境当中，所以我们有必要去进行探索。

全球首个全模态大模型来了（多模态大模型初现）(2)

因此，当2020年GPT-3发布之后，我们就认为多模态必将是一个未来的方向，我们现在也看到GPT-4已经可以处理图文输入和理解输入。

二、具备部分类脑特性，初现“多专多能”

我们当时在做的时候，就一直在考虑应该如何设计，将不同模态放在一个模型下面进行学习。我们提出了三个层级的多模态训练方式，比如从词源token级别、模态级别与样本级别，我们也提出了语义弱关联多模态学习方式，这样就可以进行多模态理解和跨模态相互生成，进而完成各种各样跨模态的任务，多模态的理解、分类，跨模态的检索，多模态之间的相互转换生成。

这些是可以完成的功能，那么具体来说，我们如何去实现的？

右下角可以看到，它不是像GPT这种的单一解码器（Decorder），我们发现如果你的数据特别多、模型特别大的时候，像GPT-3.5或者GPT-4可以对文本数据和图像数据进行统一融合。

全球首个全模态大模型来了（多模态大模型初现）(3)

但是当模型没有那么大，我们可能考虑模态之间融合时就需要设计不同的策略。

所以当时我们提出了对不同的模态进行分别编码，同时在上一层设计一个跨模态编码。其余各自的模态比如文本模态、图像模态、语言模态分别有一个解码器。

这样的模式看起来像是一个集成模型，但是它有一个非常好的地方是你可以通过不同的模态进行分别优化，且不影响其他模态的功能。我们针对此做了一些优化，语言方面，我们可以直接优化语言底部的解码器，不影响文本和图像的分辨结果。

多模态的通用模型针对任何任务的处理方式都相同，但实际上不同的任务应该有针对性地去处理。因此我们提出了任务感知的训练方式。如果大家用过ChatGPT就会发现，不同的提示会产生不同的结果。那么，我们能不能针对不同的样本生成合适这个样本的提示？所以我们生成一个样本级的提示学习方式，可以面向特定样本生成适应这个样本的提示。

在语音层面，我们可以只优化语音，例如将语种识别、端点检测各种语音相关的功能融合在一个任务下，同时语音的优化又不影响文本、图像，优化之后可以得到语音方面非常好的结果。

在视觉方面也是一样。例如针对视觉如何进行无监督学习，我们提出了视觉掩码自监督模型，一方面是通过注意力动态掩码保留关键区域，第二步通过解码恢复掩码，和语言里面的BERT非常相似。

全球首个全模态大模型来了（多模态大模型初现）(4)

经过这样简单的操作之后，我们就可以在很多任务上得到最好的性能，比如在目标检测和实例分割上，就可以超越任务特定的预训练模型精度。

在不同的模态仿真训练中，当模型特别大时，有模态信息，还有大量参数，如何保证它快速、稳定地学习是非常关键的因素。因此，我们在这种学习过程中提出了一些方案，例如基于空间通道稀疏化的多模态大模型，这种方案可以将空间信息和通道信息分割开来，就可以得到优化20%到35%的浮点运算。

此外，在稳定性方面，我们在训练时发现当批处理变得特别大之后，学习率的线性尺度原则就会失效。针对这个问题，我们提出了周期性矩衰减优化的方案。学习率通过逐层动态调整，周期性清零梯度信息，摆脱历史梯度影响，从而加速网络快速收敛。收敛的速度相比之前能提升30倍。

这样的方法一方面可以保证训练的快速，另一方面保证训练的稳定性。

很多时候，当我们在国产化的平台上训练，比如基于昇腾多维混合并行的训练，很多时候我们会和昇思MindSpore共同研发，因为2021年，MindSpore的很多功能没有十分完善，在其对大模型的较好支持下，我们在训练时可以在这个基础上去不断优化算子。

同时，大模型在预训练阶段学习到了很多先验的知识，这些先验的知识对于长尾现象有很多辅助作用，比如可以将其迁移到长尾数据集，可以更容易学习尾部的图像类别特征表述。

经过文本、语音、视觉上的针对性优化之后，我们很多千亿三模态大模型在跨模态检索、视觉问答、图像语义描述等上实现非常好的性能，这些任务在2021年基本达到了State-of-the-art（最高水准的）。

例如在2021年，基于预训练模型的视觉描述竞赛中，紫东太初大模型得到第一名，并且在大规模视频场景理解比赛中也获得第一名。

下图是一些案例，我们训练多模态大模型之后会产生一个什么样的结果。

全球首个全模态大模型来了（多模态大模型初现）(5)

刚才我们提到不仅有文本、图像，我们知道目前大多数呈现出来的是文生图或图片、文本之间的模型，那么我们把语音加进去，可以直接让没有声音的图片和视频生成语音播报。例如，一个没有声音的图像或者视频可以直接生成一键语音播报。这看起来似乎是直接从图像到文本再到语音，实际上我们跳过了文本环节，直接由图像或者视频生成语音，也可以由语音生成图像，或者由语音生成视频。

以文生图为例，很多模型都有这样的能力，这里简单展示一下我们也有这样的能力，可以生成风格多变的文生图能力。

我们从2020年10月开始做这件事情，2021年7月发布了第一版多模态大模型。2022年，“紫东太初”获得大规模预训练模型优秀应用案例奖，中国算力大会先锋案例奖，以及世界人工智能大会SAIL奖，也是世界人工智能大会的最高奖。

三、打造开放服务平台1.0，一键完成采集、训练、部署

刚才介绍了多模态大模型的研制过程和各个模态针对性的优化，以及优化之后能达到的水平。当达到这个水平之后，我们希望基于此开发一套服务平台，让这样的模型能够服务于千家万户，让多模态模型的利用和部署变得非常简便。

因此，我们依托紫东太初大模型，开发了紫东太初服务平台，现在是1.0阶段。我们希望这个服务平台能够一键完成数据采集、模型训练到模型的部署。这样的话，可以大幅节省人力，从几个月的训练时间缩短到几天、一周的训练时间。

全球首个全模态大模型来了（多模态大模型初现）(6)

有了智能化的标注平台，用户不仅可以在上面进行标注，而且可以根据模型来不断迭代。有了模型之后，我们可以根据训练模型来发现还需要标注哪些样本，通过这样的主动学习，可以加快数据的标注过程。

为了实现一键微调，开发者可以选择各种各样的开发工具，可以选择主流的开发平台，也可以选择异构资源的统筹，我们可以统筹如昇腾、GPU等各种异构算力，同时可以支持分布式训练，并且训练过程还可以可视化。我们支持可视化建模、交互式建模、自动学习、自定义任务等的可视化。

对于一键部署，这个平台可以覆盖数据的搜集、模型的训练再到模型的部署。实际上就是说，我们可以先导入训练任务，然后再把本地的数据或者相关的信息进行导入，最后选择相关的模型再进行微调，就能得到最终适应用户目标或者任务的应用部署。

全球首个全模态大模型来了（多模态大模型初现）(7)

并且这一服务平台里有很多语音、文本、图像、视频的算法库，不需要用户进行训练，可以直接拿来集成使用。

在这个平台上，我们最近开发了洛神1.0图文生成平台。洛神1.0可以替代传统的数字生成技术，实现数字人的快速批量生成。它可以完成自动驱动和用户之间互动，能够帮助用户完成数字人的自动化生成。

下面是一个例子，比如它可以进行个性化虚拟人生成。开发者选择一个形象之后，就可以通过语音方式驱动生成视频。而且可以按照自己的需求自定义，选择一个形象之后，你可以将其变成三维形象，再选择其它的形象进行融合，将文本或者需要生成的内容输入进去之后就会按照你的需求进行相应的生成。现在数字人进行简单的播报越来越真实化。

全球首个全模态大模型来了（多模态大模型初现）(8)

在算法研究、模型开发和平台研制基础上，我们在推动多模态产业联盟的成立，目前在紫东太初框架下面有41家成员，我们希望整合产学研用各方资源，来打造多模态人工智能行业应用，希望探索通用人工智能产业化的道路。

四、已应用于医疗、文旅、公益等，打造差异化AGI道路

我们为模型打造了开发开放平台，同时我们已经用这样的模型在各种各样的下游任务当中得到了非常好的应用，比如在智慧医疗、社会公益、智慧文旅等方面已经有了各种各样的应用。

这里面因为时间关系就不一一介绍，我介绍其中的一个应用，就是手语教考一体机。

这是一个非常有意思的应用，例如《新闻联播》、《新闻30分》节目的右下角都会有手语形象，但很多时候聋哑群体或者听障群体会有歧义，没办法知道手势代表什么意思，那如果我们给出手势的同时给出多模态的图像视频展示，这样立马就能够让听障人士感知到并快速发现他应该在说什么，在表达什么样的含义。这样多模态的应用是非常有意思，也是非常好的方面。

全球首个全模态大模型来了（多模态大模型初现）(9)