人工智能算法模型较少：一个算法模型搞定千万种场景

小君 2023-02-10 18:47:56 901

人工智能算法模型较少：一个算法模型搞定千万种场景要知道，在传统算法训练模式下，一般是“一套算法对应一个场景”，换个识别对象，就需要重头收集样本数据、开发训练了。仅需半个月，就可以完成模型训练并投入使用。还有流水线产品是否有瑕疵，公共场所人们是否戴了口罩，工人是否佩戴安全帽、后厨是否达到“明厨亮灶”、应急通道是否有违停车辆等生产、生活中常见的场景，也都已经在用AI来识别检测了。更让人意想不到的是，如上千差万别的场景，可以只用一个预训练大模型来搞定。而且不用收集大量样本数据集，零数据即可启动、小样本就能调优。

明敏发自凹非寺

量子位 | 公众号 QbitAI

不知不觉，AI技术的渗透，已经开始超出人们的想象。

去医院照个CT，都有AI作为双重保障，通过视频画面动作识别，确定病人在进入机器前已经得到有效保护。

还有流水线产品是否有瑕疵，公共场所人们是否戴了口罩，工人是否佩戴安全帽、后厨是否达到“明厨亮灶”、应急通道是否有违停车辆等生产、生活中常见的场景，也都已经在用AI来识别检测了。

人工智能算法模型较少：一个算法模型搞定千万种场景(1)

更让人意想不到的是，如上千差万别的场景，可以只用一个预训练大模型来搞定。

而且不用收集大量样本数据集，零数据即可启动、小样本就能调优。

仅需半个月，就可以完成模型训练并投入使用。

要知道，在传统算法训练模式下，一般是“一套算法对应一个场景”，换个识别对象，就需要重头收集样本数据、开发训练了。

这就导致一套算法上线，往往是几个月的长战线模式，背后需要投入很高的人力物力成本。

而在数字化改革的浪潮下，千行百业涌现出越来越多的细小场景，传统“一套算法对应一个场景”的算法训练模式遇到前所未有的挑战。

在此需求和背景下，用一个算法模型就能解决所有场景问题无疑是一剂解决问题的良方，那到底是谁率先拿出了可以“单挑”1000万个场景组合的预训练大模型？

又为什么会在此刻走入我们的视野？

AI 2.0时代开启，行业玩家技术路线已备好

这可以从基础设施、行业需求两个方面来解答。

首先在基础设施上，我国构建的视频大数据系统经比较完善。

目前，全国几亿台摄像设备，可以构成一个空前巨大的视频大数据库。

但是这些设备中，仅有20%是智能的。

这意味着收集到的海量数据，实际被应用的并不多。

而且其中的大部分算法，都集中在人脸识别、车牌识别等高频应用场景上。

在低频场景中能识别的对象非常少，准确性也不够高。

人工智能算法模型较少：一个算法模型搞定千万种场景(2)

与此同时，当AI发展步入深水区后，各行各业对于视觉识别的需求越来越高，碎片化场景扎堆涌现。

也就是第二方面影响因素——行业需求。

正如开头提到的诸多场景，如后厨、CT室、施工现场等，在数字化浪潮的驱动下，这些细小场景也都迫切寻求智能化支持，它们共同组成了一个占比80%的长尾场景。

问题在于，这些细小场景自身特点鲜明，很难用一个训练好的算法一网打尽。

比如后厨需要识别灶台上东西的摆放是否正确，工地则需要识别工人是否佩戴安全帽。在识别对象类型、物体属性、关系和行为上，这两个场景几乎没有共同之处。

如果使用传统的“烟囱式”算法平台呢？

可行性并不高。

可以用城市管理的场景举例说明。

它最大的特点就是碎片化，从马路牙子是否有破损、树木是否倒伏、车辆是否违停到窨井盖是否缺失等，几乎场景内每一个点，都是一个定制化需求。

如果使用传统算法模式，算法厂商需要根据每一个点来设计算法，单个算法的费用可能就会高达几十万。

而且还需要需求方自己去采集样本图片包，采集量少则几千，多则几万张。

然后算法公司才能拿着这些图片去训练算法，整个开发周期可能长达几个月，最后才能实现交付。

假如训练出的算法不够好，还要继续再次进行迭代，可能又要等一个多月的时间才能再次交付。

这样的时间成本、金钱成本，客户是难以承担的。

但与此同时，当AI发展步入深水区后，各行各业对于视觉识别的需求越来越高，碎片化场景在扎堆涌现。

人工智能算法模型较少：一个算法模型搞定千万种场景(3)

显然要解决这样的碎片化场景的应用，必须要寻找一条新的技术路线。

在这样的背景下，预训练大模型技术横空出世。

预训练大模型从根本上改变了人工智能的技术逻辑，意味着“作坊式”模式的终结，“AI工业化”模式的到来，是开启人工智能2.0时代的具有里程碑意义的技术变革！

人工智能1.0 时代，对每一个识别的场景（目标）都要训练一个对应的算法模型，每个模型的训练都要有大量的样本并标注，也就是“一套算法对应一个场景”。

人工智能2.0时代，通过海量数据进行预训练形成一个具有通识能力的大模型，以“大规模预训练﹢微调”范式满足多元化需求，也就是“1个模型适用N个场景”。

去年，随着美国Open-AI 公司的GPT-3预训练大模型的发布，海量数据预训练对算法能力的提升肉眼可见，从而在人工智能领域掀起一股热潮，俨然成为一个新的赛道。

联汇科技，从预训练大模型赛道上跑出来的一匹黑马。

联汇科技是国内最早自主研发大规模预训练算法模型的公司之一。

同时联汇科技还发布了首款基于视觉语言预训练大模型的OmVision视觉认知平台，为视觉智能产业提供了全新的AI视觉认知基础工具平台。

OmModel——业界领先的多模态预训练大模型

OmModel是业界领先的多模态预训练大模型。

它通过大规模自监督学习的多模态人工智能算法，融合语言和视觉模态理解，完成基于行业的亿级图片、万级视频、十亿级图文大规模预训练，实现用更小的标注样本数量，融合更多的模态信息，获得更为精准的视觉AI模型，从而实现了本文开头描述的一个模型应对千万种场景的超强能力。

OmModel预训练大模型提供了具有超强通识能力的解决方案，以“预训练大模型下游任务微调”的方式，有效地从大量标记和未标记的数据中捕获知识，解决模型通用性差的问题，极大地扩展了模型的泛化能力，使模型更加“融会贯通”、“举一反三”。

同时，随着数据规模和模型规模的不断增大，模型精度也将得到进一步提升。

联汇科技首席科学家赵天成博士表示：

高门槛、高成本一直是人工智能产业化落地的最大障碍。

而人工智能的最终目的是要能为百行千业赋能，这就要求人工智能的应用落地门槛要足够低，成本也要控制在合适的范围内。

现在我们找到了解决这个问题的钥匙，就是通过预训练大模型，重新定义算法的生产流程，用一个算法模型搞定千万种场景，解决大量碎片化应用场景的问题，让人工智能更易用，实现真正的普惠AI，用“普惠AI 行业”的融合创新赋能更多企业与用户。

OmModel预训练大模型是预先用海量多模态数据，通过自监督训练出一个对生活中大多数人、物、行为、属性等具有强大通识认知能力的认知模型。

OmModel预训练大模型目前具有20000多种目标、300多种属性、200多种行为的强大通识能力，到年底更可以达到50000多种识别目标。

而且它还具有强大的文字语言理解能力，我们可以通过文字描述，对拟识别的场景进行定义，通过目标、属性、行为三要素的灵活搭配组合，就可以生成千万种不同功能的算法应用；彻底打破了传统视觉识别算法“样本采集、样本标注、训练调参”的生产模式。

比如在城市管理的场景下，OmModel可以自动识别道路上几乎一切对象，树木、人、自行车、人的动作等都能搞定。

当我们要生成一个算法的时候，只要输入相应的文字描述即可。

如“骑自行车的男人”或者“道路上的垃圾”就可以马上生成相应的算法。

人工智能算法模型较少：一个算法模型搞定千万种场景(4)

而且，用预训练大模型，能够通过更少的参数量，实现和行业知名大模型同等或者更好的性能。

平均算法模型的识别精准度可以提高40%，而训练数据量可以降低90%。

开发周期由平均几个月缩短为几天，还可以拥有更快的推理速度，从而有效覆盖大量长尾应用场景。

OmModel技术的落地载体：OmVision视觉认知平台

赵天成博士告诉量子位：

基于OmModel预训练大模型技术，我们还进一步开发了OmVision视觉认知平台，OmVision是一个全新概念的‘0样本、0基础、0代码’的机器视觉基础软件工具平台，一般技术人员都可以用这个平台，来生产和运行视觉算法。

一般意义上的算法生产都是要由算法工程师来完成的，但由于算法的实际应用场景涉及千行百业，算法工程师对现场的需求理解往往不到位，造成了生产算法的不懂业务，懂业务的一线人员不懂算法的“死结”。

因此理想的办法最好是降低算法生产的专业技术门槛，让各个行业的一线人员自己来生产算法，从而彻底打开这个“结”。

OmVision视觉认知平台正是基于这一思路的大胆尝试。

OmVision视觉认知平台，彻底颠覆了传统“算法生产”和“算法应用”分离的方式，首次提出了“算法来自应用”的理念，重新定义了算法生产“三部曲”策略。

第一、0样本冷启动。
第二、小样本训练。
第三、线上调优。

具体来看，OmVision平台可分为Om Studio和OmVision OS两个部分。

OmVision Studio算法工厂是算法生产系统，提供基于预训练大模型的算法训练SaaS服务，为企业客户可提供低门槛的算法生产工具，该部分主要负责“三步曲”策略中的0样本冷启动和小样本训练。

让普通工程师免代码训练复杂算法，像乐高搭积木一样在工厂中按需搭建功能

OmVision OS是基于预训练大模型的视觉操作系统，实现算法的个性化线上调优，以及多场景视觉协同预测，并根据算法的需要，灵活高效地调度GPU算力资源，构建起高性能视觉识别运行平台，满足业务的需求。

简单理解，它能够让每个摄像设备都拥有智慧大脑，可以根据场景协同预测。

“三部曲”中的线上调优，主要就是通过这一系统完成。

它能依托大模型的通识能力，对每一路视频流信号进行协同判断和识别，极大提高算法的环境抗干扰能力。

还能根据实际场景对算法进行可持续的、针对性环境调优迭代，实现“用得越久、精度越高”。

同时，由于每个算法应用均基于大模型的认知能力，因此在OS上对每路流增加算法数量时，不会明显增加GPU资源消耗，可大幅度降低算法运行的算力成本。

部署方面，系统支持云端部署、弹性扩容、效果可视，支持视频接入标准、算法兼容标准、告警输出标准、交付验收标准“四个标准”，与第三方厂商视频云、算法服务低代码快速对接，实现和视频汇聚平台的有效融合。

那么这个OmVision到底凭什么实现了如此好的性能？其幕后打造者又是谁？

90后CMU科学家在杭州炼出OmVision

而该系统高效灵活开发应用部署的背后，离不开一个组合——

90后CMU博士行业资深厂商。

这里提到的厂商，是诞生于杭州的联汇科技。

或许名字看上去并不熟悉，但它其实从十多年前就开始深入音视频分析与处理行业，是业内经验丰富的资深玩家。

90后CMU博士赵天成，为联汇科技的首席科学家。

他曾多次担任国际顶尖会议和期刊的审稿人和区域主席，在国际顶级会议和期刊上发表论文30余篇，多次获得最佳论文奖，并且2018年获得微软研究院Best & Brightest PhD荣誉。

2019年，他于卡耐基梅隆大学获得计算机博士学位。

毕业回国后，他便作为牵头人，开启了OmModel预训练大模型的研发工作。

人工智能算法模型较少：一个算法模型搞定千万种场景(5)

实际上，OmModel预训练大模型的诞生，与赵天成博士个人在学界、产业界多年的观察有着千丝万缕关系。

要知道OmModel的筹备，最早可以追溯到2019年。

那一年BERT刚刚提出，学术界大佬们都在专注实现更强自然语言理解能力的语言大模型研究。

而这时的赵天成已经意识到，预训练大模型，或许不必局限于一种数据模态类型，而且大模型带来的影响力也远远不止自然语言处理的突破，

作为多模态与人机交互领域的资深学者，他想到这一点其实并不稀奇。

早在2016年，赵天成同导师Maxine Eskenazi教授发表的《Towards end-to-end learning for dialog state tracking and management using deep reinforcement learning》是最早利用深度学习打通自然语言模态与数据库模态的工作之一，当年获得最佳论文奖。

2018年后，他便开始接触视觉语言预训练大模型方面的研究，提出了包括多模态视觉对话系统、大规模稀疏向量视觉语言匹配算法等一系列成果。

后面随着大模型风潮逐渐兴起，赵天成意识到，如果将自然语言与视觉理解结合起来，那将颠覆以往计算机视觉领域的应用方式，让AI 机器视觉从视觉感知迈向视觉认知。

这是我们看到的一个巨大机会。

赵天成想到：一旦实现了视觉认知能力，让机器像人一样拥有了认知万事万物的能力，并能用文字语言来定义和关联视觉场景，就能解决我们现在的很多问题。

比如怎样在一万个小时的新闻联播素材中，找到撒贝宁在天安门前采访群众的片段？

怎么从摄像头实时视频信号中，快速定义需要识别的目标？

要实现这样的视觉认知能力，就需要用海量音、视、图、文等多模态数据来进行训练，构建一个大规模多模态预训练模型。

顺着这样的思路，赵天成率领团队开始了多模态数据分析算法的研究。联汇科技的OmModel视觉语言预训练大模型，也在这样的契机下应运而生。

走在人工智能2.0变革前列

当前，我们正处于人工智能从1.0时代迈向2.0时代的关键时代转折点。

OmModel预训练大模型在数字安防、工业视觉、自动驾驶、医学影像、虚拟现实、新一代视频会议终端、数字文娱等场景的圆满落地，构成了OmModel丰富的应用层。

随着机器视觉等更多关键核心技术突破和特定应用场景融合加速，在城市大脑、智能制造、智能家居、智慧交通、智慧旅游、智慧教育等领域的泛在通用场景的规模化落地，也只是时间问题。