快捷搜索:  汽车  科技

数据标注是怎么形成的(数据标注的价值并不是数据标注)

数据标注是怎么形成的(数据标注的价值并不是数据标注)在工业4.0中,有这样一段解释——利用物联信息系统(Cyber—Physical System简称CPS)将生产中的供应,制造,销售信息数据化、智慧化,最后达到快速,有效,个人化的产品供应。同时包含了由集中式控制向分散式增强型控制的基本模式转变,目标是建立一个高度灵活的个性化和数字化的产品与服务的生产模式。数据标注的所有项目都可以不受时间、地点限制,只需一部手机,足不出户即可完成。这是数据标注最大的特点,所以很多三四线城市才默默参与了进来。数据标注工作流的价值众所周知,数据标注工作流有两大非常显著的特点:随性和精细化。(1)随性

自数据标注以“足不出户,一部手机就可在家轻松赚钱”出圈后,数据标注早已占据了资讯的半壁江山。

但数据标注的价值,你可知是什么?

“基于数据标注的数据标注价值”,乍一看好像政治老师的口吻。但为什么是基于数据标注的数据标注价值呢?数据标注只作为“数标全体系”中的一个环节,它还有什么价值呢?今天小编就从三个方向和大家交流探讨一下。

01

数据标注工作流的价值

众所周知,数据标注工作流有两大非常显著的特点:随性和精细化。

(1)随性

数据标注的所有项目都可以不受时间、地点限制,只需一部手机,足不出户即可完成。这是数据标注最大的特点,所以很多三四线城市才默默参与了进来。

在工业4.0中,有这样一段解释——利用物联信息系统(Cyber—Physical System简称CPS)将生产中的供应,制造,销售信息数据化、智慧化,最后达到快速,有效,个人化的产品供应。同时包含了由集中式控制向分散式增强型控制的基本模式转变,目标是建立一个高度灵活的个性化和数字化的产品与服务的生产模式。

这和数据标注流程是不是很相似?

(2)精细化

数据标注作为数据处理中的一项,对精准度有着要求。

另外,工作时间和所获结果也是衡量数据标注的量子之一。完美结果的呈现自然与时间的输出是呈正比的,一旦环节工作出现问题,自然会导致时间的倍增。所以,精细化管理对于数据标注“公司”相当适用。

如果把数据标注做为一个变量,基于数据标注工作流模型的应用场景则会更多。

例如我们目前看到的基于人为主体的灵活用工平台、基于任务匹配的任务分发平台、基于信息共享的众包平台等等都是其模型演变的一种,其核心都是利用技术手段基于工作流改变的生产模式创新。而我个人认为数据标注的规模化是在线非标任务模型非常好的应用场景。

02

数据标注需求流的价值

数据标注需求流具有两大特点:项目需求迭代快和需求对应唯一的结果。

(1)项目需求迭代快

项目需求更新迭代是必然的。

从AI训练的角度来说,数据标注需求迭代的特点应该是——训练初期迭代最快,项目中期迭代相对较慢,项目末期迭代较快。

但是项目初期迭代快一般不会全部体现到数据标注的服务商身上,目前大部分的服务商无法开始有效的给出有建设性的意见,所以这部分一般都会AI公司内部在需求确认阶段迭代完,中期需求针对场景化数据大量产出数据进行AI训练需求的相对大量的聚合标签的数据,所以数据就会在已确定的需求范围内进行快速生产,而AI开发末期更多的是需要未覆盖到的场景数据进行再次补充标注,这个可以参看对抗神经网络的一些文章进行理解。所以整体来说数据标注项目需求唯一不变的应该是不断迭代的需求。

(2)需求对应唯一的结果

对于数据标注需求的描述更多的是以点盖面的方式,而对于单一的数据来说就必然有唯一的结果进行对应。

基于以上两点,对于数据标注服务商来说最大的优势就是经历过非常多的完整或不完整的需求流,这些数据标注的需求流的积累沉淀应该是最大的优势,并且应该体现在两个方面的积累上,一是人员积累,二是需求中的知识结构积累。

我个人的感觉目前数据标注服务商对人员积累很重视,但是对自己做过项目的需求流知识结构的积累重视度不够,而对于公司的价值恰恰体现在对于知识结构的积累和建立上。基于数据标注需求流的知识结构的建设也是可以AI数据服务解决方案的关键,作为AI模型生产的基础也至关重要。

03

数据标注资金流的价值

2020年4月9日国家发布的《关于构建更加完善的要素市场化配置体制机制的意见》中提到,“加快培育数据要素市场”,发挥数据要素核心价值,拘谨数据要素融通,鼓励和引导数据要素市场主体共享、开放与民生紧密相关的数据资源,依法展开数据交易活动,发掘数据要素商用政用民用价值。

目前要依法实现数据要素交易活动其实难度挺大的,在非结构化数据确权上难度依旧不小。而数据标注服务商所产生的资金流来源数据采标注项目,其产生的数据服务的价格体系模型可以作为很好的参考依据。对各维度数据的分类分级等等因素的探索都有着先天优势。

所以,综上看,数据标注的价值还仅仅只是数据标注么?


(部分内容来自网络,如有侵权,请联系删除)

数据标注是怎么形成的(数据标注的价值并不是数据标注)(1)

西安三元园区运营管理有限公司是国内专业的第三方园区运营机构,专注于城市产业研究与规划、园区招商引资策划与实施、第三方园区运营与管理。目前已实现在“专业TO G服务、物业服务、工程服务、商业服务、产业服务”等领域的生态赋能。未来,三元公司将依托专业产业园区运营能力,以更高标准为城市发展赋智能、赋资能、赋产能




猜您喜欢: