标注平台数据科学家吴昊(标注平台数据科学家吴昊)
标注平台数据科学家吴昊(标注平台数据科学家吴昊)无监督学习与迁移学习数据质量大家好,我叫吴昊。本科毕业于上海交通大学,研究生毕业于纽约大学。我之前做过两年左右的算法研究工作,我们公司 BasicFinder 平台主要提供一些数据方面的服务,包括采集、标注、清洗、其它别的加工等等。我今天分享的主题是AI数据面面观。下面是今天分享的目录,分为四部分:数据规模
雷锋网 AI科级评论按,深度模型在机器学习很多领域都取得了巨大成功,但也对算法的原材料训练数据提出了更多的要求。对于研发高水平的算法,数据的高质量采集、清洗、处理等等对算法效果会有直接影响。
在近期雷锋网 AI研习社的线上分享会,来自 BasicFinder 标注平台的数据科学家吴昊为大家介绍了数据规模、数据质量等与深度学习算法之间的关系,以及为算法做数据准备的一些经验。
吴昊,本科毕业于上海交通大学,硕士毕业于纽约大学,现任 BasicFinder 标注平台数据科学家,专注于数据众包策略研究、深度学习模型数据采集与标记方案咨询及优化。
分享内容:
大家好,我叫吴昊。本科毕业于上海交通大学,研究生毕业于纽约大学。我之前做过两年左右的算法研究工作,我们公司 BasicFinder 平台主要提供一些数据方面的服务,包括采集、标注、清洗、其它别的加工等等。我今天分享的主题是AI数据面面观。
下面是今天分享的目录,分为四部分:
-
数据规模
-
数据质量
-
无监督学习与迁移学习
-
做算法研发在数据准备方面的注意事项
数据规模
先看数据规模,数据规模与算法模型的容量其实是比较相关的。算法模型的容量越大,就意味着算法能表示相对来说更复杂的关系。
当数据规模相对过大时,在训练过程中容易产生欠学习(underfitting)。另一方面,在数据规模相对过小的情况下,就会产生过学习(overfitting)。
近年来流行的深度学习模型可以拥有非常大的容量,模型中普遍用的神经网络算法,层数可以增加,每层神经元个数可以增加,那么模型的表达能力也会增加。下图是一个例子。此外学术界也会做一些新的研究来增加模型的表达能力。另一方面得益于GPU,比较复杂模型的训练也会比以前快很多。
现在有一个问题,数据更多的话效果就会更好,那么究竟有多好呢?Google的一遍论文解决了这个问题。
这个数据集是ImageNet的两百多倍。随着数据集里样本数量的增多,在COCO上的结果比用之前的数据集至少高出三个点,而在算法的其他方面都没有太多变化。可以看到数据规模的增大对算法的效果提升还是比较明显的。
在工业界,数据规模更容易成为算法研发的关键因素。如果有更多的数据,就可以使用容量更大、更复杂的模型,得到效果更好的算法。当数据大到一定程度,数据和算法之间可以进行反复迭代,形成壁垒,为公司提供竞争力。
数据质量
数据质量会影响算法效果。
对于质量一般的数据,比如经过爬虫得来的数据,经过清洗、处理后,算法效果会有明显提升。如果数据质量已经很高了,再去提升数据质量,算法效果的提升比较有限。
另外还要考虑到成本和收益的权衡问题:想获得质量更高的数据,成本也会更高。
接下来讲一下对数据质量的评估。数据质量评估主要包括两个方面,一是原始采集数据质量,二是数据标注质量。
下面是对原始采集数据质量的评估:
-
图像、视频:分辨率,清晰度,光照,色彩等
-
语音:清晰度,背景音等
-
文本:是否自然语言,是否专业,与主题相关性等
下面是对数据标注质量的评估:
-
标注正确率(类别数据)
-
标注精确度(坐标、时间点、个数、文字等)
-
标注完备性(是否漏,是否重复)
-
标注一致性(前后规则是否一致)
人工标记的大规模数据一般都会含有噪声,一些经典数据集也含有噪声,例如人脸LFW、MS COCO等,这是不可避免的,不过在可以接受的限度内就行。
无监督学习与迁移学习
接下来谈一下无监督学习与迁移学习,迁移学习已经有一个比较大的数据集作为基础了,再用人工标注一小部分新数据。
对于无监督学习,基本上不需要人工标注,主要是学习数据本身的分布特性。比如说聚类算法,就是试图找出数据集中分布的中心,所以不太需要人工标注。
目前工业界相对来说比较好的结果还是通过监督学习而来,很多都需要大量人工标注的数据。无监督学习和迁移学习在未来还是有待学术界研究,以望更大的突破。另外,在未来数据规模进一步提升的情况下,无监督学习和迁移学习会有更多的用武之地。
数据准备方面的一些经验
最后介绍我们在开展业务中的一些经验。
数据准备最开始是数据获取,数据的获取也分为几种情况,比较常见的是互联网公开获取(公开数据集、爬虫等),除此之外还有专业数据采集。在专业数据采集时,需要考虑采集方式:一是采集内容、采集规模、预算;二是采集过程要尽量与实际使用场景相一致;三是要考虑对数据集的要求,比如多样性;四是采集是否涉及隐私、个人权利如肖像权、著作权等。
最后还有采集时间的要求。
然后是数据清洗。采集来的数据很多都需要清洗,例如爬虫、监控视频等。
数据清洗之后就要进行数据标注,标注的规则要尽可能地详尽、清楚,需要给出文档和例子。专业的标注过程,一般有试标阶段,这个阶段需要详细了解并确定需求。此外,在试标和正式标注过程中也会遇到不确定的情况,需要及时进行沟通,否则可能会影响到整体标注质量。
对于数据标注的方式,以及最终的输出格式,都需要算法研发人员来制定,有可能的话还是尽量使用常见的方式和格式。
数据标记完之后就是数据审查。做审查主要参考对数据质量的要求(正确率、精确度、完备性、一致性等)。审查方式有抽查、排查特殊指标、利用某些特征排查异常值这几种。
结论如下:对于算法来说,数据越多越好、越广越好、越准越好。在现有的情况下,监督学习的效果优于无监督学习/迁移学习。
雷锋网 AI科技评论。