数据标注基本要素(入行数据标注必须要了解到相关基础知识)
数据标注基本要素(入行数据标注必须要了解到相关基础知识)2.图形文件多以.png、.jpg、.gif结尾;1.办公软件中的Word文件.docx,PPT文件.pptx,Excel文件.xlsx;每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式对于硬盘机或任何电脑存储来说,有效的信息只有0和1两种,所以电脑必须设计有相应的方式进行信息-位元的转换。对于不同的信息有不同的存储格式,文件格式也意味着文件的用途我们日常常用的扩展名有哪些
做数据标注的你,和即将从事这个行业的大家,是不是都有遇到过文件打开是乱码、文件后缀不常见,提示没有应用软件可以打开……一系列的问题呢?
特别是刚进入数据标注这个行业,或者是平时不太玩电脑对计算机了解较浅的小伙伴们,是蒙圈不知道该如何处理,今天呢,砸门就梳理一些关于数据标注文件格式的基础知识,作为新手的你一定要了解一下哟
文件格式
文件格式(或文件类型)是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。
每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式
对于硬盘机或任何电脑存储来说,有效的信息只有0和1两种,所以电脑必须设计有相应的方式进行信息-位元的转换。对于不同的信息有不同的存储格式,文件格式也意味着文件的用途
我们日常常用的扩展名有哪些
1.办公软件中的Word文件.docx,PPT文件.pptx,Excel文件.xlsx;
2.图形文件多以.png、.jpg、.gif结尾;
3.音乐和视频文件则是.mp3、.mp4、.wav、.wmv;
4.文本.txt;
windows环境下的可执行文件.exe
对于这些扩展名大家习以为常,并不觉得奇怪,那么在数据标注的过程中,我们可能会遇到哪些文件格式呢?
文本标注
通常较为常见的文本标注文件格式是txt、xlsx这个两种格式,具体的要看自己当时做的项目数据方的一个要求,来进行后缀就行了
图像标注
图像标注涉及计算机视觉、机器视觉....等技术,所以格式种类相对更丰富一些,较为常见的有:bmp jpg png tif gif pcx tga exif fpx svg psd cdr pcd dxf ufo eps ai RAW WMF webp等。其中用得最多的就是bmp、jpg、png了
当然标注完之后还是需要根据数据的需求制定特定的数据输出格式,或者某一项标注工具下指定的标注格式,例如下图这几种标注工具,导出的数据格式各有不同
音频标注
无损格式:例如WAV、FLAC、APE、ALAC、CDA
有损格式:例如MP3、AAC、Opus
所以我们在标注的时候使用的原始数据WAV格式也会多一些。其标注的结果文件除了上面通用的标注文件格式外,还有用Praat软件标注的后级名为“TextGrid”的文件,它是一种“分段”文件,详细记录了语音的总时长、每一个标注层内所有标注区间的时长及标注内容等信息
视频标注
视频数据标注任务的数据结果可包含视频标签的时间位置、空间位置和标签信息等内容。不同标注任务和要求会产出不同的结果,但不影响定义数据格式及其组成部分。
标注文件的输出格式推荐使用易解析、易存储的数据格式, 包括JSON、XML等
医疗标注
影像数据(CT/DR)
RAW,裸格式:就是最原始的图像,没有经过任何处理,拍出来是什么样就是什么样;
BMP格式:BMP不压缩,可以任意选择图像灰度深度或图像位数;
DICOM格式:DICOM是一种统一的兼容各种CT MRI PET等医学影像的图像存储方式;.dcm文件就是遵循DICOM标注的一种文件。
DICOM标准支持的设备包括心电图、核磁共振成像、心血管、超声心动图等多种医疗社保,因而DCM文件被广泛应用于医疗行业。一张CT片子对应多个.dcm文件
病理切片
.jpg格式,如果是一张病理切片如果被切分成.jpg格式的图片通常会被切成少则几十张多则几百张的图片
tif格式
这是一种灵活的位图格式,其数据格式是一种3级体系结构,内部结构可以分为三部分:文件头信息区、标识信息区和图像数据区
以上就是目前数据标注涉及到的文件格式,即后期AI训练师在数据处理中必须要了解到的基础知识,下次我们接着分享大家必须要知道的基础知识还有哪些`