网站首页 > 教程文章正文

一文读懂数据标注(三):数据清洗数据标注是干什么的呀

jxf315 2024-12-22 19:04:51 教程文章 103 ℃

之前我们已经系统地讲述了数据来源、数据采集，今天我们将开展第三篇内容，数据清洗。

数据清洗是什么

数据清洗，顾名思义，就是重新检查和验证数据的过程。其旨在删除重复信息，纠正现有错误并提供数据一致性。换言之，即为将“脏数据”替换成“高质量可用数据“的过程。

毕竟，数据清洗作为数据预处理中最重要的一环，清洗后的数据质量在很大程度上决定了后续数据分析的结果准确性。

数据清洗方式有哪些

明确了数据清洗的重要性，接下来我们就要确定需要被清洗的对象。

数据清洗的对象按照类型可将其分为可避免型脏数据和不可避免型脏数据。

1.可避免型脏数据

可避免型脏数据，就是这类脏数据可以通过简单处理后，成为有效数据；或者通过人为修改而避免成为脏数据的数据。

这类脏数据在日常生活中较为常见，比如拼写错误、表格中的“隐形”字符串、命名文档时不小心删去了“.”而导致的错误、输入数值时导致的错误等。

以下表格是一张土地利用的表格，其中框起来且带有绿色小标的内容，就是因输入不当而导致的错误。

了解了此类脏数据的类型后，如何及时对此类“可修正”的数据错误进行修正才是重点。以excel为例，我们可以通过筛选功能进行查看。通过“筛选”，很容易就能将错误数据筛出来。

2.不可避免型脏数据

不可避免型脏数据，主要形式包括重复值、、异常值、空值等；此类脏数据的处理，就需要联系一些统计学知识进行侦察与填补，下面还是举一些具体例子进行阐述。

a.重复值

在拿到一份数据集后，为判定数据准确性，先要进行筛选校验，是否存在重复数据。删除重复数据，有利于后期统计，并提升数据集的精准性。

b.异常值

异常值，顾名思义即为数据集中某个数据与其他数据差距较大，或是不属于同一类型。

c.空值

针对空值而言，我们需要考虑的角度就比较多，是删去这列数据，还是折中取平均数等方式保留数据，要依情况而定。

如：该列数据一半及其以上皆为空值，则要从数据集的目的出发，是否删去这列数据；如该列数据空值小于一半、且样本数据够多，则可以删去这些数据；如空值小于一半，但是样本数据也较少，则使用均值对空值数据进行填充。

数据清洗本不难，却需要足够多的耐心与细心。

好了，本期内容就到这里，如果还想了解更多数据标注相关内容，关注【三元园区】，为您带来更多资讯。