网站首页 > 教程文章 正文
之前我们已经系统地讲述了数据来源、数据采集,今天我们将开展第三篇内容,数据清洗。
01
数据清洗是什么
数据清洗,顾名思义,就是重新检查和验证数据的过程。其旨在删除重复信息,纠正现有错误并提供数据一致性。换言之,即为将“脏数据”替换成“高质量可用数据“的过程。
毕竟,数据清洗作为数据预处理中最重要的一环,清洗后的数据质量在很大程度上决定了后续数据分析的结果准确性。
02
数据清洗方式有哪些
明确了数据清洗的重要性,接下来我们就要确定需要被清洗的对象。
数据清洗的对象按照类型可将其分为可避免型脏数据和不可避免型脏数据。
1.可避免型脏数据
可避免型脏数据,就是这类脏数据可以通过简单处理后,成为有效数据;或者通过人为修改而避免成为脏数据的数据。
这类脏数据在日常生活中较为常见,比如拼写错误、表格中的“隐形”字符串、命名文档时不小心删去了“.”而导致的错误、输入数值时导致的错误等。
以下表格是一张土地利用的表格,其中框起来且带有绿色小标的内容,就是因输入不当而导致的错误。
了解了此类脏数据的类型后,如何及时对此类“可修正”的数据错误进行修正才是重点。以excel为例,我们可以通过筛选功能进行查看。通过“筛选”,很容易就能将错误数据筛出来。
2.不可避免型脏数据
不可避免型脏数据,主要形式包括重复值、、异常值、空值等;此类脏数据的处理,就需要联系一些统计学知识进行侦察与填补,下面还是举一些具体例子进行阐述。
a.重复值
在拿到一份数据集后,为判定数据准确性,先要进行筛选校验,是否存在重复数据。删除重复数据,有利于后期统计,并提升数据集的精准性。
b.异常值
异常值,顾名思义即为数据集中某个数据与其他数据差距较大,或是不属于同一类型。
c.空值
针对空值而言,我们需要考虑的角度就比较多,是删去这列数据,还是折中取平均数等方式保留数据,要依情况而定。
如:该列数据一半及其以上皆为空值,则要从数据集的目的出发,是否删去这列数据;如该列数据空值小于一半、且样本数据够多,则可以删去这些数据;如空值小于一半,但是样本数据也较少,则使用均值对空值数据进行填充。
数据清洗本不难,却需要足够多的耐心与细心。
好了,本期内容就到这里,如果还想了解更多数据标注相关内容,关注【三元园区】,为您带来更多资讯。
猜你喜欢
- 2024-12-22 数据库脏读、脏写、不可重复读和幻读的区别
- 2024-12-22 一文带你轻松搞懂事务隔离级别(图文详解)
- 2024-12-22 知识分享之医院信息集成平台 医院信息系统集成平台建设的目的
- 2024-12-22 你了解数据清洗的三大问题是什么吗?
- 2024-12-22 Excel 4类数据清洗函数,从此数据分析不再惧怕!
- 2024-12-22 什么是脏读、不可重复读、幻读? 脏读幻读不可重复读区别
- 2024-12-22 调查问卷中的脏数据是什么?怎么清理?
- 2024-12-22 Power Query中如何处理脏数据? powerquery能处理数据量
- 最近发表
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- md5 sha1 (32)
- mybatis plus page (35)
- semaphore 使用详解 (32)
- update from 语句 (32)
- vue @scroll (38)
- 堆栈区别 (33)
- 在线子域名爆破 (32)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)