网站首页 > 教程文章 正文
Excel作为数据分析最常用的工具之一,在实际的操作中也有很多的技巧。
顾名思义,数据清洗是清洗脏数据,是指在数据文件中发现和纠正可识别错误的最后一个程序,包括检查数据一致性、处理无效值和缺失值。哪些数据被称为脏数据?例如,需要从数据仓库中提取一些数据,但由于数据仓库通常是针对某一主题的数据集合,这些数据是从多个业务系统中提取的,因此不可避免地包含不完整的数据。错误的数据非常重复,这些数据被称为脏数据。我们需要借助工具,按照一定的规则清理这些脏数据,以确保后续分析结果的准确性。这个过程是数据清洗。
一、Left、Right、Mid、Find
函数:Left、Right、Mid、Find。
目的:按照指定的要求提取指定的值。
方法:
在指定的目标单元格中依次输入:=LEFT(C3,6)、=MID(C3,7,8)、=RIGHT(C3,4)。
解读:
除了用Left、Mid和Right提取固定位置的值之外,还可以借助Find函数提取不固定位置的值。
目的:分别提取混合内容“姓名&工号”中的“姓名”和“工号”。
方法:
在目标单元格中输入公式:=LEFT(B3,FIND("-",B3)-1)、=MID(B3,FIND("-",B3)+1,100)。
解读:
1、公式中的-1和+1是修正值,在实际的应用中要灵活对待。
2、公式:=MID(B3,FIND("-",B3)+1,100)中的第3个参数“100”是自定义值,只要明显的大于要提取字段的长度即可。
二、数据清洗:清除类
去除前导空格
在Excel中输入如下表格:
我们可以在B列中使用trim函数,去掉A列中字符串前面的空格。具体方法是在B2单元格中输入如下公式:
=trim(A2)
然后将该公式向下填充到B5单元格,会得到如下表格:
从表格中可以看出,trim函数成功去掉了A列中的前导空格。
三、替换类
Replace函数使用方法
【Replace函数】第1参数:A2,代表员工信息;第2参数:1,代表从第1个字符替换;第3参数:3,代表替换3个字符;第4参数:空格,代表将员工姓名替换为空;
文本替换
如下图所示将A1单元格中的“赵飞”替换成“赵云”,只需在目标单元格中输入公式:=SUBSTITUTE(A1,"赵飞","赵云")
四、内容合并类
合并单元格
如图 2-1,在 C10 单元格输入=CONCAT(C6, D6, E6) 将单元格 C6、D6 和 E6 的内容连接放到 C10。
图 2-1 连接单元格
希望能够帮助到你,一起加油!冲冲冲!
- 上一篇: 一文读懂数据标注(三):数据清洗 数据标注是干什么的呀
- 下一篇: 你了解数据清洗的三大问题是什么吗?
猜你喜欢
- 2024-12-22 数据库脏读、脏写、不可重复读和幻读的区别
- 2024-12-22 一文带你轻松搞懂事务隔离级别(图文详解)
- 2024-12-22 知识分享之医院信息集成平台 医院信息系统集成平台建设的目的
- 2024-12-22 你了解数据清洗的三大问题是什么吗?
- 2024-12-22 一文读懂数据标注(三):数据清洗 数据标注是干什么的呀
- 2024-12-22 什么是脏读、不可重复读、幻读? 脏读幻读不可重复读区别
- 2024-12-22 调查问卷中的脏数据是什么?怎么清理?
- 2024-12-22 Power Query中如何处理脏数据? powerquery能处理数据量
- 最近发表
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- md5 sha1 (32)
- mybatis plus page (35)
- semaphore 使用详解 (32)
- update from 语句 (32)
- vue @scroll (38)
- 堆栈区别 (33)
- 在线子域名爆破 (32)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)