网站首页 > 教程文章 正文
好的问卷数据举足轻重,但脏数据会污染好数据,甚至扭曲问卷结果,导致洞察失误。即常说的“Garbage in, garbage out”(GIGO,错进错出)。如果基于脏数据做出决策,可能会让调研的心血都付诸东流。2016年IBM一项研究估计,脏数据每年给美国企业造成的损失高达3.1万亿美元。
为了减少成本、做出正确决策,你需要学会清理脏数据,也就是那些不准确的、可能导致你的调查结果出现误差的数据。以下是简单的数据清理方法和步骤。
清理未完成问卷
未完成问卷产生的原因有很多:他们没法回答你的问题,比如从不运动的人无法回答对运动装备的使用体验;受访者产生调查疲劳,缺乏答完问卷的耐心,这样的受访者已作答部分可能不够认真,无法作为有效数据计入问卷结果。
如果完成率低得惊人,对于你来说是个危险信号,意味着很可能是问卷本身设计出了问题,比如问题过多过杂,未设置正确的跳转/显示逻辑等等,需要你对问卷作出进一步细致检查。
未完成问卷可以通过风铃系统筛选器清理,根据基本信息中的作答状态筛选,勾选包含“成功”作答的问卷就可以过滤未完成问卷了。
非调研对象的问卷数据
比如你的调研对象是Z世代,那么95年之前出生的人群就不符合条件。一般这样的人口属性要求,都要在问卷中设计对应甄别题,比如“您的出生年月是?/您的周岁年龄是多少”。但如果你在风铃系统的样本库中发放问卷就可以节省这步操作了,因为我们的400万+样本库覆盖了各年龄段、各行业和地域,可以根据人口属性和用户画像、行为画像等各类标签进行精准抽样,并在正式问卷之前设置前置问卷,确保抽样标签的准确。
超速者(speeders)和直线作答者(straight liners)
超速者指的是作答时间过短/过长的受访者,比如有人用20秒就答完了20道题,或者有人的作答时间比平均时长多出1/3。风铃系统在“总体报表”中自动计算好了平均完成时间,在作答数据中还可进一步查看每位受访者进入和完成的时间,以及总计时长。当你识别出超速者,即可标记为无效,无效问卷将不纳入问卷数据分析中。
更简便的方法是防患于未然,通过试调研确定最短作答时长标准,在发布时即可一键甄别超速者。
直线作答者是回答呈现出一定规律的受访者,这类问卷数据清理难度大,可以事先在问卷中设置陷阱题、反向题来检验受访者认真程度。
前后不一/与实际不符的作答
在年龄题中选“18岁以下”、在婚恋状况中选“已婚”的受访者,显然是反常的。有的人前后答案不一致,比如已声称自己从未使用某产品,却在回答了自己最喜欢的产品功能。像这样的答案可以通过筛选器进行筛选。
离群值(Outlier)
比如调查中声称自己有10个孩子,或者每天喝10L水等反常答案。你不能说100%是假的,但是这并不能反映一般情况,反而还会影响统计结果,比如范围、极值、均值、误差等,所以应该从数据中删除。
开放题无意义的答卷
有时哪怕已经限制了开放题形式(汉字/数字/字母等)和字数,依然会出现一些驴唇不对马嘴的的无效答案,像“啊啊@#¥……**%¥@%”之类的,都需剔除。
但不存在完美无瑕的数据,再好的问卷调查必然会存在误差,所以清理之前需要更小心谨慎。你可以自上而下(从数据分析结果来看)和自下而上(从原始数据来看)两方面进行评估删除数据是否会对结论造成影响。如果删除了脏数据但结论依然不符合假设,信效度不够,那么就该考虑是否是别的地方出现问题了。
猜你喜欢
- 2024-12-22 数据库脏读、脏写、不可重复读和幻读的区别
- 2024-12-22 一文带你轻松搞懂事务隔离级别(图文详解)
- 2024-12-22 知识分享之医院信息集成平台 医院信息系统集成平台建设的目的
- 2024-12-22 你了解数据清洗的三大问题是什么吗?
- 2024-12-22 Excel 4类数据清洗函数,从此数据分析不再惧怕!
- 2024-12-22 一文读懂数据标注(三):数据清洗 数据标注是干什么的呀
- 2024-12-22 什么是脏读、不可重复读、幻读? 脏读幻读不可重复读区别
- 2024-12-22 Power Query中如何处理脏数据? powerquery能处理数据量
- 最近发表
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- md5 sha1 (32)
- mybatis plus page (35)
- semaphore 使用详解 (32)
- update from 语句 (32)
- vue @scroll (38)
- 堆栈区别 (33)
- 在线子域名爆破 (32)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)