数据分析
常见的数据问题类型(需要清洗的对象)¶
数据清洗通常针对以下几类“脏数据”:
-
缺失值:数据记录中存在空值或未知值。
-
例如:用户年龄字段为空、电话号码少了一位。
-
重复值:完全相同或高度相似的数据记录多次出现。
-
例如:由于系统故障,同一条订单信息被录入了两次。
-
错误值/异常值:数据值明显不符合逻辑或超出了合理范围。
-
例如:年龄为“200岁”、身高为“5米”、公司利润为“-9999”(这种特殊值常用来代表缺失,反而成了错误)。
-
不一致性:
-
格式不一致:同一信息以不同格式存储。例如:日期格式有“2023-10-27”、“27/10/2023”、“Oct 27, 2023”。
-
内容不一致:同一实体有不同名称。例如:公司名称为“Apple Inc.”、“Apple”、“苹果公司”。
-
无关数据:与当前分析目标完全不相关的数据。
-
例如:分析中国市场的销售数据时,却混入了美国的销售记录。