跳转至

数据分析

常见的数据问题类型(需要清洗的对象)

数据清洗通常针对以下几类“脏数据”:

  1. 缺失值:数据记录中存在空值或未知值。

  2. 例如:用户年龄字段为空、电话号码少了一位。

  3. 重复值:完全相同或高度相似的数据记录多次出现。

  4. 例如:由于系统故障,同一条订单信息被录入了两次。

  5. 错误值/异常值:数据值明显不符合逻辑或超出了合理范围。

  6. 例如:年龄为“200岁”、身高为“5米”、公司利润为“-9999”(这种特殊值常用来代表缺失,反而成了错误)。

  7. 不一致性

  8. 格式不一致:同一信息以不同格式存储。例如:日期格式有“2023-10-27”、“27/10/2023”、“Oct 27, 2023”。

  9. 内容不一致:同一实体有不同名称。例如:公司名称为“Apple Inc.”、“Apple”、“苹果公司”。

  10. 无关数据:与当前分析目标完全不相关的数据。

  11. 例如:分析中国市场的销售数据时,却混入了美国的销售记录。