您的数据可能有偏,这正成为一个大问题

您的数据可能有偏,这正成为一个大问题 没有人开始有偏见,但要避免的事情比您想的要难。 维基百科列出了从权威偏见和确认偏见到Semmelweis效应的100多种书面偏见,我们有很大的趋势让事实以外的事物影响我们的判断。 我们所有人都讨厌,尽管我们不愿承认。 机器,甚至是虚拟机器,也有偏差。 它们的设计必然是要优先于某些类型的数据。 不幸的是,我们很少质疑数学模型的判断,在许多情况下,它们的偏差会弥漫和扭曲操作现实,从而产生难以消除的意外后果。 但是,数据偏向的最大问题是我们几乎不了解它,因为我们认为数据和分析是客观的。 几乎从来没有这样。 无论是好是坏,我们的机器都是我们的扩展,并继承了我们的主观判断。 随着数据和分析越来越成为我们决策的核心组成部分,我们需要更加谨慎。 想象一下,您经营一家每年雇用100名员工的企业,并且您想建立一个预测模型,该模型可以告诉您应将重点放在哪些大学上。 一种看似合理的方法是检查您过去在哪里招聘过人员以及他们的表现如何。 然后,您可以集中精力从表现最好的学校招聘人才。 从表面上看,这似乎是有道理的,但是如果仔细看,它本身就是有缺陷的。 首先,分布在十几所大学中的100名学生远没有统计上的意义。 第二。 不难看出,来自一所学校的一两个杰出人物或愚蠢人物将如何严重扭曲结果。…