你好! 对于本周的数据分配,我们受命探索影响幸福感的不同因素。 根据WHS数据集,研究了不同国家/地区的各种因素,例如健康的预期寿命,选择自由和社会支持,以及它们对幸福感评分的影响(如果有)。
在所有因素中,我更想知道社会支持如何能够影响一个地区的幸福。 凭直觉,我会假设更大的社会支持与更高的幸福分数相关。 但是,随着全球人口迁移和流动的趋势不断增加,一个大陆上的移民比例是否也会对该地区的社会支持或幸福程度产生任何同时影响?
在开始分析之前,我决定使用有关社会支持和幸福的WHS数据,并按大陆对众多国家进行分类,以促进更简洁,更清晰的分析。 在此数据集中,据说社会支持得分是使用
“…盖洛普世界民意测验(GWP)问题的二元回答(0或1)的全国平均水平:“如果遇到麻烦,您是否有亲戚或朋友可以依靠,无论何时需要,都可以为您提供帮助’ ”
在分类过程中,我使用excel中的VLOOKUP函数使用仅在2016选项卡中提供的信息填充2018年每个国家的区域数据,然后再折叠这些国家的数据并按大洲进行排序(非洲,中部/南美,北美,亚洲,欧洲和大洋洲)
然后汇总这些国家的幸福感和社会支持得分,然后再获得每个大陆的平均得分。
但是,在进行分类时,我注意到缺少与某些国家/地区相对应的区域的数据,然后通过对这些国家/地区的背景和所属国家/地区的研究来填充这些数据。
不可避免地,在填补缺失领域方面有些含糊。
这样的一个例子是北塞浦路斯,据说是
“……在地理上更接近亚洲,但在历史和文化上是欧洲国家”
鉴于进一步的研究表明它目前是欧盟成员国,我最终决定将北塞浦路斯置于欧洲大陆之下。
为了补充数据,我然后收集了每个大陆的移民人口数据,以分析移民模式,其中在Google上进行快速搜索以找出按洲划分的移民绝对人数。 考虑到大洲可能会有成比例的移民人口,因此我通过将移民人数除以该大陆的总人口来计算每个大洲的移民人口百分比(%)。
清理数据后,我创建了一个气泡数据可视化图表,以一个图形表示三个变量-社会支持,幸福感分数和移民比例。
假设只有两个轴,则应使用它们来表示与主要兴趣相关的变量-找出社会支持对幸福的影响-其中x轴表示社会支持得分,而y轴表示水平在大陆上的幸福 假设只有两个轴,则第三个变量(移民比例)将由相应气泡的大小表示。
根据直觉,我们发现上述大陆的社会支持与幸福感得分之间存在显着的正相关。 尽管获得社会支持的移民人口的趋势并没有那么明显,但我们似乎确实认为,更大的移民社区对应于具有更强社会支持的区域,这也对应于图表中较高的幸福分数。
但是,正如伯克教授课堂上的讨论一样,相关性的存在可能不会导致因果关系-虽然我们也许可以为我们观察到的趋势提供某些可能的解释,但某些关系(例如移民人口与社会支持之间的联系)例如,可能并不那么清晰明了,并不能代表整个非洲大陆的所有国家,因为在某些情况下,国家可能会出现仇外心理的迹象,这可能会破坏社会支持并可能破坏幸福感。
这使我最后谈到了与上述分析有关的一些限制。
当按大陆折叠各个国家的数据时,出现了一个限制-通过汇总和平均数据以获得一个单一的社会支持或幸福感评分,可能会丢失每个国家的一些更详细的信息,这可能无法代表该地区所有国家。 此外,这些平均数可能会因潜在的异常值或幸福/社会支持分数过高或过低的国家而失真。
同样,由于气泡图上只有两个轴,因此某些信息(例如每个大陆的移民人口百分比)仅以相对比例表示(即,一个大陆的移民百分比高于另一大陆)查看或可视化绝对数字。
总体而言,这是一次富有洞察力且有趣的体验,可以尝试气泡图并探索变量之间的相关性🙂