欢迎来到学术参考网

基于Shiny的统计学交互式可视化教学研究

发布时间:2023-12-10 12:11

  摘要:本文通过构建Shiny程序,以统计学教学中的重难点知识,假设检验和区间估计为案例进行可视化交互式教学,利用交互式的程序,帮助学生更好的理解与掌握这两个重要概念。这两个案例表明,将Shiny运用到统计学的课堂教学中,有助于将抽象的知识直观化,能激发学生学习兴趣,加深学生在重难点知识上的理解。


  关键词:Shiny;可视化;交互式;假设检验


  1引言


  Shiny[1]是一种基于web的可视化交互式应用程序,是RStudio开发的一种技术。它是R软件的web应用框架,将现有的R脚本转换成Shiny的应用程序并不困难,用户不需要学习R语言语法,也不需要在R源代码中进行更改就可以使用并绘制图形[2]。本文将使用Shiny应用程序对统计学中的假设检验与区间估计的知识点进行统计教学,所生成的程序允许学生操作方程中的变量,通过图像直观展示结果,从而更好地理解这些变量之间的关系,将假设检验中的一些概念理解得更为透彻。


  2案例一


  假设检验不仅是一种定量分析的重要方法,也是大学阶段统计学课程教学的重点之一[3],现实生活中有大量的实例可以归结为假设检验的问题。在讲解之前,同学们需要了解假设检验是立足于小概率,给定很小的显著性水平去检验对总体参数的假设是否成立。


  当原假设与备择假设互斥时,肯定原假设,意味着放弃备择假设;否定原假设,意味着接受备择假设。


  利用Shiny绘制出服从正态分布的假设检验的示意图并设置好相应用于互动的参数范围,学生可以指定不同的显著性水平,观察检验图会有怎样的变化,熟悉检验图的构造。在这里需要注意的是显著性水平和置信水平不是同一概念。在图1中,显示的是显著性水平的单侧检验示意图,图中的红线所在的位置表示的是临界值,红线的左侧区域我们把它称作拒绝域,正如图1所标示的位置。当观察结果落入拒绝域中表示拒绝了原假设,此时犯了第Ⅰ类错误,虽然这类错误发生的概率非常小,但是无法避免。图中红线的外侧面积大小表示着的大小。而红线的右侧区域,我们称作接受域,即接受提出的原假設。


  我们了解了检验示意图的基本构成以后,我们再利用双侧检验示意图来观察在不同显著性水平的情况下是怎样变化的。学生通过操作左侧下拉按钮选择不同的显著性水平,其中图2、3分别选择的是在、时的双侧检验图,对比观察到随着显著性水平的提高,拒绝域就会越大。


  3案例二


  由样本统计量所构造的总体参数的估计区间就称为置信区间[5]。置信区间是一个估算值,它具有多个组件,包括点估计、样本量、标准误差和置信度。这些组件是理解其中的关键,改变置信区间的多个组件可以提供更深入的了解。总而言之,关键是学生要学会辨识置信区间的细微差别,以及它们在确定置信区间时所扮演的角色。下面通过把一电影票房数据的置信区间及自行生成的多个样本数据可视化,以便说明Shiny在这一过程中的应用。


  很明显在图4中求了出31部电影平均首周票房的95%的置信区间为(2096.56,3569.15)。在图片的左侧是学生可以操作的模块,学生可根据不同置信水平来观察确定置信区间的变化,其中系数设置有0.01、0.025、0.05、0.1等,分别对应的置信水平为98%、95%、90%、80%。而右侧部分的线图则是Shiny应用程序的结果显示。学生通过点击下拉按钮选择不同的置信系数,可以得到发生改变的置信区间。图4中显示的下限是通过从点估计中减去误差来计算的,教师需要先进行例题示范教学,然后就可以让学生自行操作了。


  图5是显示90%置信水平下的区间,建立图5是为了与图4形成对比,比较在不同的置信水平下的置信区间是怎样改变的。当样本量给定时,置信区间的宽度随着置信水平的提高而增大。


  在教科书中,学生大多是通过静态图像来接触这些主题,而往往很少使用动态的交互式工具进行探索。在Shiny程序中,学生可以通过自己“动手”操作,发现其中的规律变化,加上教师的讲解以及鼓励可以激起学生的学习兴趣,还能引发学生更深层次的思考,将统计概念理解透彻,为后面学习统计分析奠定基础。


  我们知道在实际问题中,进行估计往往只抽取一个样本,此时构造的是与该样本相联系的相应的置信水平下的置信区间。因为这个区间不再是一个随机区间,所以无法知道这个样本所产生的区间是否包含了总体参数的真实值[4]。因此我们建立了图6来说明样本量对置信区间的影响,我们选择的是重复构造出的的10个置信区间(数据均为随机生成)。图6中的每一条线段表示的是每一个估计区间,而红色的线段则表示不包含真实值的区间。图中可以看出10个区间中的第2个和第10个区间没有落在中间的黑线上,即表示包含总体均值。图6展示的是置信度为90%的置信区间,说明了最后有10%的区间没有包含。


  在图6的左侧,有两个选择键,其中samplesize表示的是样本容量,Numberofalpha是置信系数,图6、图7构建的意义是为了比较在保持置信水平不变的情况下,增加或减少样本大小的影响对其影响范围的置信区间是如何改变。它将提供学生关于什么是直观的信息,引导学生操作结果展示图中左侧的按钮,这样的教学方式可以引发学生自主思考,还有利于培养学生的观察能力。


  不仅如此,还可以通过给定样本量为30时,将系数选择为0.01,即置信度为98%时得到图8,用来说明置信度与真实覆盖率的关系。图7与图8的对比结果相当明显,可得到结论:当置信度越高时,区间包含真实值的概率也就越大。学生使用Shiny程序进行学习,不仅改变了被动接受知识的状态,还充分调动了学生学习的积极性,教师可以发现教学效果得到显著的提高。


  4结语


  通过Shiny构建了一个交互式的、动态的、用户友好的、可视化的教学案例。教师或者学生可根据自己的需要,去修改代码完成自己想要展示的图形。而且Shiny应用程序有一个重要优势是,它可以部署在服务器上,接着就可以通过web浏览器在线访问它[5]。不仅如此,学生们可以在不需要了解任何编程的情况下,自己尝试使用该应用程序。他们只需要知道如何启动web浏览器。因此,Shiny能为统计教学带来极大的提升。

上一篇:课程思政背景下统计学教学探索与设计

下一篇:翻转课堂在医学统计学教学中的应用探索