当前位置:HOME > 论文与讲稿
体质指标随年龄变化趋势的统计处理方法

发布时间 2010-07-31

(本文被 2006年全国体质研究与健康促进学术论文报告会 录取发表)

 

一、问题的提出

    进行国民体质监测后的数据处理中,分析各项测试指标随年龄而变化的趋势是十分重要的内容之一。通过用某指标不同年龄段的平均数画出趋势图,就可以十分清楚的看出该指标随年龄而变化的发展趋势。作者从我国各省市2000年国民体质监测的报告、论文中,发现有些论文中,仅仅画了趋势图,但是,还缺乏必要的统计学处理。当前,各地都在处理分析2005年国民体质监测的数据,为此,撰写本文就平均数趋势的统计学处理问题进行探讨。

二、体质监测指标趋势变化的统计学处理

    体质监测采用的是横断面调查的方法。即对不同的年龄组,随机抽取了若干个样本,以他们的平均数来近似的反映纵向追踪调查的发展趋势。例如:2000年全国监测了4446名城市7岁男生的身高平均数为124.3厘米,又测试了另外4546名城市8岁男生的身高平均数为129.8厘米,129.8-124.3=5.5,这就是7岁到8岁城市男生的身高年增长值。在习惯上,人们都认可了这种方法。因为,如果要用一个样本一年一年追踪需要许多年(例如从7岁到18岁就得12年)才能得到同一个样本的真正的年增长值。

    在体质监测的实施方案中,也已经采用了许多很严格的方法来设法减少抽样误差。但是,从统计学的角度来说,误差是不可避免的,因此只有在数据处理时严格的进行统计处理,进行必要的检验等等,才能对监测数据作出正确的分析结论。

    在随年龄而变化的平均数趋势处理中,首先,我们要特别注意平均数的趋势有时是不准确的。就以2000年全国监测的城市男、女生身高平均数为例。2000年城市17岁男生的身高平均数是171.5厘米,而18岁的平均数是171.4厘米,城市女生17岁的平均数是159.5厘米,而18岁是159.2厘米(以上样本量都在4000人以上)。但是,凭我们的经验都知道,正在青春发育期的青年男女,身高从17岁到18岁是不可能下降的,对一个人来说,最多也就是不增长,而绝不可能负增长。但是,全国城市监测的数据却是18岁男女的身高平均数都低于17岁,这只能解释为是横断面调查产生的抽样误差。由于省市监测的样本量比全国的小很多,所以类似的误差就更大了。

    因此在处理平均数的趋势时,当平均数出现不正常的波动时,必须对数据进行统计学处理

(1)相邻年龄段平均数的t检验

    图1是某市体质监测的男、女身高平均数趋势图,由图可见女生16岁身高平均数比15岁小。这是很典型的由于是横断面随机抽样的数据来近似地代替纵向追踪造成的误差。遇到这样的现象时,应该加做两年龄组之间的t检验,当检验后p>0.05,就可以用差异不显著来解释。

    如图1女生15,16岁两个相邻年龄平均数间,经t检验t=1.47( p>0.05)。我们就可以说15,16岁平均数差异不显著,(即16岁并不比15岁矮)现在的数据是抽样误差造成的。但是,如果检验后差异显著,而根据人们的经验,16岁的身高不应该比15岁矮。那就需要考虑是不是抽样的样本量太小,或者抽样不随机,甚至应该考虑这批数据是否可靠了。

(2)平均数的波动与样本量大小有关

    图2是用深圳市2005年各年龄段坐位体前屈的平均数作的趋势图,由图可见全市的样本量大约是某区的3-8倍(各年龄组不同,全市人数最多的组3210人,最少的259人,某区最多的组829人,最少的21人),由图可见,全市的样本量大,平均数的波动就明显的减小了。

3)趋势线的平滑处理

    当用某指标的平均数画出的趋势线波动较大时,为了使其变化趋势看的更清楚,便于准确地描述随年龄而变化的趋势,就应该用统计方法,对各年龄段的平均数进行统计学的平滑处理。
   
平滑处理,应该通过曲线回归分析来计算。一般的方法是把同一组数据通过计算直线方程、对数曲线、指数曲线、双曲线、抛物线(二次曲线)、三次曲线,多项式曲线等不同的曲线方程后,作曲线拟合优度的比较。比较各个曲线方程的剩余平方和 Q 或剩余标准差 Sy。以 Q 或 Sy  最小的方程为最优,也可以计算相关指数 R2,以指数越大的方程越好。然后,用最佳的方程计算出各年龄段的拟合值,用拟合值作出的曲线就是最佳的平滑处理结果。
   
现在人们都习惯用Excel作图,在用Excel作趋势图时,是可以添加趋势线的,其实这就是一种平滑处理的方法,只是它并没有进行比较分析,所以加的趋势线不一定是最佳的拟合曲线。可以看到少数论文中,对波动的曲线简单的加了一条直线或者抛物线来说明趋势。但是,这有时还是不合适的。我们认为作图者应该根据数据的特点选择合适的线型,最好要反复选用不同的趋势线类型进行比较,选出与原始数据误差最小的一条曲线。
   
统计学原理告诉我们,“相当广泛的一类曲线可以用多项式去逼近”。所以,当不知道是什么类型的曲线时,可以用多项式去试配。因此,在Excel中添加趋势线时,提供选择的趋势线类型中就有多项式。这时要选择多项式的阶数,2阶就是2次方程,3阶就是3次方程……,多项式配得是否好,要看多项式的相关指数R2,相关指数的值越接近1,表示误差越小。在Excel中右键点击趋势线后,选择“选项”就可以显示 R2 和多项式的公式。

    下面用深圳市(男)的坐位体前屈平均数数据试配不同的趋势线来进行说明。

    从图3 的平均数趋势看,肯定不能用直线去配。而用2次多项式(抛物线)也不理想。由图3可见,20岁以后逐渐下降的趋势是符合的,但是11岁左右的低谷没有反映出来。相关指数R2=0.6135 也不高,所以,配这条曲线不好。用3阶多项式配的曲线也和2阶的差不多。经过反复试配,由图4可见,6阶的多项式曲线拟合得最好,相关指数R2=0.8999 。

 

    用这条趋势线(6阶多项式)平滑处理后,可以清楚的看出体前屈的平均数与趋势线的误差较小,而坐位体前屈的变化趋势却能比较清楚的描述了:“3岁起平均数逐渐下降,到8岁左右开始回升,20岁后达到最高,以后就逐渐快速下降,45-55岁趋于平稳,55岁后又下降较快。”

(4)各种率的数据也可以作趋势图

    各年龄段的体质总评合格率等统计数据,也可以作趋势图的。如图5就是用成年人体质总评合格率画的趋势图,并进行了平滑处理的一例。只是如果要进行相邻年龄段间的率检验不要用 t 检验,而应该改用 U检验。

三、小结

    体质监测采用的是横断面调查的方法。用某指标不同年龄段的平均数来近似的反映纵向追踪调查的该指标发展趋势。由于存在抽样误差,因此在进行数据分析时,必须进行统计处理,才能对该指标的发展变化趋势作出正确的结论。
     1. 相邻年龄段平均数之间出现不正常的的波动时,应该做t检验,然后根据检验的结果来进行解释。
  2.平均数的波动与样本量大小有关。加大样本量可以减小波动。
     3. 趋势线波动较大时,应该对各年龄段的平均数进行统计学的平滑处理,以便准确地描述随年龄而变化的趋势。当不知道是什么类型的曲线时,可以用多项式去试配。
  4.各种率的数据也可以作趋势图。

 

 

相关内容
查无记录

网址:www.wldgzs.com

粤ICP备10005906号

网站管理