本文针对2007年全国30个省市自治区(除河南省外)国民经济核算的22项指标进行统计分析,并对全国30个省市自治区(除河南省外)进行聚类分析。 在进行聚类分析之前首先针对22项经济指标进行主成分分析,分析结果得到前六个主成分对方差的累计贡献率达到了0.9102,因此,前六个主成分能够很好地概括这组数据,然后计算每个主成分相应的得分值,并将这六个得分值作为每个省市新的变量,最后采用类平均法进行聚类分析。最终将30个省市自治区划分为5类,然后对河南省进行判别归类,在判别归类过程中通过回判检验发现只有湖北省发生了错判,其他29个省市自治区均判别正确,说明本文中所采用的方法是合理有效的。 说明 本文中所采用的22项国民经济核算指标包括: 由于上述的22个经济指标存在量纲和数量级上的差异,因此在进行统计分析之前,对22项指标进行了标准化处理。 主成分分析后前六个主成分对方差的累积贡献率已经达到0.9102,而且从第七个主成分开始,之后的每个主成分对方差的贡献率小于0.02,故可以忽略不计。本文对每个主成分所能代表的含义给出了分析,根据每个主成分表达式给出了每个主成分主要是由哪些变量主导的。 由于本文是依据每个省的整体发展情况进行分析的,因此聚类的结果时针对每个省的综合发展情况,而不是针对每个省的重点城市的经济发展情况。 1.主成分分析 下表给出了相关系数矩阵的特征值、上下特征值之差、各主成分对方差的贡献率以及累积贡献率。 由上表可以看出,第一主成分对方差的贡献率为47.77%;第二主成分对方差的贡献率15.40%;第三主成分对方差的贡献率为10.35%;第四主成分对方差的贡献率为8.84%;第五主成分对方差的贡献率为5.07%;第六主成分对方差的贡献率为3.60%。前六个主成分的累积贡献率已经达到了91.02%,因此,对第六个主成分以后的主成分可以忽略不计,用前六个主成分就可以很好地概括这组数据。 由上表可得前六个主成分的表达式为: 第一主成分中的系数,比较大都在0.3附近;第二主成分中,具有较大的正系数;第三主成分中,具有较大的正系数;第四主成分中具有较大的正系数;第五主成分中的系数最大为0.75远远超过了其他指标的影响;第六主成分中的系数最大为0.7远远超过了其他指标的影响。 因此,第一主成分可以看成是由GDP,第二产业生产总值,工业生产总值,建筑业,第三产业生产总值,最终消费,居民消费,政府消费,净出口所主导的反映经济发展水平的综合指标,故第一主成分可以称为货币因子;第二主成分可以看成是由第二产业指数,工业指数所主导的反映经济发展水平的综合指标,故第二主成分可以称为工业因子;第三主成分可以看成是由人均GDP,GDP指数所主导的来反映经济发展水平的综合指标,故第三主成分可以称为GDP因子;第四主成分可以看成是由消费率所主导的来反映经济发展水平的综合指标,故将第四主成分称为消费因子;第五主成分可以看成是由第三产业指数所主导的来反映经济发展水平的综合指标,故第五主成分可以看成是第三产业因子;第六主成分可以看成是建筑业指数所主导的来反映经济发展水平的综合指标,故第六主成分可以称为建筑因子。 2.聚类分析 |