如何写好数据分析和几个相关的统计问题 - 范文中心

如何写好数据分析和几个相关的统计问题

12/02

植物生态学报 2013, 37 (6): 583–588 doi: 10.3724/SP.J.1258.2013.00060

Chinese Journal of Plant Ecology http://www.plant-ecology.com

如何写好数据分析和几个相关的统计问题

胡凤琴 李 硕 牟 溥*

北京师范大学生命科学学院, 北京 100875

摘 要 该文就生态学论文“材料和方法”部分中“数据分析”的写作规范进行讨论, 希望对论文写作有所帮助。还讨论了在

生态学论文数据分析部分常遇到的几个统计问题, 如采用更有效的统计方法、相关因变量、方差不齐性、统计显著性与生物学/生态学显著性、伪重复问题。

Suggestions for data analysis and use of statistics

HU Feng-Qin, LI Shuo, and MOU Pu*

College of Life Sciences, Beijing Normal University, Beijing 100875, China

Abstract

We discuss standards for the data analysis portion of the materials and methods section of ecology theses. We also comment on statistical questions frequently encountered in ecological theses, including: more effective statistical approaches, correlated dependent variables, heteroscedasticity, statistical significance vs. biology/ecology signifi-cance, and pseudo-replication.

随着生态学研究的发展, 研究方法、实验设计与数据分析的深入运用, 生态学者对探究、验证知识的方法掌握日增, 统计学在生态学中日益广泛应用, 且相互结合日紧。时至今日, 如果一篇生态学研究论文没有应用统计分析, 或应用不够、不善, 在生态学主流期刊上发表几无可能。对比20世纪70–80年代和近年来在世界上主流生态学期刊所载研究文章对统计方法的运用程度与深度, 有恍如隔世之感。统计方法应用于生态学研究的迅速进步, 使得生态学研究的质量和可信度大为提高(Scheiner & Guervitch, 2001)。

我国生态学研究随着国际生态学研究的进步, 有了长足的发展, 尤其是研究中对统计方法的应用, 从无到有, 从浅到深, 从泛泛到具体, 使得许多研究的质量堪称上乘。然而, 遍览我国生态学期刊发表的研究文章, 对于实验设计和统计方法的应用大有不尽如人意处。许多发表的文章对应该进行的数据分析描述, 或是根本没有, 或是简单带过, 或是丢东少西, 或是不合规范。我们常常看到类似“本研究数据利用SPSS 和Excel 软件进行统计分析”的简单陈述。受《植物生态学报》的邀请, 本文谨对论文的材料和方法部分中数据分析部分的写作

——————————————————

收稿日期Received: 2013-01-18 接受日期Accepted: 2013-04-17 * 通讯作者Author for correspondence (E-mail: ppmou@bnu.edu.cn)

规范与一般原则寥加讨论, 并浅谈几句生态学研究与实验常见的几个统计问题, 以为引玉之砖。希望对生态学同仁及学生们庶几小有裨益。

本文分3个部分: 1)数据分析部分写作的一般原则; 2)数据分析部分写作的规范与一些细节; 3)生态学研究文章一些需要注意的数据分析问题。

1 数据分析部分写作的一般原则

科学论文的材料和方法部分有两个目的: 1)使读者完全了解实验或研究背景、过程以及技术细节, 从而能够对整个实验或研究结果进行专业的评判; 2) 使这个实验或研究能够被完全重复或复制, 从而可对研究进行验证。数据分析部分是“材料与方法”的一部分, 所以这个原则对该部分的写作同样适用。此外, 数据分析部分一般又是“材料与方法”的最后一部分, 读至此, 读者已知实验或研究所欲验证的假设、实验设计以及全部实施细节、样品、数据的量测与采集等等。因此数据分析部分的内容应该包括以下4个部分: 1)适合具体实验设计的统计分析方法; 2)针对验证某一假设所使用的统计分析; 3)为适合所使用的统计分析进行的数据处理和检验; 4) 进行统计分析、数据计算所采用的软件。它是“材

584 植物生态学报Chinese Journal of Plant Ecology 2013, 37 (6): 583–588

料和方法”的必然结束。可以说, 数据分析部分是论文前(引言、材料和方法) 、后(结果与分析、讨论) 两部分的逻辑纽带。

2 数据分析部分写作的规范与一些细节

如果实验或研究的问题有阶层(hierarchy)、嵌套(nested)结构, 或大问题包含小问题, 数据分析部分对统计方法的叙述应该从一般到具体, 或从大到小。如果实验或研究的问题按假设排列, 或有逻辑顺序, 则应顺序描述。在这里需要指出的是: 统计假设与科学假设在很多情况下并不一致, 但它们之间有严密的逻辑关系。科学假设是根据已知理论、已有知识对某一问题的一般(或抽象) 推论。统计假设是根据证伪原则对与该问题有直接或间接关系的具体数据(或具体指标) 所做的零假设(null hy-pothesis) 。例如: 气候变化影响某地森林生境, 欲进行控制性降水实验检验生境变化程度。根据已知理论和知识, 我们推论在实验范围内, 降水减少对生境的影响不如降水格局改变对其影响大。这是我们的科学假设。我们又知道某一指示性植物的多度与生境变化程度相关, 则实验以该植物多度来指示生境变化程度。这时的统计零假设应该是: 降水减少对该植物多度的影响与降水格局改变对该植物多度的影响相同。这类逻辑关系应该在进行数据分析部分写作前交代清楚。

如果数据在分析之前因为要适合某种统计方法而进行数据转换, 则要具体说明进行转换的原因, 如方差不齐性(heteroscedasticity)、相关数据关系非线性等, 以及转换方式, 如对数(log或ln) 转换、平方根转换、倒数转换等。如果在常规方差分析(ANOVA) 中因为方差不齐性进行数据转换, 转换后的数据还要进行方差齐性检验(如Levene’s test或Hartley’s test)。在对数据进行常规ANOV A 时, 应该叙述完整, 即不要丢掉对随后的多重比较(multiple comparison) 分析的叙述, 要明确说明使用哪一种多元比较方法, 因为它们的适用数据类型不同, 敏感性可以相差很大(Ott, 1984)。下面我们用一个简单的例子表示一个规范的数据分析部分写作: 某实验检验施肥对某作物产量的影响, 施肥处理有5个水平: A、B 、C 、D 、E, 统计零假设是: 5种施肥处理对某作物产量没有影响(即: μA = μB = μC = μD = μE) 。合适的数据分析叙述可以是: 为检验5种施肥

www.plant-ecology.com

处理对某作物产量的影响, 采用单因素方差分析(one-way ANOVA) 对样本数据进行分析。方差分析之前, 检验样本数据是否方差齐性(Levene’s test)。如果数据方差不齐性, 进行数据转换使达到方差齐性。方差分析F 检验显著时(p

生态学研究与实验的对象通常是自然或人工生态系统, 研究与实验的采样系统在很多情况下违反一些基本或经典实验设计模式(如完全随机设计、随机区组设计、裂区设计、拉丁方设计等) 的基本假定。这就需要非传统、非经典的所谓“高级”统计分析方法来处理数据。在这种情况下, 尽可能简明地告诉读者使用这些方法的原因, 并且告诉读者该统计方法的一些关键信息, 如在失效时间分析(failure-time analysis)时, 要告诉读者数据截尾(Fox, 2001) 的标准; 进行MANOV A 叙述时, 要告诉读者采用的是Greenhouse-Geissor (G-G)修正参数, 还是Huynh-Feldt (H-F)修正参数; 叙述重复测量(repeated measure)统计时, 应该告诉读者用的是单变量还是多变量重复测量统计分析, 以及特殊于常规统计的相应交代, 等等。另外, 如果研究或实验中使用非常规的数据分析或统计方法, 更应该在论文中, 或在论文附件中给予较详细的叙述, 并标引来源, 这在论文写作中是允许的, 也是作者应该做的。总之, 简明扼要、具体明晰、逻辑性强、信息完整的数据分析部分既能使读者清晰地理解作者的分析方法与思路, 也给出一个完整的材料和方法, 同时也体现了作者对统计方法的理解与应用的水平。

3 生态学研究文章一些需要注意的数据分

析问题

上面提到生态学研究与实验的对象通常是自然生态系统, 许多现成、传统、熟悉的实验设计方法和统计方法不太适用, 需要一些非常规、或“高级”统计方法来进行分析。同时应该承认, 生态学界乃至整个生物学界, 由于历史与学科发展历史特点的原因, 对统计学乃至整个数学及其在生态/生物学研究中的应用先天不足。Scheiner 和Guervitch (2001)在他们广受生态学者欢迎的《Design and

Analysis of Ecological Experiments》一书(已有中译本) 中抨击至今仍广泛存在于生态学研究中对统计方法的误用、滥用、用旧不用新(更有效的方法) 的现象。下面, 我们想借此机会简单谈一下与生态学研究“渊源”甚深, 且在数据分析部分常遇到的几个统计问题, 如: 采用更有效的统计方法、相关因变量、方差不齐性、统计显著性与生物学/生态学显著性、伪重复(pseudo-replication)问题。 3.1 关于采用更有效的统计方法问题

我们想举t 检验和ANOV A 的例子。t 检验非常经典、传统、有效、简单、容易理解、稳健, 理论上坚实, 有各种优点, 也是大家最熟悉的统计比较方法。但是t 检验也有其局限性, 只能用于两个样本的比较。有人说, 为什么不能用于多样本比较?我就两个、两个的比下去, 全比完了, 结果就出来了。但他或许没有意识到, 在一次又一次的两两比较中, 仅仅由于随机的原因, α值(显著性阈值) 就不断地扩大。一般在生态/生物学实验数据分析中, 我们设α为0.05, 当检验α值为0.05时, 我们的置信概率就是(1–α) = 0.95, 也就是说, 此检验结果正确的概率是95%, 而错误的概率是5%。如果我们有5个样本: A、B 、C 、D 、E, 两两比较需要比10次, 即AB 、AC 、AD 、AE 、BC 、BD 、BE 、CD 、CE 、DE, 这时的置信概率, 由概率乘法定律可知, 便下降到(1–α) 10 = 0.9510 = 0.5987, 即宣称“至少有一对样本均值差异显著”是正确的概率, 是59.87%, 而错误概率, 即p 值, 则上升到40.13%。通常解决的办法是用巴氏改正(Banferroni correction): α′ = α/n, 其中α′是改正后相当于单个比较时α = 0.05的显著性阈值, n 是两两比较的次数。上例中n = 10, α′ = 0.05/10 = 0.005, 即进行10次交互比较时, 等价于0.05的显著性阈值α′缩小到0.005 (显著性门槛大为提高) 。尽管t 检验在所有条件方法中可能是最稳健的一种, 但这种用法的效力显然很低。

有效的方法大家应该很熟悉, 是ANOV A, 上例中如果我们只有一个自变量, 则是单因素方差分析。同样我们设α为0.05, 如果ANOV A 检验得出的F 值的p 值小于0.05, 我们就可以拒绝5个样本均值相等的零假设, 而接受“它们中间至少有一个样本的均值与其他样本不同”的备择假设。然后, 再通过多重比较(multiple comparison)找出哪些样本与哪些样本在均值上有显著差异。这就是通常称作是“保护

胡凤琴等: 如何写好数据分析和几个相关的统计问题 585

性ANOV A”方法(Scheiner, 2001)。显然, ANOVA 方法比多次两两比较有效得多, 而且检验功效(testing power) 也大得多。由此可见, 使用更有效的统计方法不仅简单明了, 而且精度提高。在下面我们要提到的对具有相关因变量(或称相应变量) 的情况也是如此。如果研究中出现多次同时运用相同统计方法时, 应在数据分析部分中写明。

3.2 关于相关因变量或相关响应变量的问题

变量相关是在生态学实验研究中非常普遍的现象。因为通常我们做一个实验, 对实验对象不仅仅只测量一个响应变量, 我们还想知道实验对象对实验处理的其他响应, 从而使实验结果更全面, 对问题的探讨更深入。例如对土地进行不同的施肥处理后, 检验植物的响应。我们通常测量植物的高、地径, 冠幅等, 最后还要收获、称重。又例如对实验动物喂饲不同食物, 研究食物对动物生长的影响。我们通常不仅测量其体重, 还要量测量其头体长, 身体不同部位的周长、长度等。这些因变量, 或是响应变量, 很有可能且通常就有相关关系。这种情况下, 如果对不同因变量分别使用ANOV A, 不仅会遇到前面提到的t 检验和ANOV A 的问题, 而且对各单独变量进行ANOV A 分析的结果是这些相关的响应变量影响下的结果, 是有偏统计检验。而多响应变量方差分析(multivariate analysis of variance, MANOV A) 方法则是有效、正确的统计分析方法(Scheiner, 2001)。在数据分析部分中, 与MANOV A 相应的基本叙述是不能缺少的。 3.3 关于方差不齐性的问题

所谓方差不齐性, 指的是样本数据各组的方差不一致。方差不一致的数据违反进行方差分析的基本假定。控制严格的试验, 如温室试验、试验田试验等, 所得到的数据一般来说方差不齐性的问题不严重, 但是以自然生态系统为对象的实验、野外调查得到的数据方差不齐性的问题有时会很严重。其原因大致不外乎: 1)实验、调查对象变异不一致; 2)样本数量不均衡; 3)实验、调查对象分类不适当。进行常规方差分析时, 这些有的可以通过数据处理避免, 有的很难绕过。解决的办法亦不外乎: 1)数据转换, 如常用的log 或ln 转换、三角函数转换、平方根转换、倒数转换……等等; 2)有些数据不论如何转换, 也解决不了方差不齐性的问题, 则可进行非参数统计(non-parametric statistics)检验。多数非参数

doi: 10.3724/SP.J.1258.2013.00060

586 植物生态学报Chinese Journal of Plant Ecology 2013, 37 (6): 583–588

检验基于将数据排序秩化(ranked)后形成的秩数据进行分析。基于秩数据的非参数检验功效低于参数统计检验。此外, 数据转换一般不多于一次, 转换次数多了, 关系到最后都搞不清楚了, 且性质都改变了。这种情况不是没有发生过。数据转换要在数据分析部分中叙述清楚, 而进行非参数检验的原因也要在数据分析部分中说明。随着统计技术的发展, 一些方法使得这类数据可以进行精度较高的分析, 如利用广义线性模型对非平衡样本数据, 利用广义线性混合模型或混合模型对方差不齐性数据进行ANOV A 。R 或SAS 软件包均可实现这类分析。具体讨论超出本文范围, 有兴趣的读者可找相应的统计书籍(Dalgaard, 2002; 胡良平, 2010)进行参考。 3.4 关于统计显著性与生物学/生态学显著性的问题

统计显著性与样本数量、样本方差、样本均值间差异关系很大。在统计中, 样本均值、方差是用来估计总体均值、方差的, 样本量越大(重复越多), 对总体均值、方差的估计可靠性越高。实验设计通过重复来估计随机效应的影响, 重复越多, 随机效应的影响就越低。可能通过解释一个简单的单因素ANOV A 例子比推导公式更能说明这件事。我们知道方差分析通过检验组间均方差(实验处理效应) 与组内均方差(随机效应) 的比值, 即F 值, 来判定p 值, 即确定检验显著性的标准。由于组间方差与组内方差之和是数据(即样本) 的总方差, 组间方差的自由度固定, 而组内方差的自由度随实验的重复多寡而变。这样, 重复越多, 组内均方差(组内方差/组内自由度) 越小, 则F 值越大, p 值越小, 统计检验结果越显著。

生态学研究, 尤其是自然生态系统的实验调查研究, 由于经费、人力、时间、自然条件的限制, 会经常出现重复少而在方差分析中由于变异较大(组内均方差大) 使得统计检验效力低。这种情况下, 增加重复, 或使用其他统计技术能够加强统计检验效力(Scheiner & Guervitch, 2001)。但是在当今一些生态研究中, 尤其是经费、人力充足的项目中, 有足够多或过多的重复已不是什么新鲜事, 这样就会走向另一端, 导致很小的差异都可以达到统计显著。此时, 统计显著性是否等同于生物学/生态学显著性就成了问题。生物学/生态学显著性是由研究者的生物学/生态学的知识来确定。也就是说, 不论是否

www.plant-ecology.com

达到生物学/生态学显著差异阈值, 通过增加重复都可以达到统计显著(Steidl & Thomas, 2001)。在这里我们借用Steidl 和Thomas (2001)的图示来说明两类显著性的关系(图1) 。图1中, 案例A 、C 和D 是统计显著性与生物学/生态学显著性统一的例子, 而案例B 和E 是统计显著性与生物学/生态学显著性不一致的例子。

举一个非生态学的例子: 农民买不买化肥, 不仅取决于是否能增加粮食亩产, 而且取决于增产多少, 增产的粮食价值能不能高于使用化肥的成本。如果农业技术员增加实验重复, 每亩增产1 kg也可以统计检验显著, 但这有意义吗?农民心中有意义的显著增产量是每亩增产20、30或50 kg (即类似图1中的案例E) 。同理, 当我们对研究对象有了充分的了解后, 对生物学/生态学的显著性标准会有相当的判断。因此, 实验结果能达到由生物学/生态学的知识来确定生物学/生态学显著差异阈值之上, 同时也达到统计显著的检验才是合理的, 科学上有意义的。这实际上也是一个统计零假设的问题, 如果在提出统计零假设的时候, 把生物学或生态学显著差异阈值考虑进去, 应该能够较有效地解决统计零假设与生物学或生态学显著差异阈值相匹配的问题。唯统计显著性是问的例子在生态学文献中也屡见不鲜, 尤其是在生态学家们使用这门分析工具不熟练的时候。如有必要, 此信息也应在数据分析部分中给出。

3.5 关于伪重复问题

这是一个正确判定实验单元或实验自由度的问题。自从Hurlbert (1984)把这个问题在《Ecology 》上提出来后, 生态学研究就出现了两种情况: 一方面, 伪重复的情况仍然广泛存在于生态学研究中, 尤其是在那些统计技术运用于生态学研究不久的国家; 另一方面, 有些生态学者言必称伪重复, 滥用过头了。有哲人讲过, 真理向前走一步就是谬误, 在伪重复的问题上确是如此。在我国的生态学研究中, 时常可以见到伪重复的情况。下面我们用两个例子来解释整个问题。

首先, 借用Potvin (2001)文章中所举的例子: 为检验大气CO 2浓度和土壤养分对实验植物生物量生长的影响, 用4个生长箱或人工气候室进行2个CO 2浓度处理, 每处理2个重复, 每一生长箱内, 都

胡凤琴等: 如何写好数据分析和几个相关的统计问题 587

最小生物学重要效应(+)

统计零效应

最小生物学重要效应(-)

拒绝统计学零假设拒绝统计学零假设拒绝生物学零假设不拒绝生物学零假设

A

B

不拒绝统计学零假设不拒绝生物学零假设

C

不拒绝统计学零假设不拒绝生物学零假设

D

拒绝统计学零假设但不拒绝生物学零假设

E

图1 统计显著性与生物学显著性关系图示。图中圆点及竖线表示观测(样本) 均值及其(1–α)%置信区间。横实线表示零效应(统计零假设), 虚线表示生物学重要效应(即生物学显著性最低值, 虚线之间可理解为生物学差异不显著区间) 。案例A, 估计置信区间排除零效应并有生物学重要效应, 因而研究同时具有统计学和生物学显著性。案例B, 置信区间排除零效应, 研究具有统计显著性, 但置信区间伸展至生物学显著性最低值外, 因而该研究在生物学上具有不确定性(但不能拒绝生物学零假设) 。案例C, 置信区间包括零效应伸展至生物学显著性最低值外, 因而拒绝统计学和生物学零假设, 但同时具生物学的不确定性。案例D, 置信区间包括零效应, 但在生物学显著性最低值内, 因而拒绝统计学和生物学零假设, 且不具生物学重要效应。案例E, 置信区间排除零效应, 但在生物学显著性最低值内, 故该研究仅在统计学上显著而无生物学意义(改自Steidl 和Thomas, 2001) 。

有3个土壤养分处理, 每一个处理10个重复, 即每个生长箱内有30株植物接受1种CO 2浓度处理和3种土壤养分处理。这实际上是一个典型的裂区试验设计。检验CO 2影响时, 实验单元是生长箱, 而不是单株植物, 这样, 其组内方差的自由度是2。检验土壤养分影响时, 单株植物则是实验单元, 总自由度是: 4 × 3 × 10 – 1 = 119, 其组内方差的自由度是: 119 – 2 (组间方差的自由度) – 2 (CO2与土壤养分的交互作用) = 115。由于CO 2浓度处理的重复只有2个, 如果数据变异较大, 很有可能检验结果不显著(高p 值) 。但如果将土壤养分的自由度误用于CO 2影响, 将大大提高对CO 2浓度处理的检验显著性——不幸的是这是假显著。对检验CO 2影响来说, 土壤养分的组内方差的自由度115就是伪重复。

在上面的生长箱实验中, 伪重复、误用自由度的错误还比较容易辨别, 但在生态学, 尤其是野外

实验、调查中, 有时候就不太容易辨别。例如, 3个林分, 每个代表一种森林类型, 每个林分随机设10个样方调查植被。如果研究问题是关于这3个林分的植被差异, 则有30个实验单元, 总自由度是29, 而如果研究问题是一般性的关于3个森林类型的植被差异, 则实际上调查没有重复(一个类型只有一个林分表示), 继续使用29的自由度, 就是伪重复。可见伪重复的问题有时候随问题的不同而异。另外, 当样本数据相互不完全独立的时候, 使用完全独立情况下的自由度也是一种伪重复(Potvin, 2001)。防止伪重复, 关键在于正确认识决定组内方差自由度的实验单元, 符合被检验假设、欲回答问题的实验单元。

最后想说两句关于统计软件使用的问题。SPSS 软件包在国内大学和研究单位广泛使用, 是较为通用的统计软件, 可以解决大多数常用的统计分析

doi: 10.3724/SP.J.1258.2013.00060

588 植物生态学报Chinese Journal of Plant Ecology 2013, 37 (6): 583–588

(张文彤等, 2004)。发展历史较长的SAS (胡良平, 2010), 以及最近迅速发展的S-Plus (Venables & Ripley, 2002)和R (Dalgaard, 2002)则是更为专业、高级的统计软件包, 基本上可以完成各种常用和高级(或非常规) 的统计分析, 尤其是开源性的R 软件, 正在成为生态学研究广泛应用的统计软件。因此, 当研究问题或实验比较复杂, 统计技术要求较高时, 应考虑使用高级统计软件, 并向统计专家讨教, 以保证正确使用统计技术, 保证研究质量。

我们不是统计专家, 只是在过去的工作中用了一些统计方法, 文中对一些对统计问题的探讨可能不够专业、深入。以上只是我们的一些学习、工作心得。故人云: 日月出矣, 而爝火不息, 其于光也, 不亦难乎?……诚愿我们这点滴爝火能引出日月。 基金项目 国家自然科学基金(30830024)。 参考文献

Dalgaard P (2002). Introductory Statistics with R. 2nd edn.

Springer-Verlag, New York. 364.

Fox GA (2001). Failure-time analysis: studying times to events

and rates at which events occur. In: Scheiner SM, Guer-vitch J eds. Design and Analysis of Ecological Experi-ments . Oxford University Press, New York. 235–266.

Hu LP (2010). Experimental Design and Statistical Analysis in

SAS. People’s Medical Publishing House, Beijing. 578. (in

Chinese) [胡良平 (2010). SAS 实验设计与统计分析. 人

www.plant-ecology.com

民卫生出版社, 北京. 578.]

Hurlbert SH (1984). Pseudoreplication and the design of eco-logical field experiments. Ecological Monographs, 54, 187–211.

Ott L (1984). An Introduction to Statistical Methods and Data

Analysis. 2nd edn. Duxbury Press, Boston. 775.

Potvin C (2001). ANOVA: experimental layout and analysis.

In: Scheiner SM, Guervitch J eds. Design and Analysis of Ecological Experiments. Oxford University Press, New York. 63–76.

Scheiner SM (2001). Theories, hypotheses, and statistics. In:

Scheiner SM, Guervitch J eds. Design and Analysis of Ecological Experiments. Oxford University Press, New York. 3–13.

Scheiner SM, Guervitch J (2008). Design and Analysis of Eco-logical Experiments. Translated by Mou P. Higher Educa-tion, Beijing. 415. [牟溥(主译) (2008). 生态学实验设计与分析. 高等教育出版社, 北京. 330.]

Steidl R, Thomas L (2001). Power analysis and experimental

design. In: Scheiner SM, Guervitch J eds. Design and Analysis of Ecological Experiments. Oxford University Press, New York. 14–36.

Venables WN, Ripley BD (2002). Modern Applied Statistics

with S-Plus. 4th edn. Springer-Verlag, New York. 495. Zhang WT, Dong W, Ye Y, Kuang CW, Liu XY, Wang T,

Song YY, Zhou Q, Zhong YF, Zhu YC (2004). Advanced Statistical Analysis for SPSS. Higher Education Press,

Beijing. 424. (in Chinese) [张文彤, 董伟, 叶勇, 邝春伟, 刘晓云, 汪涛, 宋艳艳, 周琴, 钟云飞, 祝迎春 (2004). SPSS 统计分析高级教程. 高等教育出版社, 北京. 424.]

责任编委: 黄建辉 责任编辑: 李 敏

作者更正

586页3.4节第一段倒数第二句:“由于组间方差与组内方差之和是数据(即样本) 的总方差, 组间方差的自由度固定, 而组内方差的自由度随实验的重复多寡而变。”中的组间方差、组内方差和总方差应为组间平方和、组内平方和与总平方和。

——————————————————


相关内容

  • 多元统计分析方法简介
    多元统计分析 多元统计分析是研究多个随机变量之间相互依赖关系及内在统计规律的一门统计学科.多元统计分析就是讨论多个随机变量理论和统计方法的总称.多元统计分析方法是建立在多元统计分布基础上的一类处理多元统计数据的方法的总称,多元统计方法是同时 ...
  • 统计分析管理制度
    统计分析管理制度 2006年第一版 中国网通广东省分公司 支撑共享中心 2006年3月制 1. 总则  明确报人员相关职责,保持统计分析的准确性和时效性.  确定报表数据种类,统一报表统计口径,保证报表数据统一性.  制定报表开发与作 ...
  • 空间统计及计量方法学习笔记
    空间统计及计量方法学习笔记 1. 背景及文献综述 ....................................................... 2 2. 空间效应 ............................. ...
  • 统计学基础
    统计学基础编辑 统计学是收集.分析.表述和解释数据的科学.作为数据分析的一种有效工具,统计方法已广泛应用于社会科学和自然科学的各个领域,是各学科领域研究者和实际工作者的必备知识. 书    名 统计学基础 作    者 贾俊平 ISBN [ ...
  • 毕业论文文献综述基于SPSS的多元回归分析模型选取的应用 之文献综述
    基于SPSS 的多元回归分析模型选取的应用 文献综述 重庆工商大学 统计学 2010级 统计2班 殷婷 引 言 随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和工商管理类专业的核心课程,不管是在经济管理领域,或是在军 ...
  • 网络优化流程
    网络优化流程 一. 目的 强化优化流程的规范性和过程可控性. 二. 适用范围 适用于工程网优.维护网优.三方网优项目. 三. 网络优化流程描述 001 数据收集及需求分析 定义: 收集与项目相关的信息与文档,准备必要的工具及软件,使后期项目 ...
  • 中小学心理管理系统
    中小学心理管理系统 一.前言 学校开展有效的心理健康教育工作是一个综合的系统工程,而非单个心理辅导教师的咨询或辅导活动.解决实际问题的心理辅导软件应该在科学的心理测量基础上,包含多层次管理.全员参与.可以互动交流和动态更新的综合管理系统. ...
  • spss的数据分析案例
    关于某公司474名职工综合状况的统计分析报告 一. 数据介绍: 本次分析的数据为某公司474名职工状况统计表,其中共包含十一变量,分别是:id (职工编号),gender(性别) ,bdate(出生日期) ,edcu (受教育水平程度),j ...
  • 2关于推进企业一套表正式实施工作的通知
    即墨市统计局文件 即统字[2012]2号 签发人:傅正会 关于推进企业一套表正式实施工作的通知 各镇.街道办事处.经济开发区.田横岛旅游区.市直工业基地.市直有关单位经管统计中心(统计室): 按照国家统计局的统一部署,根据即政办字[2011 ...
  • 运维优化流程
    运维优化流程 运维优化的主要目标是保持良好的网络性能指标,如:解决投诉问题,提高用户感受:减少导频污染,提高覆盖质量:提高单站性能等. 运维优化的主要流程如图表2-2所示,首先通过后台分析.客户投诉.路测以及拨打测试等方法定位主要问题,然后 ...