课05｜抽样、代表性与外部效度

所属模块：模块2｜心理学研究方法

学习目标

理解为什么研究结论不能自动推广到所有人
区分“研究内部做得好”与“结论能否推广”是两回事
理解抽样、代表性与外部效度之间的关系

完整课程内容

前面几课我们主要在解决一个问题：

这个研究结果到底靠不靠谱？

比如：

有没有混淆变量
能不能说是因果
测量稳不稳、准不准

这些问题更偏向研究的内部质量。
但研究做得再严谨，还会遇到另一个关键问题：

这个结论能不能推广到更大的人群、更多场景、更多时间？

这就是这节课要学的重点。

一、什么是抽样

研究者通常没法把“所有人”都找来研究。
所以他们会从更大的人群里，抽出一部分人来做研究。

这就叫：

总体：研究者真正想讨论的更大范围人群
样本：实际被找来参加研究的人

例如：

如果研究者想了解“大学生的睡眠与注意力关系”，那么“大学生”可以看作总体。
但真正找来研究的，可能只是某一所学校的 120 名学生，这 120 人就是样本。

所以抽样的本质是：

用一部分人，去估计更大人群的情况。

二、为什么抽样会带来问题

问题在于：

样本不一定真的能代表总体。

如果样本和总体差得很远，那么研究结论就可能不能顺利推广。

比如：

你只调查重点大学学生，却说“所有年轻人都这样”
你只研究城市白领，却推广到所有职业人群
你只研究愿意参加问卷的人，却忽略不愿参加的人

这时问题不一定出在实验过程本身，
而可能出在：

你找来的这批人，本来就不是你想讨论的人群的缩影。

三、什么是代表性

代表性指的是：

样本在关键特征上，是否足够接近它所代表的总体。

这里的“关键特征”不是指每个人都完全一样，
而是说在研究相关的重要维度上，样本不能太偏。

例如研究学习压力时，可能相关的重要特征包括：

年龄
教育阶段
性别比例
学校类型
城市与地区差异

如果样本在这些方面特别单一，那么代表性就可能不足。

要注意：

代表性不是“人数多就自动有”。

一个很大的样本，如果来源很偏，仍然可能没有代表性。
反过来，一个规模没那么夸张、但抽样更合理的样本，往往更有价值。

四、什么是外部效度

**外部效度（external validity）**讨论的是：

一个研究结论能在多大程度上推广到其他人、其他场景、其他时间。

也就是说，它关心的是“能不能推广”。

可以把它理解成：

内部效度更关注：这个结果是不是研究本身造成的
外部效度更关注：这个结果能不能用到研究之外

所以一个研究可能：

内部效度不错
但外部效度一般

例如：

一个实验室研究控制得非常好
变量也测得很细
但参与者全是某一所学校的心理学专业学生

那么它也许很适合回答：

在这个实验条件下，是否出现了某种效应

但不一定能立刻回答：

这个效应是否适用于所有年龄层、所有文化背景、所有现实场景

五、为什么“研究做得好”不等于“能推广得广”

这是研究方法里特别容易混淆的一点。

很多人会直觉地觉得：

这个研究设计得很严谨
所以它一定适用于所有人

其实不对。

严谨，更多说明：

研究内部控制做得好
因果解释更稳
测量更靠谱

但“能否推广”还取决于：

样本来自哪里
场景是否特殊
时间是否特殊
文化背景是否特殊

所以：

内部效度回答“结果是不是真的”；外部效度回答“结果能不能广泛适用”。

这两个都重要，但不是同一个问题。

六、生活中的例子

例子1：短视频影响注意力

假设研究者发现：

某大学学生连续刷短视频 30 分钟后
后续专注任务表现下降

这个研究也许做得很好。
但我们不能立刻说：

所有人刷短视频都会这样
各种年龄层都会一样
长期效果也一定一样

因为这里还要问：

样本是不是太单一
实验场景是不是太特殊
这种短时任务能否代表现实生活

例子2：某种学习方法有效

如果研究对象全是自律程度较高、主动报名参加学习项目的人，
那么这个方法的效果，未必能直接推广到：

动机较弱的人
时间压力很大的人
基础差异明显的人

这不是说研究没价值，
而是说：

研究结论的适用范围，需要谨慎判断。

七、这节课最重要的区分

你可以把这几节研究方法课连起来看：

实验/相关：你能不能谈因果？
混淆变量/内部效度：这个结果是不是研究造成的？
信度/效度：你到底有没有测准？
抽样/代表性/外部效度：这个结果能不能推广？

到这里你会发现：

心理学研究不是只问“有没有结果”，而是一步一步问：
结果真不真
测得准不准
原因稳不稳
推广广不广

这才是研究方法真正的价值。

八、这节课真正要带走的结论

研究通常只能研究样本，不能直接研究整个总体。
样本能不能代表总体，是判断研究结论能否推广的重要前提。
代表性不足时，研究结论的推广范围就要谨慎。
外部效度讨论的是：研究结果能不能推广到其他人、其他场景、其他时间。
一个研究即使内部做得很好，也不自动意味着可以广泛推广。

复习问题

总体和样本有什么区别？
为什么样本人数多，不自动等于代表性强？
外部效度和内部效度最大的区别是什么？
为什么我们不能把某个研究结果直接推广到所有人？

课05｜抽样、代表性与外部效度 ​

学习目标 ​

完整课程内容 ​

一、什么是抽样 ​

二、为什么抽样会带来问题 ​

三、什么是代表性 ​

四、什么是外部效度 ​

五、为什么“研究做得好”不等于“能推广得广” ​

六、生活中的例子 ​

例子1：短视频影响注意力 ​

例子2：某种学习方法有效 ​

七、这节课最重要的区分 ​

八、这节课真正要带走的结论 ​

复习问题 ​

相关阅读 ​