外观
课05|抽样、代表性与外部效度
- 所属模块:模块2|心理学研究方法
学习目标
- 理解为什么研究结论不能自动推广到所有人
- 区分“研究内部做得好”与“结论能否推广”是两回事
- 理解抽样、代表性与外部效度之间的关系
完整课程内容
前面几课我们主要在解决一个问题:
这个研究结果到底靠不靠谱?
比如:
- 有没有混淆变量
- 能不能说是因果
- 测量稳不稳、准不准
这些问题更偏向研究的内部质量。
但研究做得再严谨,还会遇到另一个关键问题:
这个结论能不能推广到更大的人群、更多场景、更多时间?
这就是这节课要学的重点。
一、什么是抽样
研究者通常没法把“所有人”都找来研究。
所以他们会从更大的人群里,抽出一部分人来做研究。
这就叫:
- 总体:研究者真正想讨论的更大范围人群
- 样本:实际被找来参加研究的人
例如:
- 如果研究者想了解“大学生的睡眠与注意力关系”,那么“大学生”可以看作总体。
- 但真正找来研究的,可能只是某一所学校的 120 名学生,这 120 人就是样本。
所以抽样的本质是:
用一部分人,去估计更大人群的情况。
二、为什么抽样会带来问题
问题在于:
样本不一定真的能代表总体。
如果样本和总体差得很远,那么研究结论就可能不能顺利推广。
比如:
- 你只调查重点大学学生,却说“所有年轻人都这样”
- 你只研究城市白领,却推广到所有职业人群
- 你只研究愿意参加问卷的人,却忽略不愿参加的人
这时问题不一定出在实验过程本身,
而可能出在:
你找来的这批人,本来就不是你想讨论的人群的缩影。
三、什么是代表性
代表性指的是:
样本在关键特征上,是否足够接近它所代表的总体。
这里的“关键特征”不是指每个人都完全一样,
而是说在研究相关的重要维度上,样本不能太偏。
例如研究学习压力时,可能相关的重要特征包括:
- 年龄
- 教育阶段
- 性别比例
- 学校类型
- 城市与地区差异
如果样本在这些方面特别单一,那么代表性就可能不足。
要注意:
代表性不是“人数多就自动有”。
一个很大的样本,如果来源很偏,仍然可能没有代表性。
反过来,一个规模没那么夸张、但抽样更合理的样本,往往更有价值。
四、什么是外部效度
**外部效度(external validity)**讨论的是:
一个研究结论能在多大程度上推广到其他人、其他场景、其他时间。
也就是说,它关心的是“能不能推广”。
可以把它理解成:
- 内部效度更关注:这个结果是不是研究本身造成的
- 外部效度更关注:这个结果能不能用到研究之外
所以一个研究可能:
- 内部效度不错
- 但外部效度一般
例如:
- 一个实验室研究控制得非常好
- 变量也测得很细
- 但参与者全是某一所学校的心理学专业学生
那么它也许很适合回答:
- 在这个实验条件下,是否出现了某种效应
但不一定能立刻回答:
- 这个效应是否适用于所有年龄层、所有文化背景、所有现实场景
五、为什么“研究做得好”不等于“能推广得广”
这是研究方法里特别容易混淆的一点。
很多人会直觉地觉得:
- 这个研究设计得很严谨
- 所以它一定适用于所有人
其实不对。
严谨,更多说明:
- 研究内部控制做得好
- 因果解释更稳
- 测量更靠谱
但“能否推广”还取决于:
- 样本来自哪里
- 场景是否特殊
- 时间是否特殊
- 文化背景是否特殊
所以:
内部效度回答“结果是不是真的”;外部效度回答“结果能不能广泛适用”。
这两个都重要,但不是同一个问题。
六、生活中的例子
例子1:短视频影响注意力
假设研究者发现:
- 某大学学生连续刷短视频 30 分钟后
- 后续专注任务表现下降
这个研究也许做得很好。
但我们不能立刻说:
- 所有人刷短视频都会这样
- 各种年龄层都会一样
- 长期效果也一定一样
因为这里还要问:
- 样本是不是太单一
- 实验场景是不是太特殊
- 这种短时任务能否代表现实生活
例子2:某种学习方法有效
如果研究对象全是自律程度较高、主动报名参加学习项目的人,
那么这个方法的效果,未必能直接推广到:
- 动机较弱的人
- 时间压力很大的人
- 基础差异明显的人
这不是说研究没价值,
而是说:
研究结论的适用范围,需要谨慎判断。
七、这节课最重要的区分
你可以把这几节研究方法课连起来看:
- 实验/相关:你能不能谈因果?
- 混淆变量/内部效度:这个结果是不是研究造成的?
- 信度/效度:你到底有没有测准?
- 抽样/代表性/外部效度:这个结果能不能推广?
到这里你会发现:
心理学研究不是只问“有没有结果”,而是一步一步问:
- 结果真不真
- 测得准不准
- 原因稳不稳
- 推广广不广
这才是研究方法真正的价值。
八、这节课真正要带走的结论
- 研究通常只能研究样本,不能直接研究整个总体。
- 样本能不能代表总体,是判断研究结论能否推广的重要前提。
- 代表性不足时,研究结论的推广范围就要谨慎。
- 外部效度讨论的是:研究结果能不能推广到其他人、其他场景、其他时间。
- 一个研究即使内部做得很好,也不自动意味着可以广泛推广。
复习问题
- 总体和样本有什么区别?
- 为什么样本人数多,不自动等于代表性强?
- 外部效度和内部效度最大的区别是什么?
- 为什么我们不能把某个研究结果直接推广到所有人?