上周我谈到一个人到底有几个朋友,按照不同的方法猜估的结果,一个人大概有两、三百个到两、三千个。从这么一个简单的观念开始,它后头倒有许多有趣和相当深奥的重要的数学问题。
首先,假设我们已选定了某一个猜估的方法去决定一个人有多少个朋友,不同的人,有不同数目的朋友,那么平均一个人有几个朋友呢?诸位都知道平均值是蛮简单的,只要把全世界60亿人口里的每一个人有多少个朋友算出来,把结果加起来被60亿除,那就是平均值了。但是,当我们没有办法决定60亿人口里每一个人的朋友数目的时候,我们会自然的说,找100个人,把他们的朋友的数目的平均值找出来,就算是60亿人口的平均值了,这就是统计学上「抽样」(sampling)这个观念,换句话说,我们用这100或者1000个人作为代表,希望按照他们算出来的结果跟真正的结果会相差不远。「抽样」这个观念应用得非常广泛,譬如说在选举的时候,民意调查就是在几百万的选民中,找几千个人作为抽样,以他们的意见代表全体选民的意见。另外一个例子,是为决定一个产品制造良率,我们在一百万个产品里,选出一千个抽样,如果发现其中有两个是不良的,那么我们会说这一百万个产品的不良率是千分之二。抽样是统计学中很重要的技术,其中最重要的两个问题是,选多少个抽样?怎样选这些抽样?
让我很简单的讨论一下第一个问题,那就是「要选多少抽样?」,就像我前面说,如果我们要决定60亿人里一个人平均的朋友的数目,准确的答案是把60亿人,每个人的朋友的数目决定后,来算平均值;如果我们要决定一百万个产品是好的,多少个是坏的,当这样做是太麻烦甚至不可能的时候,如果我们在60亿人口中,抽30亿人,那么算出来的结果,不一定完全准确,但应该相当接近;如果只抽1亿人的话,结果很可能跟准确的答案会有若干的误差了;如果只抽一千个人的话,结果很可能跟准确的答案有比较大的误差。因此,很明显的,抽样的大小跟结果的误差有密切的关系,在统计学上,误差界限(margin of error)这个观念,是说抽样应该有多大,算出来的结果跟准确的结果比较不会超过某一个百分比,这个百分比就叫做误差界限,有些统计学的公式,套进去就会告诉你抽样的大小,最低限度应该是什么。
假设我们已经估计出来,如果抽样的大小是2000个产品,误差界限是3%,那并不表示,每次你抽2000个产品,你得出来的结果的误差一定是在3%之内,也许很多次不同的抽样,得出来的结果误差是在3%之内,偶然有几次的抽样,得出来的结果是在误差界限之外。所以,我们得加上另外一个观念叫做「信赖水平」(level of confidence),那就是说我们在很多次的抽样检验过程中,我们希望每一百次的抽样检验过程,有九十次得出来的结果,它的误差界限是在预定的范围之内的,那么百分之九十就是我们的信赖水平。总之,当我们作抽样测试时,如果我们希望误差界限小,信赖水平高,那么抽样越多,结果就会越准确。
至于第二个问题「应该怎样抽样?」,我就不在这里谈了。统计学是一门有趣、有用的科学,大家可以找些书看看,多了解一点。科学家相信统计学,那么文学家呢?有人相信,也有人不信,大家都听过瞎子摸象的故事,有几个瞎子,从不知道象是怎么样一个动物,有一天,他们一起去摸一只象,摸到鼻子的,说象是一根管子,摸到耳朵的,说象是一把扇子,摸到脚的,说象是一根柱子,摸到尾巴的,说象是一条绳子,摸到身体的,说象是一道墙,摸到象牙的,说象是一根大萝卜,所以,抽样是不可靠的。成语里也有「以管窥天」、「以蠡测海」,都是眼光狭窄,力量有限,无法看到全貌,也是不相信抽样的例子。
Willam Blake有一首很有名的小诗,前面两句是:
To see a world in a grain of sand,
And a heaven in a wild flower.
「从一粒沙里看世界,从一朵野花看见天堂。」那也不正是「抽样」吗?
有一位作家,寄了一本书的初稿给出版社的总编辑,过了一天书稿就被退回了,总编辑说不适合出版,这位作家很生气写了一封信给总编辑:你没有看完我的书稿,凭什么决定这本书不适合出版呢?我把稿子寄给你的时候,刻意把第100页和第101页黏起来,我打开被你退回的书稿,第100页和第101页还是没被打开,可见你根本没有看完我的书稿。总编辑回了一封信说:当我吃一个鸡蛋的时候,如果第一口咬下去就发现这是一个发霉的臭蛋,难道我还要咬下去吗?这也是抽样。成语里也有:「以管窥豹,可见一斑」这句话,就是说通过一个管子来看一只豹,起码可以看到他身上的一个斑纹,今天「可见一斑」这句成语,是说抽样这个观念和技术的,还是有用的。
我曾经在这个节目上讲过一个故事:有一位工程师、一位物理学家、一位数学家一起在苏格兰坐火车,当他们看到火车窗外,站着一只黑色的羊的时候,工程师说:「全苏格兰的羊都是黑色的。」物理学家说:「你不能下这个结论,你只能说『在苏格兰有一只羊是黑色的』。」数学家说:「你不能下这个结论,你只能说『在苏格兰有一只羊,他的左半边是黑色的』。」这也是抽样的问题。
未完待续
文章转载请注明: 转载自智上传播——健康生活 智慧心灵 成功人生
本文链接地址: 抽样「sampling」(1)
文章的脚注信息由WordPress的wp-posturl插件自动生成
- 全球信息网WWW的自由分享 计算机的发明和随后的发展,已经有六十年的历史了。把计算机和计算机相互连接起来的计算机网络的建立,也开始在四十年前,计算机和计算机网络的使用,大致还停留在科技专家们的工具的阶段。1990年全球信息网(World Wide Web)的发明,的确可以说藉由计算机和计算机的连接,朝着把人类大脑和大脑连接起来的目标和方向,向前迈出了一大步。全球信息网这个平台,的确让世界变得更小、更平坦了。Thomas...