数据是真实有效的吗?

作者:  //  2010 年 7 月 29 日  //  图表相关  //  没有评论

             

  • 是否偷换了概念?

    在看统计资料时,从收集原始资料到得出结论的整个过程,是否存在着概念的偷换。比如在收集数据时问题问的是可支配收入,下结论说的是收入;问题问的是使用过什么产品,结论说是经常使用什么产品;实际调查只针对某几项因素,下结论时却不加定语限制,让人觉得是整体的情况描述,就似现在国内大学排名,不同机构采用不同的指标排出不同的结果,实际公布时对采用的指标只字不提,结果往往误导和迷惑读众。

    给我印象深刻的是在2008年奥运会结束后四大门户网站都对外称自己在奥运会期间的报道取得了第一,让网友摸不着头脑的同时也让业界疑虑丛生。其实导致这种结果的第一个原因是不同公司排名所采用的指标不一样,指标分别有“用户访问量”、“网页流量”、“平均每位用户停留时间”、“访问速度”、“冠军访谈数量”等,这样四大门户都可以对外声称在奥运报道上取得了第一;第二个原因是引用的数据源不一样,导致数据上的差异,甚至不同公司引用同一家调研公司的数据都是不一样的,摘录其中一段调研公司的解释:“新浪、搜狐用的是我们两次不同的调查数据,这两次调查的城市范围、方法等都不一样,两方面数据结果根本没有可比性。新浪公布的那个结果是我们在国内128个城市采取计算机辅助电话访问的调查结果,而搜狐公布的那份结果是我们在北京、上海、广州、青岛、南京5个重要城市采取街访方式的调查结果。那5个最重要的城市和其他128个城市的网络普及率、人对网络的偏好都不一样,数据结果反映的东西肯定也不同”,普通网民在关注到“第一”的同时会去关注这些背后的数据吗?

    另外就是同一个数据,但是图表的基准值、刻度等不一样,也会导致图表表达出的效果截然不同,比如下面两个图,左边第一眼给人的感觉是2名用户之间的上网时长差异不大,而右边这个给人的感觉是差异非常大。

  • 这个资料有意义吗?

    许多统计资料在我们一眼就能看出是有误的。比如前一阵因为BT事件,一调查机构宣称:在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina;有时在对用户进行分类时,对于分类结果,分成的各个类别的用户是否都能在现实中找到对应的人群,或者说周围认识的每一个人是否都能找到属于自己的类别,这都是一眼能够看出是否有意义的。

    最后再举一个最常见但也最经常被误导的两个例子:

    很多人在学生时代肯定都听过老师有过这样的计算:离某某考试还有1个月时间,扣去一天8小时共10天的睡眠时间,扣去一天约4小时共5天的进餐活动等时间,再扣掉每周两天共8天的双休日,这时余下的学习时间就只剩7天了,这时一听都觉得很紧张,但是感觉没有这么短啊,其实是我们被老师忽悠了;一个产品开发项目计划本来总时长是1个月,后来因为某种变更,需求规划时间要增加15%,界面设计时间要增加20%,开发的时间要增加10%,测试时间要增加5%,则总时间要增加50%?实际总时间增加肯定不到20%。

  • 在这个信息爆炸的时代,统计本是一个通过数据揭露本质的有力工具,但遗憾的是,统计未必能够揭示真实,有时候还可能成为假象的帮凶。当我们面对生活中形形色色的统计数据时,还要多保持一些理智和清醒,并要有所保留地看待问题。因为“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。

    关于作者

    Ms Office爱好者,仅仅就是一个懂得高效偷懒的伙计,但绝对不是属于Office软件的骨灰级玩家,相对注重实用。比较热衷数据可视化,当然这个爱好中忒注重视觉的部分,和我的工作基本无关,但就是喜欢。

    查看所有 的文章

    留下您的评论

    您必须 方可发表评论。