也谈大数据
作者: Excellence // 2012 年 11 月 13 日 // 杂货大街 // 没有评论
当下在数据分析界,最热门的莫过于:大数据(Big Data),随个大流,掺和一下。塔吉特百货(Target)通过分析客户的购物记录,发现孕妇会买许多大包装的无香味护手霜,在怀孕的最初20周会大量购买补充钙、镁、锌的善存片之类的保健品。透过特定的用户行为分析,就将第2个妊娠期的孕妇给甄别确认了出来。这是一个典型的数据挖掘案例,但这和大数据挖掘相差甚远,而这最近又被演绎成了大数据挖掘的案例,新品装旧酒的有木有。
巨大的数据体量Volume,繁多的数据类型Variety,低密度的价值Value,即时响应的速度Velocity 是大数据的四大特征。其主要以非结构化和半结构化数据为主,包括了诸如数据库、图片、文本、视频、音频、压缩格式等数据,基于互联网的新兴行业才有这样的大量各式数据流,而大家常讲的海量数据则偏向结构化数据,这些数据又多见于传统的制造和销售类企业中,比如交易数据,塔吉特百货的案例就属此类。
奥巴马的团队经过了18个月,为如何找到选民并吸引他们的注意力,预测通过哪种特定方式发出呼吁可劝说哪类选民,抛弃孤岛式数据库并重新建立了新式数据库,并在此基础上进行的这个数据挖掘是赢得此次选举的关键。该案例使用了Web追踪和社交媒体网站的信息,包含了大量的文本、图像、以及富媒体信息。首先数据可能是PB级的;其次数据类型多样,单条数据价值低;另外选举的时效性和变化快,势必要求响应速度快速,这应该算是一个大数据挖掘的案例。Ps:这个案例中,使用搜索算法的文本挖掘可能是主攻方向。
图表君浮浅的认为:面对大数据挖掘,我们常见的数据挖掘依然是完全适用的,但其前提却是如何将各类非结构化和半结构化数据转化为结构化数据,于是基于文本的分词、基于图片的OCR、以及类似从1万个不同结构和内容的Excel活页簿中提取数据的等等算法成为关键,比如谷歌搜索的以图找图功能。另外数据动态时时的变化于更新,也为算法增加了相应的难度。从这个意义而言,大数据更多是基于数据提取技术的,而这恰恰是大数据分析的关键,每一项基于数据挖掘的数据提取及分析算法,都可能穷尽一个算法程序猿的大好年华。
此外基于各类非结构化和半结构化数据的存储技术,也成为重点,如果仅仅是将这类数据散落在服务器硬盘的各个角落,显然挖掘就是一件苦逼的事,如何规划并优化服务器集群的存储相比以往更加复杂,像视频音频的流媒体更是繁杂,因为你还要必须考量服务器的动态平衡,于是分布式、并行处理数据库的建设成为前提。
如果海量数据是一个小团队3~5月就可以玩转一个项目的数据游戏,而大数据则是一个有相当规模的团队集团化耗时以年计才可以运作的大动作。而且咨询顾问式的外科手术已经无法胜任,需要企业自身必须有相应团队持续不断的运作。如果搜索谷歌关于大数据的新闻信息,不难发现:有关大数据的动态几乎都少不了IT巨擎的身影,因为玩转大数据所需要的技术储备已经不是普通的IT和数据分析部门靠玩个把SQL语句+数据分析模型就可以胜任的事。
传统的数据挖掘在大数据时代依然是非常重要的一个环节,但分析模型将被置于数据提取为结构化数据之前,必须和数据提取算法、动态的BI展示技术整合,以实现数据的实时性分析。虽然开发预言分析应用程序模型成为大数据分析的一个要求,但对于玩数据的大多数数据控,大数据至于我们而言根本上没啥大的区别,理解透彻业务,掌握好挖掘技术,管你是宇宙级的数据也是那个挖法,未来是数据时代。