江苏邮政为大数据时代提供驱动力 -凯发k8官网

江苏邮政为大数据时代提供驱动力

张懿瑶2014-10-29来源:中国邮政报

    “每18个月,全球新增的信息量都能达到或超过以往全部信息量的总和。”著名数据库专家jim gray提出的摩尔定理定义了当今社会数据量的发展趋势。近年来,大数据在以爆发性的态势蓬勃发展,数据已被视为企业运行的“新型石油”,成为决策成本产生巨变的爆发点。但数据作为一个术语本身,并不能带给企业任何价值,其核心价值在于寻找有用的信息帮助企业作出更好的商业决策。

    在这一大背景下,近年来,江苏省邮政公司一直致力于大数据的研究工作。

    从2010年起,江苏邮政信息技术局在为企业各级单位提供数据抽取统计及报表服务的同时,积极围绕企业转型发展的热点问题开展专题研究及分析工作。但在刚尝到数据给企业带来的“福利”时,数据分析工作的开展却变得愈发“吃力”。近年来,江苏邮政数据量以几何倍数增长,同时数据调阅、分析需求越来越多,时限要求也越来越高,但数据存储和分析速度一直无法突破(1tb的磁盘,数据传输速度100mb/s,仅读取一遍就需要2.5小时)。江苏邮政数据分析团队通过延长工作时间来满足业务需求,但数据分析工作和日益增长的数据量及需求之间的矛盾,仅依靠叠加作业量并不能得到根本性的解决,新技术的应用研究成为突破瓶颈的根本出路。

    今年以来,江苏邮政数据分析团队在对业界的各类技术平台和应用场景学习、了解的基础上,验证了各类技术凯发k8官网的解决方案的有效性和可靠性,结合全省邮政数据分析工作实际情况,引入了hadoop大数据平台。目前,江苏邮政已完成hadoop大数据平台的搭建,并投入使用。每天通过该平台中的sqoop组件,将下载平台中cpdds_sdata用户下常用的增量表从关系型数据库中抽取到hadoop的hdfs中,以供查询调用。通过在mapreduce中编写程序或在hive上编写ql语言来分析抽取出的数据。在此基础上进一步使用高级数据分析技巧和数据可视化技术对处理后的数据进行进一步加工,也可以将数据从hadoop集群转移到现有的关系型数据库、数据仓库等传统的it系统中,以适应现有建立在传统数据库基础上的应用程序,极大地缩短了任务处理时间,提高了项目效率。

    hadoop作为大数据处理系统的新一代的架构和技术,在业界中被广泛应用,以自身在数据提取、变形和加载方面的天然优势,已被公认为新一代的大数据处理平台,ibm、microsoft以及oracle等都纷纷投入了hadoop的怀抱,该项技术的应用已遍布互联网、电信、电子商务、银行、物流等众多领域。yahoo!用hadoop处理网络连接之间的网页索引资料,为用户提供高质量的搜索服务;facebook借助集群运行hadoop,支持数据分析和机器学习;百度使用hadoop进行搜索日志的分析和网页数据的挖掘;淘宝的hadoop系统用于存储并处理电子商务交易的相关数据。随着信息技术的不断发展,新商业模式的不断涌现,hadoop应用也会向更多的领域发展。

    依托hadoop大数据处理技术,江苏邮政将以更加开放的姿态拥抱大数据的未来,进一步加快数据在企业的战略布局,为江苏邮政在大数据时代迅速应对政策变化,提升应对利率市场化、金融脱媒、金融业态演变等挑战能力提供驱动力。后期将进一步推进移动bi技术的应用研究,帮助企业通过更快速的方式传导运营信息,加快数据分析应用,以应对外部环境的瞬息万变,辅助迅速决策。

网站地图