专家观点:大数据技术及行业应用实施策略

2013-05-17 08:17:20

        2013年5月15日,英特尔公司举办了大数据技术及行业应用论坛。在论坛上,来自英特尔的专家讲解了大数据方面的实施策略,同时,用友公司在大数据方面的负责人也发表了其在相关领域的观点。以下为相关内容。

       首先,英特尔中国行业合作解决方案服务部企业技术销售与数据中心资讯资深经理张哲源先生简要介绍英特尔公司在大数据方面的策略。

英特尔中国行业合作解决方案服务部企业技术销售与数据中心资讯资深经理张哲源

       张哲源:我来自英特尔行业解决合作方案部。刚刚在主会场也和大家介绍过,苗博士也介绍了英特尔在大数据的有关战略。很多人会问英特尔大数据主要目标在哪里?英特尔本身是以芯片为主的公司,在大数据英特尔有什么样的看法。苗凯翔博士刚才也有介绍,英特尔除了芯片、平台、存储、I/O、网络架构上,在各方面,在各个数据中心的投入,这是硬件的投入。再往上,为了让这些应用跑的好,我们可能在硬件平台相关的应用做各种各样的应用、开发、优化。我们和合作伙伴以及行业用户做很多的交流以及投入的开发。过去一年我们和很多客户的合作以及案例已经实施部署。在2013年有很多大数据的挑战和应用,以及客户有很多的需求。所以我们从5月中到6月初在全国六个城市:北京、上海、广州、南京、武汉、成都陆续都会有一个这样的论坛,把英特尔相关的大数据技术、战略以及相关行业的实施案例,通过对几个重点行业:电信、金融、医疗、智慧城市相关需求,我们希望跟更多的行业客户和合作伙伴有更多的交流,推动大数据在中国的应用。让英特尔相关的技术、平台、软件都得到很好的部署和优化。这是我们举办路演的主要目的。

       接着,英特尔数据中心软件部中国区首席技术官苗凯翔博士对大数据方面的动向进行了阐述。

英特尔数据中心软件部中国区首席技术官苗凯翔博士

       苗凯翔:英特尔在中国大数据是发展的最快的,去年中已经有一些非常好的案例,去年三季度公布了我们在国内的大数据解决方案英特尔Hadoop发行版软件,那时候全球还没有发布。在美国宣布这个产品是今年2月25日。中国比其他国家是先迈出了一大步。我们看到国内有非常好的应用案例,比如电信行业的需求非常强,很多数据积攒起来,可能有一些用户想真正干一些事情,电信行业3G智能手机的用户想查账单查不了,这完全是一个大数据问题,因为数据太大分析不了。比如中国联通当时找到我们想干一件事儿,想让我们帮助他们,他们说现在有很多的3G用户对每月的流量表示怀疑,对于每月的账单不了解,这主要是因为后端数据量太大了。

       除了电信行业之外,最近几个月中国智慧城市也有非常具体的案例,智慧城市有大量数据,车载数据、视频数据、监控数据这些量非常大,如果不用这些数据,扔掉了,根本干不了你想干的事情。然后是金融行业也有大量的数据,无论是从监管、业务管理、用户管理来说各个方面的数据都非常大。另外还有医疗行业也有很大需求。当时驱动我们把Hadoop变成一个真正的产品帮助客户干事情的动力。2009年开始我们已经开始做Hadoop,当时是作为一个创新主题,看看Hadoop的架构、应用场景是什么。由于当时中国有具体的需求,在中国的大数据的环境非常好,很典型的中国电信行业用户太多了,数据量特别大,有这样的需求,所以我们马上把Hadoop变成了一个产品,满足客户的需求。

       现在大数据软件解决方案已经成为了英特尔全球战略。当时是美国、欧洲、新加坡,2013年2月25日同一天发布了英特尔Hadoop发行版软件。从英特尔战略来讲,硬件和软件的结合非常重要,英特尔真的从性能上帮助业界往前跨一步。大数据的数据量非常大,某些场景的计算需求也非常大,所以我们准备和大家一块儿往这个方向建设,在这个生态链里共同努力,这确实是一个方向。

       最后英特尔的重要合作伙伴用友公司的徐春华先生也发表了观点。

用友医疗卫生信息系统有限公司副总裁徐春华

       徐春华:用友作为亚太本土最大的管理软件公司,我们涉及的行业非常广,刚才提到的金融、电信、医疗都是我们主要的目标行业。基于过去20多年应用软件演变过程中,现在发现传统的解决方案在解决我们当前不断发展的新问题的时候,其实遇到了一些瓶颈。所以在去年我们推出了平台化的转型战略,在这个战略中技术层面有一个核心内容,那就是统一应用平台。

       统一应用平台涉及两方面的含义:一方面是多平台的聚合;另外一个方面是对传统应用平台内涵的扩展。由于时间原因我简单介绍这里包含的元素。相对于传统的应用平台,新一代的UEP的统一应用平台,主要是增加四方面元素:云计算、大数据、移动技术、物联网。刚才IDC的专家也进行了介绍。今天是大数据论坛,大数据主要是用来解决在行业里随着几十年业务信息系统运行中积累的大量数据量,这和现在这个社会社交数据产生的背景是有一些差异的,这是长期数据的积累,它典型的特点是本身的同类异构是非常普遍的现象。

       “同类异构”现象对我们来说可能是一个同一个账单,但是这30年可能有不同版本。这些数据不可能简单采用标准化手段,转化成统一格式处理。实际上这些历史数据蕴藏巨大的价值,针对这样的数据处理就必须采用大数据处理手段来处理。这里关键要素涉及到两个:一是通过引入并行计算框架提高整个解决方案的运行性能,到了PB级数据以后,运行时间成为了关键参数。过去一个问题解决起来传统方案是5秒、10秒甚至到1小时都是可接受的,但是今天我们面临的PB级的异构数据按照传统方式来做的话,它的时间性能要求非常高,这使得我们必须引进非常有效的并行计算框架解决这个问题。二是基于列的数据库架构。这和传统的关系型数据库是最有差异的。如果说并行计算是一种共有技术的,但是基于列的数据库结构和传统关系型数据库是有本质差别的,它在处理非结构化数据或者非结构化和结构化数据并存的情形下是有很大优势的,在过去一年中,我们和英特尔上海Hadoop团队合作的非常好,我们率先在UEP框架中和英特尔团队合作,合作的基准点是基于英特尔x86集群+x86综合解决方案,来尝试处理现在在医疗中的问题。在过去一年,我们重点在区域性、大型电子健康档案和区域性的医疗质量分析方面都做了尝试。从运转情况来看效果非常理想。

       现在所提的大数据技术应该能为各个行业,我现在专注在医疗上,特别是能够给医疗带来非常大的价值。相信大数据技术将来可能影响到在座的每个人。过去几十年甚至上百年的数据,有的人说医疗怎么可能有上百年的数据,协和119年前的病历数据还存在档案柜里。现在我们做很多病种分析的时候还在引用119年前的数据,但是这种手段过去非常落后,现在时间关键要素就是一个大因素,这些数据如果通过大数据的技术来处理,将为医疗技术发展带来革命性的变化。这样相信对在座每个人都有直接相关性。

来源:PConline