大数据建设背景介绍

大家好，又见面了，我是你们的朋友全栈君。

随着移动互联网､物联网和云计算技术的迅速发展，开启了移动云时代的序幕，大数据（BigData）也越来越吸引人们的视线｡正如1982年世界预测大师､未来学家约翰.奈斯比特（John.Naisbitt）在他的著作中所提到的：“我们现在大量生产信息，正如过去我们大量生产汽车一样”､“人类正被信息淹没，却饥渴知识”，等等诸的预言均在当下得到了充分的证实，这也恰恰说明，世界正处一个信息爆照的时代｡

Internet的出现缩短了人与人､人与世界之间的距离，整个世界连成一个“地球村”，人们通过网络无障碍交流交换信息和协同工作｡与此同时，借助Internet的高速发展､数据库技术的成熟和普及､高内存高性能的存储设备和存储介质的出现，人类在日常学习､生活､工作中产生的数据量正以指数形式增长，呈现“爆炸”状态｡“大数据问题”（Big DataProblem）就是在这样的背景下产生的，成为科研学术界和相关产业界的热门话题，并作为信息技术领域的重要前沿课题之一，吸引着越来越多的科学家研究大数据带来的相关问题。

期刊《Nature》和《Science》针对大数据分别出版了专刊“Big Data”和“Dealingwith Data”，从互联网技术､互联网经济学､超级计算､环境科学､生物医药等多个方面讨论了大数据处理面临的各种问题。2011年5月，全球知名咨询公司麦肯锡（Mckensey and Company）在美国拉斯维加斯举办了第11届EMC World年度大会，设定的主题为“云计算相遇大数据”，发布了“Big data：Thenext frontier for innovation，competition and productivity”的报告，首次提出“大数据”的概念，并在报告中指出：“数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素，而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。美国联邦政府建立统一的门户开放网站——Data.Gov，开放政府拥有的公共数据，鼓励民众对其进行自由开发，进一步推进政府数据开放；美国政府各部门也纷纷有所行动，美国国家科学基金委员会（NSF）､美国国家卫生研究院（NIH）､美国能源部（DOE）､美国国防部（DOD）､美国国防部高级研究计划局（DARPA）､美国地质勘探局（USGS）等6个部门联合推出了大数据计划，旨在提升从大量复杂数据中获取知识和洞见的能力｡

处于发展中国家前列的中国，大数据的应用处于起步阶段。在工信部发布的物联网“十二五”规划中，把信息处理技术作为4项关键技术创新工程之一提出，其中包括了海量数据存储､数据挖掘､图像视频智能分析，这都是大数据的重要组成部分。而另外3项：信息感知技术､信息传输技术､信息安全技术，也与“大数据”密切相关。同时，为推动大数据在我国的发展，2012年8月，中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项，其任务之一就是研制用于大数据采集､存储､处理､分析和挖掘的未来数据系统；同时，中国计算机学会成立了大数据专家委员会（CCF Big DataTask Force，CCF BDTF）；为探讨中国大数据的发展战略，中科院计算机研究所举办了以“网络数据科学与工程——一门新兴的交叉学科”为主题的会议，与国内外知名专家学者一起为中国大数据发展战略建言献计；2013年，科技部正式启动863项目“向大数据的先进存储结构及关键技术”，启动5个大数据课题。

由此可见，大数据的发展已经得到了世界范围内的广泛关注，发展趋势势不可挡。如何将巨大的原始数据进行有效地利用和分析，使之转变成可以被利用的知识和价值，解决日常生活和工作中的难题，成为国内外共同关注的重要课题，同时也是大数据最重要的研发意义所在。

1. 大数据的产生

现在的社会是一个信息化､数字化的社会，互联网､物联网和云计算技术的迅猛发展，使得数据充斥着整个世界，与此同时，数据也成为一种新的自然资源，亟待人们对其加以合理､高效､充分的利用，使之能够给人们的生活工作带来更大的效益和价值。在这种背景下，数据的数量不仅以指数形式递增，而且数据的结构越来越趋于复杂化，这就赋予了“大数据”不同于以往普通“数据”更加深层的内涵。

在科学研究（天文学､生物学､高能物理等）､计算机仿真､互联网应用､电子商务等领域，数据量呈现快速增长的趋势。美国互联网大数据平台（IDC）指出，互联网上的数据每年将增长50%以上，每2年便将翻一番，而目前世界上90%以上的数据是最近几年才产生的。数据并非单纯指人们在互联网上发布的信息，全世界的工业设备､汽车､电表上有着无数的数码传感器，随时测量和传递有关位置､运动､震动､温度､湿度乃至空气中化学物质的变化等也产生了海量的数据信息。

科学研究产生大数据。现在的科研工作比以往任何时候都依赖大量的数据信息交流处理，尤其是各大科研实验室之间研究信息的远程传输。比如类似希格斯玻粒子的发现就需要每年36个国家的150多个计算中心之间进行约26PB的数据交流。在过去的10年间，连接超过40个国家实验室､超级计算中心和科学仪器的能源科学网（Esnet）上的流量每年以72%的速度增长，2012年11月Esnet将升级为100Gbps。

物联网的应用产生大数据。物联网（the Internet of things）是新一代信息技术的重要组成部分，解决了物与物､人与物､人与人之间的互联。本质而言，人与机器､机器与机器的交互，大都是为了实现人与人之间的信息交互而产生的。在这种信息交互的过程中，催生了从信息传送到信息感知再到面向分析处理的应用。人们接受日常生活中的各种信息，将这些信息传送到大数据平台，利用大数据平台的智能分析决策得出信息处理结果，再通过互联网等信息通信网络将这些数据信息传递到四面八方，而在互联网终端的设备利用传感网等设施接受信息并进行有用的信息提取，得到自己想要的数据结果。

目前，物联网在智能工业､智能农业､智能交通､智能电网､节能建筑､安全监控等行业都有应用。巨大连接的网络使得网络上流通的数据大幅度增长，从而催生了大数据的出现。

海量网络信息的产生催生大数据。移动互联时代，数以百亿计的机器､企业､个人随时随地都会获取和产生新的数据。互联网搜索的巨头Google现在能够处理的网页数量是在千亿以上，每月处理的数据超过400PB，并且呈继续高速增长的趋势；Youtube每天上传7万小时的视频；淘宝网在2010年就拥有3.7亿会员，在线商品8.8亿件，每天交易超过数千万笔，单日数据产生量超过50TB，存储量40PB；2011年Internet World统计互联网用户近20亿，Facebook注册用户超过8.5亿，每天上传3亿张照片，每天生成300TB日志数据；新浪微博每天有数十亿的外部网页和API接口访问需求，每分钟都会发出数万条微博；百度目前数据总量接近1000PB，存储网页数量接近1万亿，每天大约要处理60亿次搜索请求，几十PB数据；据IDC的研究结果，2011年创造的信息数量达到1800EB，每年产生的数字信息量还在以60%的速度增长，到2020年，全球每年产生的数据信息将达到35ZB……所有的这些都是海量数据的呈现。

随着社交网络的成熟､传统互联网到移动互联网的转变､移动宽带的迅速提升，除了个人电脑､智能手机､平板电脑等常见的客户终端之外，更多更先进的传感设备､智能设备，比如智能汽车､智能电视､工业设备和手持设备等都将接入网络，由此产生的数据量及其增长速度比以往任何时期都要多，互联网上的数据流量正在迅猛增长。

1. 大数据的提出

1989年，Gartner Group的Howard Dresner首次提出“商业智能”（Business Intelligence）这一术语。商业智能通常被理解为企业中现有的数据转化为知识､帮助企业做出明智的业务经营决策的工具，主要目标是将企业所掌握的的信息转换成竞争优势，提高企业决策能力､决策效率､决策准确性。为了将数据转化为知识，需要利用数据仓库､联机分析处理（OLAP）工具和数据挖掘（Data Mining）等技术。随着互联网络的发展，企业收集到的数据越来越多､数据结构越来越复杂，一般的数据挖掘技术已经不能满足大型企业的需要，这就使得企业在收集数据之余，也开始有意识的寻求新的方法来解决大量数据无法存储和处理分析的问题。由此，IT界诞生了一个新的名词——“大数据”。

对于“大数据”的概念目前来说并没有一个明确的定义。经过多个企业､机构和数据科学家对于大数据的理解阐述，虽然描述不一，但都存在一个普遍共识，即“大数据”的关键是在种类繁多､数量庞大的数据中，快速获取信息。维基百科中将大数据定义为：所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取､管理､处理，并整理成为帮助企业经营决策更积极目的的资讯。IDC将大数据定义为：为更经济地从高频率的､大容量的､不同结构和类型的数据中获取价值而设计的新一代架构和技术。信息专家涂子沛在著作《大数据》中认为：“大数据”之“大”，并不仅仅指“容量大”，更大的意义在于通过对海量数据的交换､整合和分析，发现新的知识，创造新的价值，带来“大知识”､“大科技”､“大利润”和“大发展”。

从“数据”到“大数据”，不仅仅是数量上的差别，更是数据质量的提升。传统意义上的数据处理方式包括数据挖掘?数据仓库?联机分析处理（OLAP）等，而在“大数据时代”，数据已经不仅仅是需要分析处理的内容，更重要的是人们需要借助专用的思想和手段从大量看似杂乱?繁复的数据中，收集?整理和分析数据足迹，以支撑社会生活的预测?规划和商业领域的决策支持等。

著名数据库专家?图灵奖的获得者Jim Gray博士总结出，在人类的科学研究史上，先后经历了实验（Empirical）?理论（Theoretical）和计算（Computational）3种范式，而在数据量不断增加和数据结构愈加复杂的今天，这3种范式已经不足以在新的研究领域得到更好地运用，所以JimGray博士提出了科学的“第4种范式”（TheFouth Paradigm）这一新型的数据研究方式，即“数据探索”（Data Exporation），用以指导和更新领域的科学研究。数据探索，通过设备采集数据或是模拟器仿真产生数据；通过软件实现过程仿真；将重要信息存储在电脑中；科学家通过数据库分析相关数据。

1. 大数据的特征

在日新月异的IT业界，各个企业对大数据都有着自己不同的解读。但大家都普遍认为，大数据有着4“V”特征，即Volume（容量大）､Variety（种类多）､Velocity（速度快）和最重要的Value（价值密度低）。

Volume是指大数据巨大的数据量与数据完整性。十几年前，由于存储方式､科技手段和分析成本等的限制，使得当时许多数据都无法得到记录和保存。即使是可以保存的信号，也大多采用模拟信号保存，当其转变为数字信号的时候，由于信号的采样和转换，都不可避免存在数据的遗漏与丢失。那么现在，大数据的出现，使得信号得以以最原始的状态保存下来，数据量的大小已不是最重要的，数据的完整性才是最重要的。

Variety意味着要在海量､种类繁多的数据间发现其内在关联。在互联网时代，各种设备连成一个整体，个人在这个整体中既是信息的收集者也是信息的传播者，加速了数据量的爆炸式增长和信息多样性。这就必然促使我们要在各种各样的数据中发现数据信息之间的相互关联，把看似无用的信息转变为有效的信息，从而做出正确的判断。

Velocity可以理解为更快地满足实时性需求。目前，对于数据智能化和实时性的要求越来越高，比如开车时会查看智能导航仪查询最短路线，吃饭时会了解其他用户对这家餐厅的评价，见到可口的食物会拍照发微博等诸如此类的人与人､人与机器之间的信息交流互动，这些都不可避免带来数据交换。而数据交换的关键是降低延迟，以近乎实时的方式呈献给用户。

大数据特征里最关键的一点，就是Value。Value的意思是指大数据的价值密度低。大数据时代数据的价值就像沙子淘金，数据量越大，里面真正有价值的东西就越少。现在的任务就是将这些ZB､PB级的数据，利用云计算､智能化开源实现平台等技术，提取出有价值的信息，将信息转化为知识，发现规律，最终用知识促成正确的决策和行动。

1. 大数据的应用

发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变，这对于提升企业综合竞争力和政府的管制能力具有深远意义的影响。将大量的原始数据汇集在一起，通过智能分析､数据挖掘等技术分析数据中潜在的规律，以预测以后事物的发展趋势，有助于人们做出正确的决策，从而提高各个领域的运行效率，取得更大的收益。

商业

商业是大数据应用最广泛的领域。沃尔玛（Walmart）通过对消费者购物行为等这种非结构化数据进行分析，了解顾客购物习惯，从销售数据分析适合搭配在一起买的商品，创造了“啤酒与尿布”的经典商业案例；淘宝服务于卖家的大数据平台——“淘宝数据魔方”有一个“无量神针——倾听用户的痛”屏幕，监听着几百万淘宝买家的心跳，收集分析买家的购物行为，找出问题的先兆，避免“恶拍”（买家拍下产品但拒收）发生，淘宝还针对买家设置大数据平台，为买家量身打造完善网购体验的产品。

金融

大数据在金融业也有着相当重要的作用。华尔街“德温特资本市场”公司分析全球3.4亿微博账户的留言，判断民众情绪，人们高兴的时候会买股票，而焦虑的时候会抛售股票，依此决定公司股票的买入或卖出，该公司2012年第一季度获得了7%的收益率。Equifax公司是美国三大征信所之一，其存储的财务数据覆盖了所有美国成年人，包括全球5亿个消费者和8100万家企业。在它的数据库中与财务有关的记录包括贷款申请､租赁､房地产､购买零售商品､纳税申报､费用缴付､报纸与杂志订阅等，看似杂乱无章的共26PB数据，经过交叉分享和索引处理，能够得出消费者的个人信用评分，从而推断客户支付意向与支付能力，发现潜在的欺诈。

医疗

随着大数据在医疗与生命科学研究过程中广泛应用和不断扩展，产生的数据之大､种类之多令人难以置信。比如医院中做B超､PACS影像､病理分析等业务产生了大量非结构化数据；2000年一幅CT存储量才10MB，现在的CT则含有320MB，甚至600MB的数据量，而一个基因组序列文件大小约为750MB，一个标准病理图的数据量则有接近5GB。如果将这些数据量乘以人口数量和平均寿命，仅一个社区医院就可以累积达数TB甚至PB级的结构化和非结构化数据。

另外，为了实现医院之间对病患信息的共享，2010年我国公布的“十二五”规划中指出要重点建设国家级､省级和地市级三级卫生信息平台，建设电子档案和电子病历两个基础数据库等。随着国家逐渐加大对电子病历的投入，各级医院也将加大在大数据平台､医疗信息仓库等领域的投入，医疗信息存储将越来越受重视，医疗信息中心的关注点也将由传统“计算”领域转移到“存储”领域上来。

制造业

中国制造业的相关企业随着ERP､PLM等信息化系统的部署完成，管理方式由粗放式管理逐步转为精细化管理，新产品的研发速度和设计效率有了大幅提升，企业在实现对业务数据进行有效管理的同时，积累了大量的数据信息，产生了利用现代信息技术收集､管理和展示分析结构化和非结构化的数据和信息的诉求，企业需要信息化技术帮助决策者在储存的海量信息中挖掘出需要的信息，并且对这些信息进行分析，通过分析工具加快报表进程从而推动决策､规避风险，并且获取重要的信息，

因此，越来越多的企业在原有的各种控制系统（DCS､FCS､CIPS等）和各种生产经营管理系统（MIS､MRPⅡ､CRM､ERP等）的基础上，管理重心从以前的以流程建设为主，转换为以流程建设和全生命周期数据架构建设并行的模式，在关注流程的质量和效率的同时，又关注全流程上数据的质量和效率，建立以产品为核心的覆盖产品全生命周期的数据结构，用企业级PLM系统来支撑这些数据结构，有效地提高了企业满足市场需求的响应速度，更加经济地从多样化的数据源中获得更大价值。

1. 大数据的挑战

随着近年来大数据热潮的不断升温，人们认识到“大数据”并非是指“大规模的数据”，更加代表了其本质含义：思维､商业和管理领域前所未有的大变革。在这次变革中，大数据的出现，对产业界､学术界和教育界都正在产生巨大影响。随着科学家们对大数据研究的不断深入，人们越来越意识到对数据的利用可以为其生产生活带来巨大便利的同时，也带来了不小的挑战。

（一）大数据的安全与隐私问题

随着大数据的发展，数据的来源和应用领域越来越广泛：在互联网上随意浏览网页，就会留下一连串的浏览痕迹；在网络中登录相关网站需要输入个人的重要信息，例如用户名密码､身份证号､手机号､住址､银行卡密码等；随处可见的摄像头和传感器会记录下个人的行为和位置信息，等等。通过相关的数据分析，数据专家就可以轻易挖掘出人们的行为习惯和个人重要信息。如果这些信息运用得当，可以帮助相关领域的企业随时了解客户的需求和习惯，便于企业调整相应的产品生产计划，取得更大的经济效益；但若是这些重要的信息被不良分子窃取，随之而来的就是个人信息､财产等的安全性问题。

为了解决大数据时代的数据隐私问题，学术界和工业界纷纷提出自己的解决办法。Lindell等提出了保护隐私的数据挖掘（Privacy PreservingData Mining）概念；Sweeney针对位置服务的安全性问题，提出了一种k-匿名方法，即将自己与周围的（k-1）个用户组合成一个数据集合，从而模糊了自己的位置概念；差分隐私（Differential Privacy）保护技术可能是解决大数据隐私问题的有力武器，Dwork在2006年提出了一种新的差分隐私方法，Roy等于2010年提出了一种隐私保护系统Airavat，将集中信息流控制和差分隐私保护技术融入云计算的数据生成与计算阶段，防止MapReduce计算过程中的数据隐私泄露。

此外，大数据时代数据的更新变化速度加快，而一般的数据隐私保护技术大都基于静态数据保护，这就给隐私保护带来了新的挑战。在复杂变化的条件下如何实现数据隐私安全的保护，这将是未来大数据研究的重点方向之一。

（二）大数据的集成与管理问题

纵观大数据的发展历程，大数据的来源与应用越来越广泛，为了把散布于不同的数据管理系统的数据收集起来统一整理，就有必要进行数据的集成与管理。虽然对数据的集成和管理已经有了很多的方法，但是传统的数据存储方法已经不能满足大数据时代数据的处理需求，这就面临着新的挑战。

1）数据存储。在大数据时代，大数据的特征之一就是数据类型的多样性。数据类型由传统的结构化数据逐渐转变为半结构化､非结构化数据。另外，数据的来源也逐渐多样化，传统的数据大都来自于少部分军事企业或是研究所的电脑终端；现在，随着互联网和移动设备在全球的普及，平板电脑､手机､GPS等产生的数据呈“井喷”状态，因此，数据的存储就显得格外重要。由前文可看出，传统的数据存储方式已经不足以满足现在的数据存储需求，为了应对越来越多的海量数据和日渐复杂的数据结构，很多公司都着手研发适用于大数据时代的分布式文件系统和分布式并行数据库，如HDFS､BigTable等。在数据存储过程中，数据格式的转换是必要的，而且是非常关键和复杂的，这就对数据存储系统提出了更高的要求。

2）数据清洗。大数据时代数据的特征“Value”，是大数据低价值密度的体现。也就是说，大数据量并不意味着大信息量，很多时候它意味着冗余数据的增多､垃圾价值的泛滥，因此，对数据进行筛选､清理是十分必要的，否则过多的干扰信息一方面会占据大量的存储空间，造成存储资源的浪费，另一方面这些垃圾数据会对真正有用的信息造成干扰，影响数据分析结果。大数据时代的数据清洗过程必须更加细致和专业，即在数据清洗过程中，既不能清洗地过细，因为这会增加数据清洗的复杂度，甚至有可能会把有用的信息过滤掉；也不能清洗的不细致，因为要保证数据筛选的效果。

（三）大数据的IT技术架构问题

大数据因其独特的特征对数据分析处理系统提出了极高的要求，无论是存储､传输还是计算，在大数据分析技术平台上，将会是一个技术的激烈交锋。因为现有的大数据平台技术难以满足大数据的处理需求，所以IT架构的革命性重构势在必行。

美国的6个部门共同启动的大数据研究计划中，绝大部分的研究项目都是针对大数据带来的技术挑战，主要应对大数据分析算法和系统的效率问题。

大数据分析技术。目前来看，海量数据中超过85%的数据都是半结构化和非结构化的数据，传统的关系型数据库已经无法处理。根据CAP理论（Consistency，Availability，Partitions tolerance），一致性､可用性和容错性不可兼得，因此，关系型数据库没有良好的可扩展性。以MapReduce和Hadoop为代表的非关系型数据库的非关系型分析技术因其具有良好的横向扩展（Scale-out）能力而在大数据分析领域得到了广泛应用，现已成为大数据处理的主流技术。尽管这样，MapReduce和Hadoop在性能方面依然不能尽如人意，还需根据实际应用情况不断更新研发更高效､更实用的大数据分析技术。

数据融合。大数据时代数据的数量和质量都达到了一个前所未有的状态，但是若没有一个很好的技术将这些“一盘散沙”的数据充分整合，就无法最大化地发挥大数据的价值，因此，大数据处理技术面临的一个重要问题就是如何将个人､企业和政府的各种信息数据加以融合。因为这些数据的格式基本都不一致，这就给数据融合带来了相当大的困难。为了解决这个问题，须研究推广不与平台绑定的数据格式，用这样一种统一的数据格式，将人类社会､物理世界和网络空间联系起来，构建统一的信息系统。

大数据能耗问题。大数据的处理､存储和通信都是要消耗相当大的能源，在能源价格上涨迅速的今天，由于数据的存储规模不断扩大，高能耗已经逐渐成为制约大数据快速发展的瓶颈之一。但是由于大数据的发展也是刚刚起步，能耗问题也未能得到足够的重视。《纽约时报》曾经做过一年的调查，发表了一篇名为“Power，Pollution and the Internet”的文章，文章显示，Google大数据平台的耗电量每年3 000kW左右，可是只有6%~12%的电能被用来支撑大数据的分析处理､对客户的需求进行响应等系统运行，绝大部分电能只是用来支撑很多闲置状态的服务器，因此，为了减少不必要的能源消耗，首先可以运用低功耗的硬件资源，比如闪存､PCM等，这些新型存储硬件的功耗相对传统磁盘等硬件要低很多；另外，随着世界能源的消耗量越来越大，“第三次工业革命”浪潮也迅速席卷全球，可以考虑引入新型可再生能源，比如传统的电能可以用太阳能､风能､生化能等产生，避免使用传统的不可再生能源如煤炭､石油等，既节约了能源又减少了环境污染。

（四）大数据的生态环境问题

大数据的生态环境问题首先涉及的是数据资源管理和共享的问题。这是一个信息化开放的时代，互联网的开放式结构使人们可以在地球的不同角落同时共享所有的网络资源，这给科研工作带来了极大的便利。但是并不是所有的数据都是可以被无条件共享的，有些数据因为其特殊的价值属性而被法律保护起来不能随意被无条件利用。由于现在相关的法律措施还不够健全，还缺乏足够强的数据保护意识，所以总会出现数据信息被盗用或是数据所有权归属的问题，这既有技术问题也有法律问题。如何在保护多方利益的前提下解决数据共享问题将是大数据时代的一大重要挑战。

大数据时代，数据的产生和应用领域已经不局限于某几个特殊的场合，几乎所有的领域如政治､经济､社会､科学､法律等都能看到大数据的身影，因此，涉及这些领域的数据交叉问题就不可避免。随着大数据影响力的深入，大数据的分析结果势必将会对国家治理模式，企业的决策､组织和业务流程，个人生活方式等都将产生巨大的影响，而这种影响模式是值得以后深入研究的。