大家好,又见面了,我是你们的朋友全栈君。
最近在微信圈流行的段子:一个客户拨打了披萨店的电话,还没说要什么披萨,仅仅告知了他的会员卡号,店员从系统中就知道了他所有个人信息。包括地址、电话、身高体重、医疗记录、过敏史、家里几口人、家里人的健康状态、房贷、个人信用,最后还包括他现在骑着摩托车拨打电话的GPS定位。并针对他目前这些信息定向推销店内减肥的、低糖的、够他家庭6人份的披萨,还指出他最好用现金支付,因为他信用卡已经超支。
以上这些信息我们都知道,是我们在工作、生活中一个一个产生的,但是是存储在餐饮、医疗、电信、交通、金融等各种领域服务器中,相互不会联通。这个段子的寓意在于告诉我们,如果这些数据之间联通了,我们要怎样去面对?就工作来说,披萨店工作效率提高了、针对性提高了、效益也提高了;对顾客来说,不能乱花钱了、减少浪费了、钱用的合理了、健康指标也提高了。当然,我们也会预想一些关于个人隐私被赤裸裸展现的负面影响,基本没有隐私了。
在大数据信息时代下,这些信息以及之间的关联性将会对我们工作、生活还有思维方式带来怎样的改变?
一、什么是大数据?
我们都知道,目前工作、生活接触数据最多的是结构化数据和非结构化数据。结构化数据就是能用数字和统一结构来表示的,例如一份文字报告、一份银行账单;非结构化数据就包括图像、声音等。数据量的大小也从刚开始用的1KB、1MB、1GB、1TB到现在的1PB、1EB、1ZB、1YB。他们之间都是1024倍的关系。而大数据就是从1PB开始算的。这个级别关系是什么概念?我举简单的例子:1PB相当于50%的全美学术研究图书馆藏书信息内容;5EB相当于至今全世界人类所讲过的话语;1ZB如同全世界海滩上的沙子数量总和;1YB相当于7000位人类体内的微细胞总和。而现在我们这个数据爆炸的时代每分钟有多少数据?每分钟苹果网站13000多个应用被下载、微博上发布98000信息、6600张新照片上传到flickr网站、全球发出1.68亿条Email、69.5万条新状态在Facebook上更新、淘宝网站10680个新订单、1840多张票从12306网站生成。
二、大数据的特点
维克托?迈尔-舍恩伯格和肯尼斯?克耶编写的《大数据时代》中提出:“大数据”的4V特点:Volume(数据量大)、Velocity(输入和处理速度快)、Variety(数据多样性)、Value(价值密度低)。自此后,凡提到“大数据”特点的文章,基本上采用了这4个特点。
(一)数据体量巨大(Volume):从TB级别,跃升到PB级别乃至EB级别;到目前为止,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。现在我们每分钟数据量是多少呢?每分钟有13000+个iPhone应用下载、Skype上37万+分钟的语音通话、微博上发布98000+新微博、上传6600张新照片到flickr、发出1.68亿+条Email、Facebook上更新69.5万+条新状态、YouTube上上传600+新视频、淘宝光棍节10680+个新订单、12306出票1840+张。
(二)数据类型繁多(Variety):大数据不仅局限于结构型数据,也包括非结构型数据,比如:文字,图像,音频,视频,记录,遥感。这种类型的多样性也让数据被分为结构化数据、半结构化和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给数据处理提出了更高的要求。数据来源多:企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来源。数据类型多:保存在关系数据库中的结构化数据只占少数,70~80%的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。关联性强:数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性。
(三)价值密度低(Value):以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;价值密度低,是大数据的一个典型特征。
(四)处理速度快(Velocity):1秒定律。大数据是时间敏感的,必须快速识别和快速响应才能适应业务需求这是大数据区分于传统数据挖掘技术最显著的本质特征。在2020年全球数据使用量将会达到35.2ZB,如此海量的数据面前,处理数据的效率就是计算机发展的生命。实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;1s是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的。
三、为什么现在才提出大数据?
尽管“大数据”这个词直到最近才受到人们的高度关注,但早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。世界著名的管理咨询公司麦肯锡公司通过各种网络平台记录的个人海量信息看到了商业价值,于是投入大量人力物力进行调研,在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。这也是最早将大数据进行应用的公司。
为什么现在才提出大数据呢?还有一个主要原因是大数据本身在突破两个限制条件方面的发展。一是存储本身的发展。从针孔、到软盘、再到硬盘。存储设备越来越小,容量越来越大。单块硬盘已经能够达到6TB,却只有钱包大小。相继的发展就是目前的云存储,只要有硬盘,想要多大就多大。二是计算的发展。CPU处理器由原先的5000次每秒到现在33.86千万亿次每秒的天河二号计算机。但是不是每个企业、行业都能买得起这种宇宙级的计算机。现在的发展是云计算。自从有了云计算服务器,“大数据”才有了可以运行的轨道,才可以实现其真正的价值。有人就形象地将各种“大数据”的应用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算。最著名的实例就是Google搜索引擎。面对海量Web数据,Google于2006年首先提出云计算的概念。支撑Google内部各种“大数据”应用的,正是Google公司自行研发的云计算服务器。在分布式云计算出现之后“大数据”才凸显其真正价值。
为什么大数据必须和云计算要捆绑?举个简单的例子。现在我们看自己的个人银行账单。只能看到1年内的。因为超过1年的账单不是找不到了,而是传统计算机服务器需要花1天的时间从数据库中将数据计算出来。而我们在电脑前连1分钟都不想等。
四、目前大数据在全球的发展情况
2012年3月,美国政府启动“大数据研究和发展倡议”计划。这是继“信息高速公路”后的又一重大科技战略部署。美国政府将大数据视为“未来的新石油”并将对其研究上升为国家意志。2010年1月,英国政府的数据开放网站正式出台,2010年5月卡梅伦上台之后正式提出“数据权”的概念,2011年4月主要部门宣布“我的数据”新项目,旨在落实和强化数据权。继美英之后,国际上德国、法国、日本、加拿大和新西兰等国家也开始了各自国家的大数据发展战略规划。
中国,在2015年8月31日,国务院下发了《关于印发促进大数据发展行动纲要》国发〔2015〕50号,从国家战略层面已经开始新的部署和建设。目前,我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发取得突破,涌现出一批互联网创新企业和创新应用,一些地方政府已启动大数据相关工作。2014年,江苏省经信委下发《关于印发江苏省云计算与大数据发展行动计划的通知》苏经信软件〔2014〕328号;2016年初,江苏省政府办公厅下发《关于开展消防大数据平台建设应用的通知》苏政办发〔2016〕2号,标志着江苏大数据建设将涉及消防安全领域。
五、大数据在各个行业系统内的发展
(一)在国家政府方面:典型的就是决策用数据说话,告别了“拍脑袋”方式。荷兰的阿姆斯特丹共有40多万户家庭,二氧化碳排放量占全国的三分之一。为了改善环境问题,该市启动了WestOrange和Geuzenveld两个项目,通过节能智慧化技术,降低二氧化碳排放量和能量消耗。启动智能大厦项目,在未给大厦的办公和住宿功能带来负面影响的前提下,将能源消耗减小到最低程度,同时在大楼能源使用的具体数据分析的基础上,使电力系统更有效地运行。在国内,安徽芜湖整合了77个政府部门10.8亿数据,将100多项审批流程化。办事大厅的窗口由8—10个减少到2—3个,减少审批程序的时间,提高了办事效率,减少了排队等候的情况。同时结合人脸声纹识别技术,民众只需带身份证就可以办理业务。在社会管理信息化方面,移动电信等大数据分析可以进行人流监控,能提前预知人流情况,并根据数据变化启动相应管理预案,从而避免如外滩踩踏之类的事件发生。在佛山,通过产业云平台,可在统一设计标准的同时节省整个产业链的成本,以帮助中小企业降低运营成本,使其投资能集中在核心制造优势上,而不是花费在采购等环节上。
(二)在医疗方面:苹果教父乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,乔布斯开玩笑说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。这是大数据在基因方面的发展,将来在疾病预防、婴儿出生、罕见病治疗、远程诊治等方面会有更深的发展,也许将来给你看病和动手术的就是一台超级计算机了。
(三)在能源方面:智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。根据全国风力、潮汐数据,可以更高效的计算出在哪里放置的风力发电机和潮汐发电机最好。
(四)在零售业方面:销售公司通过从Twitter和Facebook上收集社交信息,向客户提供差异化服务,保留两类有价值的客户:高消费者和高影响者。企业也根据监控情况分析,销售哪些商品、货品摆放位置、以及何时调整售价,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。并通过接受免费服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,使业务服务更具有目标性,减少运营成本,提高收益。
(五)在电视媒体行业:例如对于体育爱好者,追踪电视播放的最新运动赛事几乎是一件不可能的事情,因为有超过上百个赛事在8000多个电视频道播出。虽然,现在移动iOS和Android设备快速发展,但如果广告商将巨额广告投放在没人看的频道也是浪费。现在可以根据追踪所有运动赛事的应用程序RUWT,不断地分析运动数据流来让球迷知道他们应该转换成哪个台看到想看的节目,在电视的哪个频道上找到,并让他们在比赛中进行投票。
(六)在体育方面:现在美国NBA职业篮球赛,专业篮球队会通过搜集大量数据来分析赛事情况,然而他们还在为这些数据的整理和实际意义而发愁。通过分析这些数据,可否找到两三个制胜法宝,或者至少能保证球队获得高分?在每场比赛过后,教练只需要上传比赛视频。接下来,来自Krossover公司团队的大学生将会对其分解。等到第二天教练再看昨晚的比赛时,他只需检查任何他想要的——数据统计、比赛中的个人表现、比赛反应等等。通过分析比赛视频,毫不夸张地分析所有的可量化的数据。
(七)在公路交通方面:目前洛杉矶政府在I-10和I-110州际公路上建立了一条收费的快速通道。施乐公司统计,如果司机支付给收费站钱,他必须保证车速每小时45英里左右。如果交通开始拥堵,私家汽车的支付价格将上升,以减少他们进入,而将车道用于高占用率的车辆,例如公共汽车和大巴车。另一个项目ExpressPark,目标是告诉人们离开房子时,在哪能找到停车场和花费金额。这样政府可通过大数据引导驾驶人员在该通道上的行驶情况,保证交通畅通,并将停车场车辆吞吐量告知用户。
目前,大数据应用在行业系统中应用的比例,最多的行业是零售(24%)、金融(17%)、城市(14%)、医疗(8%)、体育(6%)、教育(4%)、电信(4%),当然还有航空制造业、社交娱乐、影视、农业等(其他)领域。2014年麦肯锡统计美国医疗行业通过大数据就获得潜在价值超3000亿美元,欧洲政府利用大数据节省开支超1000亿欧元,未来在全球的交通运输、电力、医疗健康等7大领域,大数据将会撬动超过3万亿美元的经济价值。2014年IDC预测,未来全球大数据市场将以每年超过30%的速度在增长,而我国更快,预计将超过50%。坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。
六、大数据给我们工作和生活带来的变革
我们常听到“啤酒与尿布”理论。原因是沃尔玛超市分析发现,男顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是推出了啤酒和尿布捆绑促销手段。这说明,将来我们去商店买东西的时候,会越来越被捆绑的东西所打动,而不是在超市中从东到西全部逛一遍。
在美国明尼苏达州一家塔吉特门店,通过分析顾客购买孕前需要的一些产品,分析出一个高中生已经怀孕,并向她住所寄去婴儿产品优惠券。而这个高中生老爸却跑到他们店面投诉,一番解释后,老爸回家了解了情况,果然女儿怀孕,并打了电话道歉。也许将来我们在家会收到越来越多我们需要的广告业务,而且有可能我们看的电视广告、网络视频和网站广告都是为我们量身定制的。当你收到婴儿用品广告的同时,而你的隔壁邻居却收到殡葬业的服务广告。
而在国内,电商玩得更科幻,“看人下刀”。电商网站可以根据你平时常购品牌、退货率、接受价格区间、讲价次数、投诉率等分析,给你假货你能接受不。如果你同类产品消费倾向绝对大部分在100~200元品牌,系统就判定你没用过大牌真品,在后台将你备注:低风险,发的货有30%几率是高仿货。如果在你购买记录里多次购买品牌,就自动分配真品。
2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。这是最早使用大数据分析的案例,而现在我们已经可以通过更多数据和方式分析这个冬天会发生什么。今年冬天,各位再去买羽绒服的时候就会发现,今年的羽绒服会比以前厚,颜色比以前深。因为今年气象大数据显示是寒冬,所以羽绒服厂家产品定位也进行了改变。
七、大数据对消防行业带来什么样的变革
(一)火灾预防方面:在美国纽约,目前是最早将大数据应用在消防方面的。据统计,纽约大约有100万栋建筑物,平均每年约有3000栋会发生严重的火灾。纽约消防部门将可能导致房屋起火的因素细分为60个,诸如是否是贫穷、低收入家庭的住房,房屋建筑年代是否久远,建筑物是否有电梯等。除去危害性较小的小型独栋别墅或联排别墅,分析人员通过特定算法,对城市中33万栋需要检验的建筑物单独进行打分,计算火灾危险指数,划分出重点监测和检查对象。目前数据监测项目扩大到2400余项,诸如学校、图书馆等人口密集度高的场所也涵盖了。尽管公众对数据分析和防范措施的有效性之间的关系心存疑虑,但是火灾数量确实下降了。
因为火灾和犯罪一样,是结果性数据。就是说,你可能采取了能想到的预防措施,并一直实时监控,他还是会发生火灾和爆炸。将火灾和医疗对比,我们天天体检,也不可能防止癌症发生,而且目前大数据显示,我们每年两次的体检和降低癌症发病率、死亡率没有任何关系。但是,我们能通过体检提前发现我们不舒服的地方是否有其他病变。如果是,我们可以提前治疗这些小病、延长生命,防止良性肿瘤变成恶性肿瘤。
消防工作也是一样。根据海恩法则,每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。当然,这是国外统计数据,和我国国情、我国数据会有差异。
我们常说的火灾事故,主要有两个方面。一是火灾的发生。这个是我们常说的不能预防的,从火灾调查情况来看,能看到火灾原因有各种各样,这是我们防都防不过来的。如果我们将来通过大数据运算将火灾原因逐渐量化,并更深入的分析,也许能逐渐减少和预防部分起火因素。至少目前的防雷措施已经减少很大一部分雷击发生火灾的概率。在这个起火原因方面需要很长时间的发展,也许会像避雷针的发展一样,经历了250年。当然将来的科技可能将时间缩短到25年。其中最值得发展的是电气火灾预防,可能将来我们的漏电保护能够检测到每个线路的温度变化,并在发生短路前就断电,防止火灾。而另一个方面就是火灾发生后造成的损失。能够引起我们重视的火灾都是人员伤亡多、过火面积大、财物损失大和难以短时间扑灭的火灾。这个方面的预防,是我们从人类诞生,会使用火的时候,就开始了。发展到现在,我们从建筑结构、人员密集程度、易燃易爆物存放、管理制度等各个方面,都进行了越来越细化的发展。只要采取了越来越有效的措施,就能把火灾发生后的损失降到最低。而这个方向,就是我们消防大数据火灾预防所主攻的方向。将来能够和纽约一样,知道哪些单位危险等级高,哪些辖区需要经常检查。还有将系统对外开放后,公众和企业可以进行自我改良,降低危险等级。更多我们没有监管过的单位进入系统后,也会使数据结果越来越准确,对全社会的促进也越来越大。
(二)灭火救援方面:在灭火救援、队伍管理、提升工作质效方面都有显著应用。当建筑发生火灾后,建筑内的人可以根据手机APP应用或接受到消防逃生短信第一时间逃离灾害现场,而各个消防救援力量第一时间可以快速集结,最近的消防巡逻车辆、医疗人员会快速抵达,而且没有交通拥堵的限制。指挥员还可以根据现场情况对危化品、放射性物质进行快速分析,确定当时风向,火灾发展趋势,避开密集人群,计算调用现有的水源和用水量,并在救援过程中发生坍塌和爆炸前撤离,而且有可能在指挥员到达现场前就将以上信息掌握,成竹在胸,将高效救援和低损失做到极致。
(三)执勤训练方面:我们也可以利用大数据在军事训练和考评考核进行应用。通过提取消防指战员生理数据,科学规划膳食、睡眠、训练等,提高训练针对性和效率,有效减少训练受伤情况发生。通过建立合理的人才储备数据应用平台,将各个部门和个人管理变得抽象化数据化,完善绩效考核制度、合理制定人才资源发展方向,合理制定工作目标。
大数据越来越发展,对我们的工作、生活和思维方式也逐渐改变,制度也会越来越完善。未来憧憬很美好,现在消防大数据,我们才刚刚起步。
本文转自d1net(转载)
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/160466.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...