数据科学家:神话 & 超能力持有者

数据科学家:神话 & 超能力持有者

大家好,又见面了,我是全栈君,祝每个程序员都可以多学几门语言。

       一个打破神话的季节,正在降临。
       我将坦诚地揭穿人们关于数据科学家所持有的惯有看法。在下文中,我将一个一个展示这些观点,宛如将一个又一个的玻璃瓶子摔碎在墙壁上一样。
       关于数据科学家的神话主要是这些:

       神话#1: 数据科学家们本身就是一种神奇生物,就像独角兽一样神奇叵測。

       数据科学家实际上是很真实的。从人们開始进行多元统计分析、时间序列分析和运用其它核心分析方法时,他们就已经存在了。在某种程度上,假设你建立模型,并使用各种分析工具来找寻那些不显著的数据模型,那么你也许也是一位数据科学家了。

       神话#2: 数据科学家门仅仅是一群稀有的“精英”理论家。

       实际上,数据科学家们仅仅是那些在勤奋工作的白领们的一种。每天,他们洁净的指甲由于大量地移动来自世界各地的原始数据而污迹斑驳,这些数据须要倾倒到分析沙漏中,清洗和筛选,终于才干找到可能存在的模型。当新的数据出现时,又会再次被倒入到沙箱中,循环之前的过程。这是一项极其仔细、繁重的工作,他们并非仅仅坐在扶手椅上思考的数据哲学家。

       神话#3: 数据科学家是某种新时尚,非常快就会消失。

    “数据科学家”这个包罗万象的名称,已经存在很多年了,各种先进的分析工具——统计分析、数据挖掘、预測建模以及更久远的分析工具都能够归入当中。在过去的几年中,分析专家们越来越倾向于使用“数据科学家”这个名称来指代引入了新规则的不同学科的融合,比如行为分析、情感分析和图标分析——在这个数字渠道与传媒盛行的时代中,“数据科学家”便顺理成章地成为了炙手可热的宠儿。而数字科学家们的工作日程也随之日趋增多,与之相关的专业论坛和学术课程在过去几年中正以不可否认的速度增长着。眼下的招聘趋势也再次证明了这一点。这不是时尚而已。

       神话#4: 数据科学家都是未任职的统计学博士或粒子物理学家。

       当然,很多数据科学家第一次进行数据分析、建模还是在大学中。但非常多人之后又运用这些知识去继续学习了实质性的学科,比如,工商管理、经济学、金融和project学。您在工作领域所遇到的大多数数据科学家实际上是业务领域的专家,而不是对数学痴迷的“宽克”或者对算法狂热的的“行家”。他们仅仅是对统计建模十分精通。

       神话#5: 数据科学家仅仅是长期的商业智能(BI )专家,雇主给他们一个美丽的称号来取代加薪。

       当然,很多长期的BI高级用户在某种程度上就是数据科学家,他们是业务领域的专家,工作涉及了多变量分析、预測、如果建模和仿真。那些希望更深入地进入到细分、决策树分析、倾向建模、预測分析和其它数据科学技术的人也在又一次塑造自己。可是绝大多数传统的BI专家们,它们主要是专注于历史的,描写叙述性分析,他们也从来没有掩饰自己不属于数据专家。虽然如此,很多人知道如果不跟上与大数据科学相关的Hadoop,预測建模和图标分析的话,它们非常easy被行业淘汰。

       神话#6: 数据科学家从不论什么意义上来说都不是科学家。

       每个真正的科学家也一定是数据科学家的一种,尽管不是全部宣称自己是数据科学家的人真的名副事实上。真正的科学家必需要观測数据。假设没有精细的筛选、选择、构建、分类、分析,终于呈现数据的能力,科学家将不能把对于事实本质的调查联通起来,正如批评家所说,没有深入到数据中心的科学家不能有效地捍卫他所发现的东西。统计管理是真正的科学的基石,相同,实验控制是很多学科的标志;假设数据科学家在探索诸如人们购买习惯这种问题,运用了统计管理和实验控制来证明了他们的发现,那么他们已经是平庸而简单的数据科学家了。

       神话#7数据科学家须要花哨的,昂贵的,复杂程度令人咂舌的统计学工具才干完毕他们的工作。

       这绝对不是事实。从根本上来说,数据科学家的工作是去寻找隐藏的模式。他们通过友好用户可视化工具,通过自助的搜素式BI工具, 通过交互式数据开採工具,以及其它一些不须要深入掌握统计分析的就可运用的方式来完毕自己的研究。在市场上,价格划算的探索性工具BI有很多的供应商,比如IBM Cognos. 全球业务分析超级用户能够从一个植入在普通电子表格中的应用程序的模型特性中得出非凡的见解。

      神话#8数据科学家不过把大量数据扔入到Hadoop集群中,然后再利用Pig and MapReduce的分布式计算,终于,令人大呼过瘾的见解就会犹如喷泉般得涌出。

       欧,兄弟!数据科学家将会第一个告诉你,Hadoop仅仅是一个用于深入探索的平台。Hadoop的能力事实上与企业数据仓库、传统的数据挖掘平台以及其它的数据库内分析平台别无二样。这些可不是是什么通灵牌——大数据的精灵会开口与我们这些凡人说话呢。Hadoop和其它数据平台仅仅是一个用于分析的工作平台,数据科学家能够借助它来进行深度的数据调查。

      (注:本文由OCCS软件云工厂编译,转载请注明出处。)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/118508.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 年年双十一,年年抢不到,自制Python淘宝秒杀抢购脚本,百分百中[通俗易懂]

    年年双十一,年年抢不到,自制Python淘宝秒杀抢购脚本,百分百中[通俗易懂]大家好,我是不学前端的前端程序员,事情是这个样子的,前几天不是双十一预购秒杀嘛由于我女朋友比较笨,手速比较慢,就一直抢不到,她没抢到特价商品就不开心,她不开心,我也就不能跟着开心,就别提看6号的全球总决赛了为了解决这个问题,就决定写一个自动定时抢购的脚本。第一步:首先我的思路很简单,就是让“程序”帮我们自动打开浏览器,进入淘宝,然后到购物车等待抢购时间,自动购买并支付。第二步:导入模块,我们需要一个时间模块,抢购的时间,还有一个Python的自动化操作。代码如下:importd

  • display:flex垂直居中

    display:flex垂直居中布局说明:1.场次为一场比赛     2.比赛双方是交战的两个队伍        3.一场比赛可以有多种玩法,所以场的每个玩法的布局的高度都不确定。主要说下我学到的垂直居中的flex。1.第一次尝试。1divclass=”parent”>2h1>我是通过flex的水平垂直居中噢h1>3h1>我是通过fl

  • hibernate 二级缓存和查询缓存原理和关系「建议收藏」

    hibernate 二级缓存和查询缓存原理和关系「建议收藏」二级缓存和查询缓存都相当于一个map。二级缓存缓存的key为id,value为实体对象。一般load(),iterate()使用到二级缓存,list()需要结合查询缓存使用。iterate()和list()区别如下:iterate()不需要开启查询缓存,它首先发出一个sql如”selects.idfromStudents”去数据库把id属性列表取出来,然后再根据id列表一个一

  • Mac下安装android SDK

    Mac下安装android SDK本想学习一下AppiumAndroid自动化测试,结果差点死在了前期的环境安装上,终于理解了自学有多么不易,从入门到放弃就是这么容易,哈哈

  • java集合类面试题_Java集合类相关面试题

    java集合类面试题_Java集合类相关面试题1、Collection和Collections的差别java.util.Collection是一个集合接口,Collection接口在Java类库中有非常多详细的实现。比如List、Setjava.util.Collections是针对集合类的一个帮助类,它提供了一系列的静态方法实现对各种集合的搜索、排序、线程安全化等操作。2、ArrayList与Vector的差别这两个类都实现了List接…

  • go语言IP转换uint32,uint32转换IP「建议收藏」

    go语言IP转换uint32,uint32转换IP「建议收藏」uint32类型转换为IPfuncUInt32ToIP(intIPuint32)net.IP{   varbytes[4]byte   bytes[0]=byte(intIP&0xFF)   bytes[1]=byte((intIP>>8)&0xFF)   bytes[2]=byte((intIP>&gt…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号