Hadoop
Hadoop是Apache旗下的一套开源软件平台。
Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。
Hadoop的核心组件有:
1、HDFS(分布式文件系统)
2、Yarn(运算资源调度系统)
3、MapReduce(分布式运算编程框架)
广义上来说,Hadoop通常是指一个更广泛的概念——HADOOP生态圈
Hadoop的十大应用场景
在线旅游:目前全球范围内80%的在线旅游网站在使用Cloudera公司提供的Hadoop发行版。
移动数据:Cloudera运营总监称,美国有70%的智能手机数据服务背后都是由Hadoop来支撑的,也就是说,包括数据的存储以及无线运营商的数据处理等,都是在利用Hadoop技术。
电子商务:eBay是最经典的例子,国内的电商在Hadoop技术上也是储备颇为雄厚的。
能源开采:美国Chevron公司是全美第二大石油公司,他们的IT部门主管介绍了Chevron使用Hadoop的经验,他们利用Hadoop进行数据的收集和处理,其中这些数据是海洋的地震数据,以便于他们找到油矿的位置。
节能:另外一家能源服务商Opower也在使用Hadoop,为消费者提供节约电费的服务,其中对用户电费单进行了预测分析。
基础架构管理:这是一个非常基础的应用场景,用户可以用Hadoop从服务器、交换机以及其他的设备中收集并分析数据。
图像处理:创业公司Skybox Imaging使用Hadoop来存储并处理图片数据,从卫星中拍摄的高清图像中探测地理变化。
诈骗检测:一般用于金融服务或者政府机构,利用Hadoop来存储所有的客户交易数据,包括一些非结构化的数据,能够帮助机构发现客户的异常活动,预防欺诈行为。
IT安全:除企业IT基础机构的管理之外,Hadoop还可以用来处理机器生成数据以便甄别来自恶意软件或者网络中的攻击。
医疗保健:医疗行业也会用到Hadoop,医疗机构可以利用语义分析为患者提供医护人员,并协助医生更好地为患者进行诊断。
Spark
Spark是用于大规模数据处理的快速通用引擎。
Spark是一个快速的通用集群计算系统。 它在中提供了高级API Java, Scala, Python and R,并提供了一个优化引擎,该引擎支持常规执行图。
它还支持一系列丰富的高级工具,包括:
1、用于SQL和结构化数据处理的Spark SQL,扩展到DataFrames和DataSet
2、MLlib用于机器学习
3、GraphX用于图形处理
4、Spark Streaming用于流数据处理
Spark的核心是什么
RDD是Spark的基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD也是Spark非常核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。
RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。
Spark的适用场景有哪些
由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。
成都加米谷大数据科技有限公司,一家专注于大数据人才培养的机构。个人培训 丨 企业内训
大数据时代各种技术日新月异,想要保持竞争力就必须得不断地学习。写这些文章的目的是希望能帮到一些人了解学习大数据相关知识 。加米谷大数据,大数据人才培养机构,喜欢的同学可关注下,每天花一点时间学习,长期积累总是会有收获的。
338 thoughts on “零基础学大数据,认识Hadoop和Spark”