Spark简介

发展

2004年Doug Cutting和Mike Cafarella在为他们的搜索引擎爬虫Nutch实现分布式架构的时候看到了Google的GFS&MapReduce论文
之后的几个月里按照论文实现出一个简易版的HDFS和MapReduce 这也就是Hadoop的最早起源
后来他们加入了Yahoo 并在Yahoo真正完善、推广和落地Hadoop大数据

	MapReduce	Spark
编程模型	Map和Reduce	不局限于Map和Reduce 还提供多种数据集操作类型
运算效率	每次迭代都要向磁盘写入、读取中间数据 I/O开销大效率低	中间结果直接存放到内存更高的迭代运算效率
调度机制	N/A	基于DAG的任务调度执行机制更优

Logistic regression in Hadoop and Spark

系统瓶颈从网络和磁盘I/O 转移到CPU利用率 => Spark2.x的Tungsten项目

Memory Management and Binary Processing: 绕过JVM的GC 类似C语言直接申请和管理内存 / 减少Java对象使用例如使用BytesToBytesMap替代HashMap
Cache-aware Computation: 提高缓存命中提高迭代运算效率例如数据挖掘、机器学习
Code generation: 优化Spark SQL代码生成提升CPU利用率

	过去	Spark
批处理	MapReduce Apache Hive / Apache Pig	Spark Core Spark SQL
流处理	Apache Storm	Spark Streaming
机器学习	Apache Mahout	Spark MLlib
图计算	Apache Hama	Spark GraphX

最后编辑于：2021.04.17 14:46:50

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。