spark是什么?

秘密课程 2024-03-02 06:58:18

大数据的产生源自于geogle对搜索业务的探索,谷歌联合创始人拉里-佩奇博士为了解决海量数据搜索问题,提出来了分而治之的思想,将元数据归类起来,然后按照相同的特征进行统计,这一设计思想就是著名的mapReduce并行计算模型。

在2003年和2004年期间geogle发表了Bigtable和mapReduce相关的论文,hadoop的设计思想就是源自于mapReduce的设计思想。

不足的一点是Hadoop只能处理离线数据,而对实时数据没有办法给出完整的解决方案。

在2009加州大学伯克利分校,提出了基于内存的分布式计算的思想并设计出相关的框架,后来在2010年正式开源,他就是著名的spark大数据计算框架。

其实对于一个大数据设计者而言,不仅仅要会使用相关的框架,还要学好相关的设计思想和相关的大数据算法。特别是现在中美贸易战不断升级,很多的开发语言和开发框架大部分都是美国开发的或者拥有其版权的。

如果美国对中国进行开发语言限制或者像unity一样进行收费,对于中国将是一个大的威胁。所以开发自己的大数据平台是非常重要的,也是目前国内大数据从业者追求的目标。

0 阅读:0