大数据知识体系

发布时间：2022-12-09 16:03:33 所属栏目：大数据来源：未知

导读： 大数据技术的诞生
大数据早就不是什么新鲜词了，已经存在十几年了。最早要从google的三篇论文说起了，分别是分布式文件系统GFS、大数据分布式计算框架MapReduce以及NoSql数据库BigTable，正

大数据技术的诞生

大数据早就不是什么新鲜词了，已经存在十几年了。最早要从google的三篇论文说起了，分别是分布式文件系统GFS、大数据分布式计算框架MapReduce以及NoSql数据库BigTable，正是这三篇论文奠定了大数据的基础。Google是做搜索引擎的，有大量的数据需要存储和计算，那个时代更多的是在提高单机性能来解决问题，而Google的思路是部署一个大规模的集群服务器大数据计算框架，通过分布式的方式将海量数据存储在这个集群上，利用集群上的所有机器进行计算。这样就大大提高了计算效率以及服务器成本。

大数据技术的发展

后来Lucene开源项目的创始人根据三篇论文进一步的实现了类似GFS和MapReduce的功能，也是后来众人皆知的hadoop，主要包括分布式文件系统HDFS和分布式计算引擎MapReduce。在2008年Hadoop正式成为Apache的顶级项目，同时专门运营Hadoop的商业公司Cloudera成立，Hadoop得到商业的进一步支持。Yahoo觉得使用MapReduce进行大数据编写太麻烦了，便开发了Pig,一种类似SQL的脚本语言，开发者可以用Pig脚本描述要对大数据集上进行的操作，然后经过编译后生成MapReduce 程序，最后在Hadoop上运行。但是依然要学习新的脚本语法，于是FaceBook又发布了Hive，支持使用SQL来进行大数据计算，这样熟悉数据库的工程师便可以轻松的使用大数据进行数据分析和处理，随后Hadoop的生态体系逐渐形成，专门将关系型数据库中的数据导入到Hadoop平台的Sqoop,针对大规模日志进行分布式收集，聚合和传输的Flume,MapReduce的调度引擎Oozie等。早期MapReduce既是一个执行引擎，又是一个资源调度引擎，服务器集群的资源调度由MapReduce来完成，这样不利于资源复用，于是2012年将MapReduce的执行引擎和资源调度分离开来，这就诞生了Yarn。后来成为了大数据平台上最主流的资源调度系统。同样在这个时候，当时AMP实验室的马铁博士在使用MapReduce进行机器学习计算的时候性能非常差，需要进行多次迭代计算，而MapReduce每次执行一次Map和Reduce计算都需要重新启动一次作业，带来无谓的消耗，还有一点就是MapReduce主要是以磁盘作为存储介质。这时以内存为存储介质的Spark就横空出世了，便逐渐取代了MapReduce在企业内的地位。

大数据技术的知识体系

大数据计算分为批处理计算和流计算。像MapReduce和Spark这样计算框架处理的业务场景都是批处理计算，通常按天为单位产生的数据进行一次计算。计算的时间几十分钟甚至更长，处理的数据都是历史数据所以也称为大数据离线计算。而在另外一类场景则需要对实时产生的大量数据进行即时计算。这类计算被称为大数据流计算，目前有Storm、Flink、Spark Streaming等流计算框架来满足应用的场景。流式计算主要处理实时的数据也被称为大数据实时计算。在典型的大数据业务场景下，通常使用批处理的技术计算历史全量数据，采用流式计算处理实时新增数据。Flink可以同时支持流式计算以及批处理计算。除了大数据批处理和流处理，NoSql系统处理的主要大规模海量数据的存储与访问，涌现出HBase和Cassandra等优秀产品，其中HBase是基于HDFS的NoSql系统。下图中的这些框架、平台以及相关的算法共同构成了大数据的知识技术体系。

java大数据调度框架_大数据计算框架_大数据爬虫框架

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

人工智能协助历史学家	Kyligence 智能管理，
AI大模型为产业智能化	小米发布米家窗帘伴侣