新手入门:Spark部署实战入门 Spark简介整体认识Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark在整个大数据系统中处于中间偏
使用Zeppelin来实现大数据分析的可视化 Apache Zeppelin是ASF的一个孵化项目,实现了基于web的在线代码编辑与数据可视化。有点类似Spark-Shell的REPL。其结果可以直接用图表来展示,解决了前端白痴的苦逼。Zeppelin官网我们可以直接下载 zeppel
spark 优化套路 spark整个api上手较为简单,scala表达起来比较顺畅,java根据spark官方文档,理解scala的几个特性即可。spark离线处理优化目的减少无效操作,io cpu的有效利用,直接查优化技巧,不如先搞明白spark处理过程。明白
Spark 在 Windows 下的环境搭建 由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了