Spark学习笔记01-基础-白红宇

Spark学习笔记01-基础

阅读量：420 次

发布时间：2019-03-06

本文共 1136 字，大约阅读时间需要 3 分钟。

本文基于 Spark 2.4.1 进行演示，相关代码可以在我的上看到。

简介

Spark是一个分布式集群计算系统，类似Hadoop提供了强大的分布式计算能力，相比过去的批量处理系统，提供了处理更大规模数据的能力。Spark提供了Java、Python、Scala、R接口。除常见的MapReduce运算外，还支持图、机器学习、SparkSQL等计算方式。

特性

高效 Speed，因为很多数据都在内存中，相比Hadoop，其处理更为高效。

易用 Usability，Spark提供了80多个高级运算符。

通用 Generality，提供了大量的库，包括SQL、DataFrames、MLib、GraphX、Spark Streaming。

兼容 Runs everywhere，基于jvm能够兼容不同类型的操作系统。

Spark运行模式

local : 主要用于开发调试Spark应用程序

Standlone : 利用Spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构，为解决单点故障，可以采用Xookeeper实现高可靠(High Availability, HA)

Apache Mesos : 运行在著名的Mesos资源管理框架基础之上，该集群运行模式将资源管理管理交给Mesos,Spark只负责运行任务调度和计算

Hadoop YARN : 集群运行在Yarn资源管理器上，资源管理交给YARN，Spark只负责进行任务调度和计算

Mac本地安装

首先从Spark官方网站下载合适的版本，解压到安装目录，本文使用的是 2.4.1。

配置环境变量 ~/.bash_profile

export SPARK_HOME=/Users/shiqiang/Projects/tools/spark-2.4.1-bin-hadoop2.7export PATH=${PATH}:${SPARK_HOME}/bin

本机的安装目录

~/Project/tools

在Mac系统管理中打开Mac远程登录设置，允许安装用户远程登录。

启动命令

$ ./sbin/start-all.sh$ jps21731 Jps21717 Worker21515 Master

使用JPS命令可以看到Master和Worker已经启动。也可以单独启动master./sbin/start-master.sh，单独启动Worker

./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

停止服务的方式也非常简单

$ ./sbin/stop-all.sh

转载地址：http://qhrkz.baihongyu.com/

你可能感兴趣的文章

MYSQL 查看最大连接数和修改最大连接数

MySQL 查看有哪些表

mysql 查看锁_阿里/美团/字节面试官必问的Mysql锁机制，你真的明白吗

MySql 查询以逗号分隔的字符串的方法（正则）

MySQL 查询优化：提速查询效率的13大秘籍（避免使用SELECT 、分页查询的优化、合理使用连接、子查询的优化）（上）

mysql 查询，正数降序排序，负数升序排序

MySQL 树形结构根据指定节点获取其下属的所有子节点（包含路径上的枝干节点和叶子节点）...

mysql 死锁 Deadlock found when trying to get lock； try restarting transaction

mysql 死锁(先delete 后insert)日志分析

MySQL 死锁了，怎么办？

MySQL 深度分页性能急剧下降，该如何优化？

MySQL 深度分页性能急剧下降，该如何优化？

MySQL 添加列，修改列，删除列

mysql 添加索引

MySQL 添加索引，删除索引及其用法

MySQL 用 limit 为什么会影响性能？

MySQL 用 limit 为什么会影响性能？有什么优化方案？

MySQL 用户权限管理：授权、撤销、密码更新和用户删除（图文解析）

mysql 用户管理和权限设置

MySQL 的 varchar 水真的太深了！