有一本小书

hive数据库的DDL 本地模式开启 set hive.exec.mode.local.auto=true; //开启本地mr //设置local mr的最大输入数据量，当输入数据量小于这个值时采用local mr的方式，默认为134217728，即128M set hive.exec.mod

package JT import org.apache.spark.sql.{SaveMode, SparkSession} import org.apache.spark.sql.functions.lit import org.joda.time.LocalDate object jing

spark特点： 1.速度快 2.简单易用，支持的api多 3.各个模块基于sparkcore通用 4.运行模式多（standalone，yarn，mesos，local） saprk快是数据结果从磁盘转到内存，如果需要下一次计算就从内存取就行了 spark基于JVM的，python是解释性语言需

// 清洗数据创建sparksession val spark = SparkSession .builder() .appName("数据清洗服务") .master("local[*]") .config("hive.metastore