基于Spark的数据分析实践
SparkSQL Flow 是基于 SparkSQL 开发的一种基于 XML 配置化的 SQL 数据流转处理模型。该模型简化了 SparkSQL 、Spark RDD的开发,并且降低开发了难度,适合了解数据业务但无法驾驭大数据以及 Spark 技术的开发者。
SparkSQL Flow 适合的场景:
SparkSQL Flow XML 概览
如你所见,source 的 type 参数用于区分 source 的类型,source 支持的种类直接决定SparkSQL Flow 的数据源加载广度;并且,根据 type 不同,source 也需要配置不同的参数,如数据库还需要 driver,url,user和 password 参数。 Transformer 是基于 source 定的数据视图可执行的一组转换 SQL,该 SQL 符合 SparkSQL 的语法(SQL99)。Transform 的 SQL 的执行结果被作为中间表命名为 table_name 指定的值。 Targets 为定义输出,table_name 的值需在 source 或者 Transformer 中定义。 SparkSQL Flow 支持的Sourse
SparkSQL Flow TextFile Source textfile 为读取文本文件,把文本文件每行按照 delimiter 指定的字符进行切分,切分不够的列使用 null 填充。
SparkSQL Flow DB Source
RDBMS 是从数据库使用 JDBC读取 数据集。支持 type 为:db、mysql、oracle、postgres、mssql;
(编辑:温州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 心系天下三星W20 5G尊崇发布 中国电信携三星电子打造旷世之
- Windows11怎么对电脑重命名 Win11电脑重命名方法
- 你真的了解WiFi万能钥匙吗?它还隐藏了这个功能,知道后要小
- 三大运营商或今年9月试商用5G网络:流量费1元1G,你用吗?
- VR游戏《Apex Construct》Quest版本销量已超过所有其他平台
- 苹果AR眼镜又有新专利曝光,可在任意表面上进行触摸操作
- 索尼互动娱乐推出“Days of Play 2020”活动
- 美国AR内容厂商SeekXR推出全新AR教育平台Seek Education
- 大数据架构详解:从数据获取到深度学习
- EUSA Pharma与百济神州签署SYLVANT及QARZIBA▼在大中华地区