视频回放：

Taier 开源项目地址：丨喜欢我们的项目给我们点个__ STAR！STAR！！STAR！！！（重要的事情说三遍）__

技术交流钉钉 qun：30537511

本期我们带大家回顾一下摘月同学的直播分享《Taier数据开发介绍》

之前三期内容，我们为大家分享了Taier入门、控制台以及Web前端架构的介绍。本次分享我们将从Taier的数据开发功能，到任务运行、功能可扩展点以及未来规划为大家进行讲解。

一、数据开发功能介绍

Taier 是袋鼠云开源项目之一，是一个分布式可视化的DAG任务调度系统，旨在降低ETL开发成本、提高大数据平台稳定性，Taier的数据开发功能主要分为以下三种：

1、资源管理

资源管理通常使用在UDF等自定义函数的场景中，也可以在任务开发中使用。在Taier中，对于函数引用，主要用在Spark、Flink自定义函数中，而在任务引用中，则主要用于Flink任务。

2、函数管理

自定义函数处理流程如下图所示：

函数管理在Taier中的具体实现主要包括以下两个方面：

基于calcite完成不同数据源SQL自定义函数解析
使用SQL运行前创建临时函数替代创建永久函数，使函数使用更加灵活

3、任务管理

Taier现支持任务：Flink SQL、实时采集、数据同步（ChunJun）、Spark SQL、HiveSQL

Taier中有两块区分，分别为集群和数据开发，如果想在Taier中跑一个任务，需要先在集群中进行配置，具体组件与任务关系如下图：

二、Taier任务运行讲解

了解完Taier数据开发的功能介绍后，我们来为大家分享Taier的任务运行逻辑。

1、Spark Sql、Hive Sql临时运行流程

Spark Sql、Hive Sql 临时运行流程主要分为任务编写、SQL处理、SQL执行三步，以下图为SparkSql执行流程：

2、Spark Sql 、Hive Sql 运行依赖

Spark Sql 、Hive Sql 运行依赖主要包括以下两类：

● Sql解析（基于calcite进行）

· Sql Type 解析

· 函数、表名解析

● 数据源插件

· 统一不同数据源操作入口

· 封装数据源对应的数据操作方法

三、功能可扩展点介绍

当前而言，Taier中的功能还较为简单，只开放了主要流程的功能，在开源中还有许多可扩展点，接下来为大家介绍Taier的功能可扩展点。

1、功能扩展——数据权限控制

在sparkThrift、hiveserver中去进行create、insert into、alter、select时，不同的公司、不同的人有不一样的数据权限控制，面对这种情况，可以利用Apache Ranger大数据权限管理框架进行权限配置。

具体地址为：

github：

2、功能扩展——数据血源追踪

通过SQL解析可以得到表和表之间的关系，以及不同表中字段之间的血源关系。

● 实现工具：calcite

● 可操作任务：SparkSql、HiveSql、数据同步（ChunJun)

用sql举例：

create table zy_0710_1 (id int, name string);

create table zy_0710_2 as select id , name from zy_0710_1;

create table zy_0710_3 as select id , name from zy_0710_2;

四、Taier1.2尝鲜

最后为大家介绍未来不久将发布的Taier1.2新版本尝鲜：

●集群管理

控制台ui升级

● 数据开发

集群租户绑定流程简化
任务开发代码层面优化
任务新增schema配置

● 新增功能

FlinkSql支持jar包方式
新增工作流任务
自定义扩展开发任务

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/290390.html

当我们在聊「开源大数据调度系统Taier」的数据开发功能时，到底在讨论什么？

一、数据开发功能介绍

1、资源管理

2、函数管理

3、任务管理

二、Taier任务运行讲解

1、Spark Sql、Hive Sql临时运行流程

2、Spark Sql 、Hive Sql 运行依赖

三、功能可扩展点介绍

1、功能扩展——数据权限控制

2、功能扩展——数据血源追踪

四、Taier1.2尝鲜

发表回复

当我们在聊「开源大数据调度系统Taier」的数据开发功能时，到底在讨论什么？

一、数据开发功能介绍

1、资源管理

2、函数管理

3、任务管理

二、Taier任务运行讲解

1、Spark Sql、Hive Sql临时运行流程

2、Spark Sql 、Hive Sql 运行依赖

三、功能可扩展点介绍

1、功能扩展——数据权限控制

2、功能扩展——数据血源追踪

四、Taier1.2尝鲜

相关推荐

发表回复