Skip to content

Commit faba2f5

Browse files
committed
Add ETL definition, data engine concept, and scheduling concepts
1 parent c7a1ee2 commit faba2f5

4 files changed

Lines changed: 58 additions & 0 deletions

File tree

_toc.yml

Lines changed: 5 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -7,9 +7,14 @@ parts:
77
- caption: 数据生命周期
88
chapters:
99
- file: lifecycles/README.md
10+
sections:
11+
- file: lifecycles/data-engine.md
12+
- file: lifecycles/etl.md
1013
- caption: 系统治理
1114
chapters:
1215
- file: governing/README.md
16+
sections:
17+
- file: governing/scheduling-concepts.md
1318
- caption: 研发流程管理
1419
chapters:
1520
- file: dataops/README.md

governing/scheduling-concepts.md

Lines changed: 15 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,15 @@
1+
# Dispatcher vs Scheduler
2+
3+
在软件工程中,"dispatcher"(分发器)和"scheduler"(调度器)这两个术语都与任务调度和执行相关。
4+
5+
## Dispatcher(分发器)
6+
7+
负责将任务分发给可执行的处理单元(线程、进程等)的组件。它负责将任务分配给合适的执行上下文,并确保任务按照顺序或优先级进行处理。通常,分发器关注的是任务的调度和分发过程。
8+
9+
## Scheduler(调度器)
10+
11+
负责根据预定的规则和策略,安排任务在特定的时间点或事件发生时执行的组件。它关注的是任务的调度和执行时机,以及资源的管理和分配。常见的调度策略包括定时调度、事件触发、优先级调度等。
12+
13+
因此,在表达调度的概念时,"scheduler"更适合用来描述任务的调度和执行时机、资源的管理和分配。而"dispatcher"更适合用来描述任务的分发和分配过程。
14+
15+
需要注意的是,这两个术语的具体含义和用法可能根据不同的领域和上下文而有所差异。确切的术语选择应该基于您的应用场景和语境来决定。

lifecycles/data-engine.md

Lines changed: 21 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,21 @@
1+
# 数据引擎 DataEngine
2+
3+
## 定义
4+
5+
数据引擎 DataEngine 是数据处理器 DataHandler 的运行后端。
6+
7+
## 分类
8+
9+
初步计划是分为本地和云端,云端分为虚拟机、容器、函数计算。
10+
11+
## 相关概念
12+
13+
### 数据后端 vs 数据引擎
14+
15+
数据后端(DataBackend)和数据引擎(DataEngine)是两个不同的概念。
16+
17+
**数据后端**是一个系统或软件组件,负责存储、检索和管理应用程序或系统的数据。数据后端通常是一个数据库管理系统(DBMS)或数据存储系统,为应用程序开发人员提供 API 或其他接口来与数据交互。
18+
19+
**数据引擎**是指一个系统或软件组件,负责数据处理和数据计算。数据引擎通常用于对大规模数据进行处理、分析和挖掘,例如数据仓库、数据分析平台和人工智能系统等。数据引擎通常包含数据处理、数据计算和数据可视化等功能,可以对数据进行清洗、转换、计算和展示。
20+
21+
虽然数据后端和数据引擎都与数据相关,但它们的职责和功能不同。数据后端主要负责数据的存储和管理,而数据引擎主要负责数据的处理和计算。在一些系统中,数据后端和数据引擎可能会同时存在,以支持数据的存储、计算和可视化等多种功能。

lifecycles/etl.md

Lines changed: 17 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,17 @@
1+
# ETL 的定义
2+
3+
## 狭义定义
4+
5+
狭义的 ETL 主要用于数据仓库,描述其他来源的数据集中到数据仓库的过程。可以认为其是一类特殊的数据预处理步骤。
6+
7+
## 流程
8+
9+
ETL 代表 Extract(抽取)、Transform(转换)、Load(加载):
10+
11+
- **Extract**:从各种数据源中提取数据
12+
- **Transform**:对数据进行清洗、转换和重组
13+
- **Load**:将处理后的数据加载到目标数据存储中
14+
15+
## 参考资料
16+
17+
- https://aws.amazon.com/cn/what-is/etl/

0 commit comments

Comments
 (0)