|
1 | 1 | # 引言 |
2 | 2 |
|
3 | | -% 一句话概述 |
| 3 | +% 定义 |
4 | 4 |
|
5 | | -本教程旨在帮助您快速掌握数据工程的基本概念和技能,从而提升团队在数据处理和管理方面的能力。 |
| 5 | +什么叫数据工程? |
6 | 6 |
|
7 | | -% 概念 |
| 7 | +广义地,解决数据分析过程中的软件工程相关问题,让数据分析人员能够更专注于数据分析本身。 |
8 | 8 |
|
9 | | -随着数据量的不断增长和数据在业务决策中的重要性日益凸显,数据工程成为了当代企业不可或缺的一项技术。数据工程涉及到数据的收集、存储、处理、转换和传输等方面,旨在构建和维护高效可靠的数据基础设施,以支持数据分析、业务洞察和决策支持等需求。 |
| 9 | +狭义地,就是指其中的基础设施,我们要做的数据云就是这样一类东西。 |
10 | 10 |
|
11 | | -% 目标 |
| 11 | +% 概述 |
12 | 12 |
|
13 | | -然而,对于许多团队成员来说,数据工程可能是一个相对陌生的领域。他们可能缺乏必要的技能和知识,导致数据处理和管理过程中出现问题,效率低下。因此,本教程将帮助您填补这一空白,让您快速掌握数据工程的核心概念和实践技能。 |
| 13 | +整个Economy中有很多组织和个人在和数据打交道。组织和组织之间、组织内的不同角色之间、个人自己。 |
14 | 14 |
|
15 | | -% 内容 |
| 15 | +我们从局部到整体来建立对整个过程的认知。我们先通过严格的假设关注某一个环节,然后释放一些假设来暴露整体的问题。 |
16 | 16 |
|
17 | | -本教程将从数据工程的基础开始,逐步深入介绍数据收集、存储、处理、转换和传输等方面的知识和技术。我们将提供清晰的解释和实用的示例,帮助您理解和应用这些概念和技术。同时,我们还将介绍一些常用的数据工程工具和平台,帮助您更高效地进行数据处理和管理。 |
| 17 | +% 个人、单个流程 |
18 | 18 |
|
19 | | -通过按照这个顺序逐步阐述不同的部分,您可以帮助团队成员逐步建立起对数据工程的整体认识和理解。同时,您可以结合实际案例和最佳实践,使教程内容更具实用性和可操作性。 |
| 19 | +首先,假设在一个团队中,只有一个人负责完成整个项目。然后,我们需要考虑如何按照完整的流程进行工作,这是我们自己在项目组织中最基本的形式。无论是独自完成还是与几个合伙人一起工作,每个人负责一个项目并将其完整地推进下去。因此,你选择使用数据生命周期的概念来描述整个数据从产生到消失的全过程。 |
20 | 20 |
|
21 | | -1. 数据处理部分: |
22 | | -在这一部分,您可以介绍数据处理的基本步骤和技术。包括数据清洗、数据转换、数据集成等方面的内容。您可以解释如何处理不同类型的数据,如结构化数据、半结构化数据和非结构化数据,并提供实际示例和案例。 |
| 21 | +接下来,你计划对数据生命周期进行严谨的定义,最好能够涵盖市面上所有关于数据生命周期的理解,以提供更准确的认识。你还计划介绍各种可能遇到的问题,并提供解决方案。这部分的高级内容将会分散在其他教程中,比如爬虫教程和数据分析教程等。在这个数据工程教程中,你的重点将是讲解工程问题以及如何解决这些问题。 |
23 | 22 |
|
24 | | -2. 数据管理系统部分: |
25 | | -在这一部分,您可以探讨如何管理和维护数据处理系统。包括数据存储、数据流水线、数据仓库等方面的内容。您可以介绍常用的数据管理系统和工具,如关系型数据库、分布式存储系统和ETL工具,并提供最佳实践和案例。 |
| 23 | +% 系统 |
26 | 24 |
|
27 | | -3. 研发团队管理部分: |
28 | | -在这一部分,您可以讨论如何管理数据工程团队。包括组织架构、角色分工、团队协作等方面的内容。您可以分享团队管理的经验和技巧,如招聘和培训数据工程师、激励和激励机制等,并提供实用建议和案例。 |
| 25 | +现在我们放开之前的假设,假设在一个团队中有多个具有相同知识背景的人一起协作完成一个项目。我们需要考虑整个流程,并进行梳理。 |
29 | 26 |
|
30 | | -4. 跨组织数据共享部分: |
31 | | -在这一部分,您可以介绍如何管理和促进跨组织的数据共享。包括数据标准化、数据安全和隐私保护、数据共享协议等方面的内容。您可以讨论数据共享的挑战和机会,并提供实践指导和成功案例。 |
| 27 | +在这种情况下,团队中的不同人员需要进行协作,比如我和我的合伙人一起合作完成项目。为了实现协作,我们需要工具和方法来观察整个项目的进展,进行编排等。同时,可能还会遇到分析师和工程师之间的沟通障碍等复杂情况。 |
32 | 28 |
|
| 29 | +因此,团队成员之间的协作需要通过一定的方式来完成。与之前的假设相似,这种协作中也需要考虑可观测性、编排等工具,以及解决分析师和工程师之间可能出现的障碍。 |
| 30 | +总体来说,你的目标是在团队中实现多人协作,将不同的角色和知识背景融合在一起完成项目。这种情况下,需要关注协作工具和方法,以确保项目的顺利进行。 |
| 31 | + |
| 32 | +% 管理 |
| 33 | + |
| 34 | +实际的工程中,人是会犯错的,而小错误经常会带来灾难性的后果。在实际工程中,即使我们对领域非常熟悉,如果不遵守一些严谨的过程,项目的质量也会受到影响。这就是为什么工程管理非常重要的原因。 |
| 35 | + |
| 36 | +在工程项目中,遵循一定的流程和规范可以确保工作的质量和效率。比如按照先开发、再测试、再上线、再触发、再运行、再监控的流程进行工作,可以帮助我们在每个阶段都进行必要的检查和验证,发现和解决问题,并提高项目的稳定性和可靠性。 |
| 37 | + |
| 38 | +工程管理的目标是提供一个严谨的流程,确保工作能够按照规范和标准进行,从而减少错误和风险,并提高项目的质量和可靠性。它涉及到项目计划、资源分配、进度控制、质量管理、风险管理等方面的工作,以确保项目的顺利进行和成功交付。 |
| 39 | + |
| 40 | +% 考虑跨组织共享 |
| 41 | + |
| 42 | +假设不同组织之间协作,在实际的商业环境之中,我们的数据可能需要交易,可能需要交付,可能需要共享,然后呢,怎么去处理,比如说数据大家的字段要怎么一致,然后。数据的敏感数据要怎么去保护,嗯,甚至包括比如说大家用怎么用隐私计算去算这些环节,再比如说怎么去解决这个各种法律问题呀,各种财务问题啊,比如说数据资产的评估和管理呀。法法律问题,主要是这个合规呀,还有以及各种使用协议呀,各种所有权呀,各种各样的问题。 |
| 43 | + |
| 44 | +% 如何做数据工程平台 |
| 45 | + |
| 46 | +然后最后一个部分我还没加,我是计划再加一个如何去做一个platform,就是把我们如何去做数据云的指导思想也给写上去,然后呢,就是阐述我们认为在这样的流程之下,有哪些环节还有很多可以改进的地方,如果我们要去做一个platform,我们要去怎么做,然后完整的思路大概就是这样。 |
0 commit comments