File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change 3434
3535### 研发流程管理
3636
37- 在实际工程实施过程中,人之常情难免会犯错 。但是,小错误往往会产生意想不到的后果。在China's Prices Project项目组构建电商价格指数时,其中一个关键步骤就是从各大平台网站采集商品价格和销量数据。如果我们使用的网页爬虫由于未知原因突然不能正常工作,但我们没有及时收到监控异常提示,因此没有及时修改和重新部署爬虫代码,那么就可能会导致数日或更长时间内的数据无法采集,丢失大量宝贵信息 。
37+ 在前面我们讨论数据处理流程时,实际上隐含了一个不太现实的假设——“人不会犯错误” 。但是,在实际项目中,即使是经验较丰富的数据处理人员,在处理复杂任务时也难免会出现疏忽。比如,某个电商的网页爬虫程序没有经过测试就被匆匆忙忙地使用起来,可能会出现运行不稳定的情况 。
3838
39- 即使你对相关领域已经很熟悉,如果不严格遵循标准化的工作流程,项目质量也难以得到保障。这就是研发流程管理之所以成为必不可少的原因。我们计划按照DataOps提出的清晰明确的工作流程进行研发,遵循设计 、开发、再构建、测试、发布、部署、运维、监控等顺序。这样就可以在每个阶段进行必要的检查和验证,及时发现和解决问题点,提升研发效率和产品质量 。
39+ 为了更好地应对这类隐蔽的风险,我们计划介绍如何遵循DataOps提出工作流程管理数据处理项目的研发过程的每个阶段。我们会遵循设计 、开发、再构建、测试、发布、部署、运维、监控等顺序,明确研发每个阶段的工作内容和质量标准 。
4040
4141### 数据共享
4242
43- 在实际商业环境中, 不同组织之间的数据合作往往需要面临许多问题的解决。比如,量潮使用China's Prices Project积累的技术为客户提供一套线上价格监控平台。该平台需要整合各家网站商品数据,进行横向分析,并提供定价建议。但由于数据格式标准不一致,直接整合使用将导致大量错误。个别敏感字段,如买家姓名,如果直接共享,也会触犯隐私法规。此外,参与各方在收集与应用数据上的权责需要明确规定。
43+ 在实际商业环境中, 不同组织之间的数据合作往往需要面临许多问题的解决。比如,量潮使用China's Prices Project积累的技术为客户提供一套线上价格监控平台。该平台需要整合各家网站商品数据,进行横向分析,并提供定价建议。但由于数据格式标准不一致,直接整合使用将导致大量错误。个别敏感字段,如买家姓名,如果直接共享,也会触犯隐私法规。此外,参与各方在收集与应用数据上的权责需要明确规定。
4444
4545我们计划介绍制定统一的数据字段和结构标准的方案。对于敏感信息的存储和分享,我们计划介绍数据加密、数据脱敏、隐私计算等数据安全技术。商业数据的交易环节会涉及到财务和法务知识,因此我们将介绍如何评估数据资产的价值、如何制定多方数据使用授权实践等。网页爬虫等技术需要合规,因此我们也会接受合规评估方案。
4646
You can’t perform that action at this time.
0 commit comments