Skip to content
This repository was archived by the owner on Sep 25, 2024. It is now read-only.

SakuraPuare/AlibabaTrace

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

34 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

基于Python的阿里数据集分析及可视化系统的设计与实现

摘要:在移动边缘计算环境中,优化任务调度是提高集群资源利用率和执行效率的关键。本文基于阿里巴巴2018年的集群数据集cluster-trace-v2018,开发一个数据集分析及可视化系统,旨在通过可视化技术帮助用户理解复杂的任务依赖和集群状态。

该系统使用Python处理和分析数据,采用Vue.js和ECharts创建一个交互式可视化界面,其主要功能包括数据集分析和应用两部分:(1)分析部分包括任务依赖关系、资源利用率分析、任务执行时间统计、任务失败原因分析以及机器负载和任务分布展示;通过有向无环图详细表示任务间依赖,并允许用户通过交互查看具体任务信息;资源利用率通过折线图和饼图展示,帮助识别瓶颈;任务执行时间通过直方图和箱线图可视化,以便发现异常;失败原因则通过饼图和条形图显示不同原因的比例;此外,热力图和树形图用于显示机器负载和任务分布,有助于发现负载不均问题。(2)应用部分主要将数据集应用到移动边缘计算资源调度研究中,将数据集中依赖任务构成的有向无环图作为物联网应用和研究对象,提出一种基于移动边缘计算环境的物联网应用任务卸载方法;通过将这些物联网应用按照截止时间的升序排序,分析它们的有向无环图,有效地生成边缘云上的协作任务卸载方案,进而研究对物联网应用的可靠性和移动边缘计算环境带宽消耗的影响,并将这些影响用图表在系统中进行展示。

本研究对移动边缘计算领域的任务调度优化和可视化分析具有重要意义,为研究人员和集群管理员提供了一种高效的方法来优化移动边缘计算环境中的任务调度问题,同时为未来的移动边缘计算可视化分析研究提供了参考。

关键词:可视化系统;阿里数据集;资源调度;Vue;Echarts;MySQL

1 引言

1.1 研究背景和意义

随着云计算技术的迅速发展,大规模集群环境已成为处理和分析庞大数据集的关键平台。在这些环境中,有效的任务调度和资源管理对于提高运算效率和资源利用率至关重要。阿里巴巴的集群数据集cluster-trace-v2018提供了一个独特的视角来分析和理解集群管理中的各种挑战,包括任务调度、资源分配和系统性能优化等。

任务调度特别是在大型集群中,需要综合考虑多种因素,例如任务之间的依赖关系、资源需求和优先级等。这些复杂的依赖关系和动态的资源配置要求调度系统不仅要高效,还要足够灵活,以应对不断变化的工作负载和环境条件。因此,开发一种能够直观显示这些关系和状态的可视化系统,对于集群管理员和研究人员来说是非常有价值的。

本研究利用阿里巴巴的cluster-trace-v2018数据集,设计并实现了一个基于Python的数据分析及可视化系统。该系统使用Python进行数据处理和分析,结合Vue.js和ECharts技术开发交互式的前端界面。通过这种方式,系统能够直观地展示任务之间的依赖关系以及集群的资源利用情况,帮助用户快速识别资源瓶颈和优化任务调度策略。

研究的意义在于,通过可视化技术,该系统不仅提高了集群管理的效率,还促进了对大规模集群运行机制的理解。对于集群管理员而言,这意味着可以更有效地监控和调整集群状态,确保资源被最优化地利用,同时减少任务执行的延迟和失败率。对于研究人员,系统提供了一个强有力的工具,以探索和实验不同的调度算法和策略。

此外,本系统的设计和实现考虑了用户交互的便捷性和直观性,提供了丰富的图表和交互方式,如有向无环图(DAG)、折线图、饼图、直方图、箱线图、热力图和树形图等。这些图表不仅增强了信息的可读性和易理解性,还使得用户能够从多个维度和层次分析数据,从而深入挖掘数据背后的洞见。

综上所述,该研究不仅技术上具有创新性,而且在实际应用中具有重要的理论和实践价值。通过对阿里巴巴集群数据的深入分析和可视化展示,本研究有助于推动移动边缘计算领域任务调度和资源管理的研究,为未来相关技术的发展提供参考和启示。

1.2 国内外研究现状

在移动边缘计算和大数据时代,任务调度和资源管理是研究的热点领域。随着技术的发展和应用需求的增加,国内外学者对相关技术进行了广泛的研究和深入的探讨。

在国际上,许多研究集中在改进任务调度算法和优化资源分配策略上。例如,谷歌的Borg系统是一个知名的大规模集群管理系统,它通过复杂的调度策略确保资源的高效利用和服务的高可用性。此外,谷歌开发的Kubernetes也广泛应用于容器编排,通过自动化容器的部署、扩展和管理,极大地提高了资源的利用率和应用的可扩展性。

Apache Mesos是另一个重要的资源共享平台,它允许分布式应用通过动态资源共享机制有效地运行在大型跨多个物理或虚拟机的集群上。Mesos的设计哲学是将资源管理和任务调度分离,从而提供更灵活的编程模型以适应不同的计算需求。

在中国,随着移动边缘计算技术的快速发展,相关的研究也在不断深入。阿里巴巴、腾讯和百度等大型互联网公司在内部集群管理和资源调度方面都有自己的实践和创新。阿里巴巴的Fuxi系统是一个典型的例子,它是一个大规模的分布式计算和资源调度平台,支持阿里巴巴广泛的电商和云服务业务。Fuxi系统能够在保证服务质量的同时,优化资源利用率,支持复杂的业务场景。

此外,国内学术界也在积极探索集群数据分析和可视化技术。例如,多个研究团队致力于开发更为高效的数据可视化工具,帮助研究人员和技术人员更好地理解和分析大规模数据集。这些工具不仅能够展示数据的静态特征,还能够动态地展示数据的实时变化,为用户提供即时的反馈和深入的洞察。

在可视化领域,Tableau、Power BI和Grafana等工具的普及展示了可视化技术的重要性。这些工具提供了丰富的图表库和用户友好的界面,使得非专业用户也能够轻松地创建复杂的数据视图。此外,开源项目如Apache Superset和Redash也为开发者提供了强大的数据探索和可视化能力。

综合国内外的研究现状,可以看出任务调度和资源管理在移动边缘计算领域是持续的热点,而数据可视化技术则是提高效率和用户体验的关键。随着技术的进步和应用领域的扩展,未来这些研究领域将继续展现出新的发展趋势和更广阔的应用前景。对于本研究而言,通过结合先进的数据处理技术和用户友好的可视化界面,不仅能够提升集群管理的效率,也能够为研究人员和技术人员提供更深入的洞察,推动整个移动边缘计算领域的技术进步和应用创新。

1.1 研究内容

在本研究中,我们旨在开发一个基于Python的阿里数据集分析及可视化系统,以支持对阿里巴巴集群数据集cluster-trace-v2018的深入应用分析。通过本系统的实现,我们希望提升数据处理和集群管理的效率,同时为研究人员和集群管理员提供一个直观的工具,以观察和优化任务调度与资源分配。

在技术实现方面,系统将整合多种现代Web技术,包括但不限于HTML5, CSS3, JavaScript(使用Vue.js框架),以及ECharts等数据可视化库。此外,系统后端将采用Python进行数据处理和服务端逻辑的实现,确保系统的高性能和可扩展性。系统的一个重要功能是实现任务依赖关系的动态展示,这不仅包括任务之间的依赖,还包括各任务的资源使用情况,如CPU和内存等。另一个重要功能是将数据集应用到移动边缘计算资源调度研究中,将数据集中依赖任务构成的有向无环图作为物联网应用和研究对象,提出一种基于移动边缘计算的物联网应用任务卸载方法;通过将这些物联网应用按照截止时间的升序排序,分析它们的有向无环图,有效地生成边缘云上的协作任务卸载方案,进而研究对物联网应用的可靠性和移动边缘计算环境带宽消耗的影响,并将这些影响用图表在系统中进行展示。

此外,系统将支持数据的实时更新和交互式查询,用户可以通过直观的用户界面进行数据筛选、排序和搜索,以便快速找到所需的信息。系统还将提供丰富的图表和视图选项,以帮助用户更好地理解数据和发现潜在的问题。

总体而言,本研究的目标是通过一个高效、易用且功能强大的可视化系统,提升集群数据的可访问性和可理解性,从而帮助用户优化集群的运行效率和资源配置,推动相关领域的研究和实践进步。

2.1 系统数据库设计

2.1.1 数据库表设计

数据库表设计是数据库开发过程中的一个关键步骤,它涉及到定义数据库中的表、列(或称为字段)、数据类型以及这些表之间的关系。良好的数据库表设计不仅能确保数据的准确性、完整性和可访问性,还能提高查询效率和简化数据库的维护。以下是该系统数据库表的设计。

机器的元信息和事件信息:包括机器的uid、时间戳、一级容器故障域、容器故障域的另一个级别、机器上的cpu数量、标准化内存大小机器的状态,如表2.1所示。

表2.1 机器的元信息和事件信息

序号 列名 数据类型 说明
1 machine_id string 机器的uid
2 time_stamp bigint 时间戳
3 failure_1 bigint 第一级故障域
4 failure_2 bigint 第二级故障域
5 cpu_num bigint 一台机器的cpu数
6 mem_size bigint 机器的内存大小
7 status string 给定time_stamp的机器状态

每台机器的资源使用情况:包括机器的uid、时间戳、cpu利用率、内存利用率、内存带宽使用率、每千条指令缓存未命中、传入网络包的数量、传出网络包的数量、磁盘空间利用率、磁盘io利用率百分比,如表2.2所示。

表2.2 每台机器的资源使用情况

序号 列名 数据类型 说明
1 machine_id string 机器的uid
2 time_stamp double 时间戳
3 cpu_util_percent bigint cpu利用率
4 mem_util_percent bigint 内存利用率
5 mem_gps double 内存带宽使用率
6 mpki bigint 每千条指令缓存未命中
7 net_in double 传入网络包的数量
8 net_out double 传出网络包的数量
9 disk_io_percent double 磁盘io利用率百分比

容器的元信息和事件信息:包括容器的唯一ID、容器主机的机器uid、
部署容器组、时间戳、计划的cpushare请求、计划的cpushare请求、计划的内存大小,如表2.1所示。

表2.3 容器的元信息和事件信息

序号 列名 数据类型 说明
1 container_id string 容器的唯一ID
2 machine_id string 容器主机的机器uid
3 time_stamp bigint 时间戳
4 app_du string 具有相同app_du的容器属于相同的应用程序组
5 status string 容器状态
6 cpu_request bigint 计划的cpushare请求
7 cpu_limit bigint 计划的cpushare请求
8 mem_size double 计划的内存大小

每个容器的资源使用情况:包括容器的唯-ID(uid)、容器运行的机器uid、时间戳、cpu利用率、每千条指令缓存未命中、给定time stamp处的容器的cpi、内存利用率、内存带宽使用率、磁盘空间利用率、磁盘io利用率百分比、传入网络包的数量、传出网络包的数量,如表2.4所示。

表2.4 每个容器的资源使用情况

序号 列名 数据类型 说明
1 container_id string 容器的唯一ID
2 machine_id string 容器运行的机器uid
3 time_stamp double 时间戳
4 cpu_util_percent bigint cpu利用率
5 mem_util_percent bigint 内存利用率
6 cpi double 给定time_stamp处的容器的cpi
7 mem_gps double 内存带宽使用率
8 mpki bigint 每千条指令缓存未命中
9 net_in double 传入网络包的数量
10 net_out double 传出网络包的数量
11 disk_io_percent double 磁盘io利用率百分比

有关批处理工作负载中实例的信息;包括批处理实例的唯-ID(uid)、实例所属的任务名称、任务的类型、实例所属任务的iob name、实例的状态、实例的开始时间、实例的结束时间、实例运行的计算机ID、seq没有实例、一个实例的总seq否、实例的cpu的平均cpu利用率、一个实例的cpu的最大cpu利用率、实例的cpu的平均内存利用率、实例的cpu的最大内存利用率,如表2.5所示。

表2.5 有关批处理工作负载中实例的信息

序号 列名 数据类型 说明
1 instance_name string 实例的实例名称
2 task_name string 实例所属任务的名称
3 job_name string 实例所属的作业的名称
4 task_type string 任务类型
5 status string 任务状态
6 start_time bigint 任务开始时间
7 end_time string 任务结束时间
8 machine_id string 实例的主机uid
9 seq_no bigint 此实例的序列号
10 total_seq_no bigint 此实例的总序列号
11 cpu_avg double 实例使用的平均cpu
12 cpu_max double 实例使用的最大cpu
13 cpu_max double 实例使用的平均内存
14 mem_max double 实例使用的最大内存

有关批处理工作负载中实例的信息:实例所属的任务名称、任务具有的实例数、任务的类型、任务的job name、实例的状态、实例的开始时间、实例的结束时间、cp为每个任务实例请求、为每个任务实例请求的规范化内存,如表2.6所示。

表2.6 有关批处理工作负载中实例的信息

序号 列名 数据类型 说明
1 task_name string 任务名称
2 instance_num bigint 实例数量
3 job_name string 工作名称
4 task_type string 任务类型
5 status string 任务状态
6 start_time bigint 任务开始时间
7 end_time bigint 任务结束时间
8 plan_cpu double 任务所需的cpu数量
14 plan_mem double 标准化内存大小

表2.7

序号 列名 数据类型 说明
1 id bigint 主键
2 metric_id bigint 测试目标id
3 strategy_id bigint 测试卸载策略id
4 x_value double x坐标值
5 y_value double y坐标值

3.1 系统测试

3.1.1 测试概念

软件测试是软件开发周期中的一个关键环节,旨在通过多种测试方法保证软件产品的品质。这些测试涵盖功能测试、安全漏洞测试等多个方面。测试工程师利用一系列的测试工具和技术来识别软件中的漏洞和错误,并向开发团队提供详细的反馈与改进建议,以便优化和提升软件的性能和安全性。

3.1.2 测试方法

软件测试是软件开发中极为关键的一步。测试技术多样,包括众所周知的黑盒测试等。黑盒测试主要关注软件的输入与输出是否达到设计和用户的预期。另一种测试方法是白盒测试,这种方法深入考察软件的内部结构和功能实现,主要目的是验证软件内部逻辑的正确性以及是否满足设计规范。

3.1.1 测试结果

当测试基于Python的阿里数据集分析及可视化系统时,首先是确保其性能,性能测试,保系统在各种负载条件下都能保持良好的响应速度和处理能力。然后是安全测试,保系统的数据安全和防止未授权访问。这包括保护用户数据不被泄露以及防止黑客攻击,特别是对于处理敏感信息的系统。然后是可用性测试 验证用户在使用系统时的便利性和效率。这涉及到用户界面的直观设计,以及系统是否能够容易地完成预期任务。最后是稳定性测试,查系统在长时间运行或在高负载下是否能持续稳定工作。

(1)DAG图生成模块功能测试

在功能测试中,主要测试了系统的各项功能,包括系统的页面的展示,节点的添加和删除,边的添加和删除,DAG图是否能正常展示,测试结果表明,系统的各项功能均能正常运行,符合预期。具体测试如表7所示。

测试内容 操作描述 期望结果 实际结果 测试状态
1 添加节点 节点添加成功 显示添加的节点 与期望结果一样
2 删除节点 节点删除成功 节点已删除 与期望结果一样
3 添加边 添加边成功 显示添加的边 与期望结果一样
4 删除边 删除边成功 边已删除 与期望结果一样
5 恢复默认DAG图 把DAG图恢复初始状态 恢复成功 与期望结果一样
6 数据文件展示选择 更换文件展示 更换文件成功 与期望结果一样
7 选择DAG图生成 DAG图生成成功 DAG图已生成 与期望结果一样

(2)数据集应用可视化功能模块测试

测试内容 操作描述 期望结果 实际结果 测试状态
1 选择RO算法和虚拟机数量的影响 数据集正确加载并在界面上显示 数据集正确加载并在界面上显示 与期望结果一样
2 选择GO算法和物联网应用数量 数据集正确加载并在界面上显示 数据集正确加载并在界面上显示 与期望结果一样
3 选择DE算法和基站数量的影响 数据集正确加载并在界面上显示 数据集正确加载并在界面上显示 与期望结果一样
4 选择RETO算法和物联网应用截止时间的影响 数据集正确加载并在界面上显示 数据集正确加载并在界面上显示 与期望结果一样
5 选择所有算法和虚拟机数量的影响 数据集正确加载并在界面上显示 数据集正确加载并在界面上显示 与期望结果一样
6 不选择任何数据集 数据集不加载并不显示 数据集不加载并不显示 与期望结果一样

Releases

No releases published

Packages

 
 
 

Contributors