大数据一体机软件中间件设计与研究

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329879 日期:2023-07-22 来源:论文网
本文是一篇软件工程论文,大数据一体机软件中间件的研究对于大数据一体机的研制和中间件技术的发展都具有重要的意义,依托软件中间件技术的大数据一体机集数据处理、数据传输、数据存储三方面于一体,通过预先集成、测试、优化,能够实现快速部署,简化 IT 基础架构,节省资源,提升系统高可用性和可扩展性,简化数据中心基础设施的部署和运维管理的复杂性。由于大数据一体机相比大型数据中心来说可供使用的资源更少,因此一体机软件中间件对于资源利用率的要求更高,本文第三章着重于资源利用率的问题设计了基于粒子群的容器自适应资源调度算法;大数据一体机上层面向的应用类型不同,一体机往往要处理不同种类的异构数据,且不同的上层应用对于数据的读写请求性能要求也各有侧重,因此一体机对于海量数据的高性能存储和查询也是研究的重点,本文第四章大数据一体机软件中间件的设计与实现里提出了基于多级缓存策略的一体机软件中间件存储模块设计。

第一章 绪论

1.1 研究背景及意义
近年来,我国大数据产业已经具备了良好的基础,面临着难得的发展机遇[1],为了解决大数据时代基础设施的一些问题,如数据海量存储、持续扩展、运维部署、数据个性化处理和存取一体化问题、海量数据的存储成本过高等问题[2][3],大数据一体机(Big Data Machine)逐渐成为产业界研发的热点。大数据一体机作为大数据和云计算飞速发展时期新的产物,它集数据处理、数据传输、数据存储三方面于一体,通过预先集成、测试、优化,能够实现快速部署,简化 IT 基础架构,节省资源,提升系统高可用性和可扩展性。在大数据一体机的研制道路上,国内外相继出现了许多引人注目的技术手段和产品,其中较为主流的大数据一体机都是由一些知名数据库厂商研发,其中国外的一体机产品包括甲骨文公司的 Exadata, IBM的 Netezza, EMC 的 Green-Plum 等,国内主要有华为 FusionCube 一体机,浪潮云海大数据一体机,曙光 XData 大数据一体机等。这种日益重要的信息基础设备采用分布式架构,集成了服务器、存储设备、网络设备等一系列硬件设备,同时也包含配套的操作系统、数据库管理系统以及为数据查询、分析、处理用途而特别配置的软件中间件,大大简化了数据中心基础设施的部署和运维管理的复杂性[4]。

1.1.1 研究背景
随着互联网技术的发展,人类各项生产生活中的应用软件也在不断拓展,可供分析的数据呈现爆炸式的增长。如何快速、高效的从海量数据中挖掘潜在的价值并转化为实际的生产效益已经成为各行业信息化过程中面临的重大挑战[5]。在这个过程中我们面临的挑战主要是,数据量的快速增长和数据来源的多样化发展导致海量数据管理困难,系统性能难以保障,传统的数据处理、存储和分析在实际生产活动中表现出了不足,同时大型数据中心能耗高,系统资源利用率不高导致成本升高。而大数据一体机通过软件与硬件相结合极大解决了上述问题,一体机在硬件上优化了系统硬件架构,扩充数据缓存,内部使用高速内联网络等;在软件技术层面,使用分级存储、压缩存储、列存储技术,优化查询速度,并实现了动态负载监控和管理,通过简化 IT 基础架构减少了设备采购成本,降低了设备能耗和运维成本等。

.........................

1.2 国内外研究现状
1.2.1 大数据一体机研究现状
目前国内外众多厂商已研制出各具特点的大数据一体机产品。按照类型进行分类,目前的大数据产品可细分为数据仓库一体机、数据库一体机、中间件一体机等类型,主要代表产品有甲骨文 Exadata X3 大数据一体机、IBM PureData 大数据一体机、华为 FusionCube 一体机、浪潮云海大数据一体机、曙光 XData 一体机等,如表 1.1 所示。

.........................

第二章 论文相关理论技术背景

2.1 大数据一体机简介
大数据一体机是一种专为大数据分析、处理而设计的软硬件集成在一起的产品,通过标准化的架构集成了服务器、网络、存储、操作系统、管理软件、数据仓库、中间件、虚拟化软件和用户大数据等,减化了数据中心基础设施部署和运维管理的复杂性的一体化设备,一体机能够实现快速部署、简化 IT 基础架构,节省资源,提升系统高可用性和可扩展性。

一体机在硬件架构上和传统服务器架构类似,可以分为对称多处理器(Symmet-ricMulti-rocessor,SMP)架构,非均匀内存访问(Non-Jniform Memory Access ,NUMA)架构和大规模并行处理(Massive Parallel Processing ,MPP)架构。其中 SMP 被广泛用于 X86 平台(单节点),在该架构下各 CPU 共享系统所有资源(CPU、内存、I/U 等),CPU 之间对称工作,没有从属关系,对总线的访问是同级的,访问内存中的任何地址所需时间也是相同的。所有 CPU并行执行系统的任务队列,具有良好的并发能力,但随着 CPU 数量的增加,内存访问冲突将迅速增加,可拓展能力受到极大限制。SMP 是最为常见的一种系统架构,如图 2.1 所示。


......................


2.2 资源弹性调度
资源调度在本文是指在大数据一体机有限的硬件资源情况下,根据一定的资源使用情况,在容器拓展方面进行合理的资源分配。一体机中的资源消耗者主要代表着不同的处理任务,每个计算、存储或是查询的任务都会消耗响应的资源。目前主流的资源调度方式是依托虚拟化技术的弹性调度,随着容器虚拟化技术的发展,在资源调度方面有了进一步的发展,本节将详细以 Docker 为代表的容器虚拟化技术。
2.2.1 弹性调度的方式

目前弹性调度的方式主要有基于物理机、虚拟机、和最新的容器技术:
(1)物理机调度
在虚拟机技术未普及时,或是在一些硬件要求高的系统下,当应用无法满足日益增长的计算和存储任务时,往往采用直接在另一个物理服务器上部署相同的代码,通过负载均衡技术实现弹性调度,但是很多情况下突发的任务还是会造成应用的雪崩或者资源的浪费,在如今云计算和大数据飞速发展的阶段已经是一种效率较为低下的调度方式了。
(2)虚拟机调度

虚拟化是一种资源管理技术,是将计算机的各种硬件资源,如 CPU、网络设备、内存及IO 设备等进行抽象,虚拟化技术打破了传统的硬件资源不可分割的观念,使多个用户可以利用虚拟机共享很多计算机硬件资源。一般所指的虚拟化资源包括计算能力和存储能力。在实际的云计算和大数据环境中,高性能的物理硬件产能过剩导致很多资源没有得到有效利用,虚拟化技术屏蔽了底层物理硬件的一体性,从而可以最大化的利用硬件资源[26]。虚拟化技术目前可以分为两大类:硬件虚拟化技术和指令集虚拟化技术。硬件虚拟化技术的典型代表是VMware、Xen 等,指令集虚拟化技术的典型代表是 Qemu、Boch 等。而在这两大类中硬件虚拟化是当前最流行的虚拟化技术,硬件虚拟化技术是直接将宿主系统的硬件系统虚拟化供多用户使用,用于宿主机和虚拟化出来的机器具有相同的体系结构,虚拟机的指令可以直接在宿主机上执行,因此可以达到很高的效率。硬件虚拟化实现了从虚拟资源到物理资源的映射,并利用本地物理资源进行计算。当虚拟系统访问系统资源时(特权指令),硬件虚拟化机制将接管这个请求,并将处理结果返回给虚拟机系统,这样就实现了多个硬件设备的虚拟,保证虚拟系统的有效隔离。

...............................


第三章 基于排队论和粒子群的自适应容器资源调度算法.........................................21
3.1 问题描述......................................... 21
3.2 自适应资源调度算法定义与实现.........................................21
第四章 大数据一体机软件中间件设计与实现.................................34
4.1 一体机软件中间件定义...............................35
4.2 一体机软件中间件的架构设计...............................35
第五章 总结与展望................................................ 57
5.1 总结................................................. 57
5.2 展望.................................. 57

第四章 大数据一体机软件中间件设计与实现

4.1 一体机软件中间件定义
软件中间件是处于操作系统和应用程序之间的一类软件的总称,软件中间件屏蔽了底层操作系统的结构、上层应用的编程类型已经网络协议的差异,使开发者在不用考虑底层操作系统的基础上开发上层应用程序,也可以使上层不同的应用通过标准网络通信进行信息交换,为应用程序提供多种通讯机制,并提供相应的平台以满足不同领域的需要,如图 4.1。


.........................


第五章 总结与展望

5.1 总结
大数据一体机软件中间件的研究对于大数据一体机的研制和中间件技术的发展都具有重要的意义,依托软件中间件技术的大数据一体机集数据处理、数据传输、数据存储三方面于一体,通过预先集成、测试、优化,能够实现快速部署,简化 IT 基础架构,节省资源,提升系统高可用性和可扩展性,简化数据中心基础设施的部署和运维管理的复杂性。由于大数据一体机相比大型数据中心来说可供使用的资源更少,因此一体机软件中间件对于资源利用率的要求更高,本文第三章着重于资源利用率的问题设计了基于粒子群的容器自适应资源调度算法;大数据一体机上层面向的应用类型不同,一体机往往要处理不同种类的异构数据,且不同的上层应用对于数据的读写请求性能要求也各有侧重,因此一体机对于海量数据的高性能存储和查询也是研究的重点,本文第四章大数据一体机软件中间件的设计与实现里提出了基于多级缓存策略的一体机软件中间件存储模块设计。
本文第三章提出了一种基于排队论和粒子群自适应容器资源调度算法,该算法构建了任务平均等待时间和系统负载(资源利用率)的数学模型,并使用收敛速度快速的粒子群算法求解该数学模型。实验表明,该算法在满足任务平均等待时间的前提下,显著提高了系统资源利用率,且和主流的 Kubernetes 基于增量调度和全量调度的模式相比,本算法的任务平均等待时间更短、系统综合资源利用率更高。
本文第四章大数据一体机软件中间件的设计与实现中引入了第三章提出的自适应容器资源调度算法,在实现整个一体机软件中间件功能的基础上使系统具备自适应容器调度的能力。同时,在存储模块的设计上,提出了基于多级缓存策略的数据存取方案,优化了中间件系统的缓存设计和 HBase 存储模块,在满足不同的上层应用数据存储需求上提高了数据检索的效率。整个中间件采用容器化部署方案,并提供了可视化运维系统,在可拓展和容错性上提供了保证,且显著降低了运维成本。
参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100