基于SSD的数据库系统绿色查询优化器的软件工程研究

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329931 日期:2023-07-22 来源:论文网

第一章 引言

1.1 研究背景

作为信息数据存储及管理的主要载体,数据中心的投资规模和建设数量逐年翻番[3]。因此数据中心的能耗问题日益突出,其对企业成本及社会环境造成的压力得到了所有国家政府的广泛关注。据信息统计,2011 年美国数据中心的电力消耗已占其整个电网年耗电量的 2%[4],而我国数据中心同年的耗电总量也已高达 700 亿千瓦时(KWh),占全国耗电总量的 5%[5]。同时据纽约时报报导[6],全球数据中心平均每年耗电总量为 3000 亿瓦特左右,已接近 30 座的核电站年均总发电量,却只有 6%~12%的资源消耗用于响应用户的请求。而且,数据中心严重的能耗问题导致碳排放污染问题越发严峻,同时还带来了一些社会环境问题。目前信息技术领域的碳排放量已占全球碳排放总量的 2%,并且这一比例预计到 2020 年至少翻一番[7]。数据库系统作为数据中心的重要组成部分,使得 DBMS 负载消耗着数据中心大量的服务器资源[8]。因此,面向节能的绿色 DBMS 的研究是有效缓解当前能耗与环境问题的关键之一,具有重要的社会应用价值。
并且自哥本哈根大会召开之后,建设低碳化节约型社会已成为全球共识。同时,习近平总书记在十九大报告中也已提出:应加快推进建立绿色化生产制度体制及绿色消费政策。应大力发展清洁能源及绿色环保型产业,提倡发展面向市场的绿色生产及创新技术,加快构建低碳节能、可持续发展的政治经济体系。改革现有能源产业结构,建立健全低碳化、安全性、高效型的能源产业结构。全面倡导资源节约及循环利用,做到节水、节电、节能,在全社会提倡绿色消费、低碳环保的生产生活方式,并加快推进全社会各行各业的绿色化进程。其中,信息技术领域持续增长的高能耗问题一直受到社会各界的广泛重视,为响应党和国家的号召,顺应国家节能环保的发展战略,应大力促进信息技术领域绿色化进程。因此,面向低能耗、高能效的绿色数据库系统进行研究,对提高大数据时代的能耗利用率具有显著的现实意义。
............................

1.2 SSD 简介
本节简单介绍 SSD 的基本硬件结构特点和相比 HDD 的不同特性。
1.2.1 SSD 的基本硬件架构

如图 1-1 所示,以三星 840EVO 为例的 SSD 的主要包含以下 3 个部件:
(1)主控:作为一种嵌入式型微芯片,控制器类似于电脑的 CPU,是 SSD 的命令中心,负责实际中的数据读写、垃圾回收、损耗均衡等操作请求。保证了 SSD 的运行速度及内部存储空间的整洁度,主控的功能就想当于 SSD 大脑中枢。
(2)闪存颗粒单元:在固态硬盘中,闪存颗粒替代了机械磁盘作为存储单元,SSD的所有用户数据全部存储于 NAND 闪存中,其为 SSD 中的核心部件。NAND 型闪存是非易失性存储器件,并不会因为断电而丢失数据,因此被 SSD 大范围使用。根据 NAND型闪存芯片电子单元结构密度性的不同,可将其分成单层存储(SLC)、双层存储(MLC)以及三层存储 (TLC)三种存储类型。NAND 型闪存芯片不仅直接决定着固态硬盘的寿命,同时也显著影响着 SSD 的性能。
(3)缓存芯片:由于 SSD 内部的磨损机制,导致固态硬盘在读写小文件以及常用文件的时候,会不断地进行数据的整块写入缓存操作,而后再将缓存数据输出到闪存存储单元中。这样的过程需要依赖大量的缓存,特别是在 SSD 进行大数量级碎片化文件的IO 过程中,系统缓存的作用更加明显。SSD 上的缓存芯片是可选的,主要起到上述的数据交换缓冲的作用
.............................

第二章 绿色数据库系统的发展概况及研究现状

2.1 绿色数据库系统的发展概述
绿色计算是信息时代提倡的一种新型计算模式,其主要是为了促进计算机信息技术领域的资源节省、环境友好及可持续发展。Murugesan 等学者将绿色计算相关领域定义[19]为:旨在有效设计、制造、应用及部署计算机、服务器和相应子系统并使得这些设备在最小程度上或者根本不影响与破坏环境的一切实践研究。绿色计算在产业界的发展体现在持续追求更高的计算性能的同时,寻找更高效的生产技术方法来降低服务产品的能耗。随着绿色计算这一概念的提出,面向节能的计算机系统的研究快速发展并逐渐引起学术界及工业界的重视,目前涉及的研究层面主要有能耗测量评价,系统体系结构、网络通信服务、系统软件以及数据中心等[19-22]。数据中心的能耗问题已成为近些年来的研究热点,数据库研究领域也相应提出节能的 DBMS 的研究设想,即绿色数据库的概念。
目前绿色数据库系统并没有统一的概念或定义,但其首要的研究目标就是在兼顾系统性能的前提下进一步降低 DBMS 的能耗。通常传统的数据库系统往往以提高系统性能作为首要的设计及实现目标,但没有充分地考虑数据在进行存储及操作时能耗的有效性以及能耗的均衡性问题。所谓的能耗有效性[23],主要是指利用更少的电力消耗来完成相同的服务功能,例如查询处理、缓存区管理等等。而所谓的能耗均衡性,是指随着数据库负载的变化,数据库系统可以动态调整其能量消耗 [24]。能耗有效性在 DBMS 中的研究工作最早为 2007 年由 HP Labs 及斯坦福大学共同为数据中心研发的能耗测试系统JouleSort[25],并且 DBMS 在能耗有效性方面的研究受到他们工作成果的极大推动。目前数据库在能耗有效性方面的研究工作主要集中在能耗有效的查询处理[12-14,26-27]、索引管理[28-31]以及缓冲区管理[32-36]。其中,能耗有效的查询处理是指在设计查询优化器进行查询计划的选择时会考虑能耗因素,并在时间性能退化可允许的范围内实现系统能耗的节省,同时不会显著影响系统的可靠性以及可扩展性。该方面的研究主要表现为建立查询代价模型及优化查询连接算法。索引管理技术主要利用索引快速定位数据以降低数据库I/O 操作的代价,从而使得查询执行效率获得提高。大部分现有缓冲区算法都是以性能为设计目标,忽略了系统能耗,在这种情况下提出了能耗感知的缓冲区算法。目前数据库能耗有效性的整体研究水平还处于基础阶段,已有的研究工作大多是测试分析 DBMS的能耗,或者针对 DBMS 核心资源消耗部件的能耗进行测试、分析。
...........................

2.2 能耗有效的绿色数据库系统的相关研究
目前,节能的绿色数据库系统在硬件方面的研究主要侧重于设计和使用高性能、低功耗硬件(如处理器,存储器)替换原有的系统硬件设备。其中,研究[42-44]主要通过利用动态电压/频率调节(DVFS)技术提高能效、降低能耗。其中,利用 SSD 设备直接替换 HDD 已成为该方向的研究热点。吕雁飞等[45]不仅实验测试了固态硬盘的 I/O,同时就缓冲大小、CPU 处理性能等对基于 SSD 设备数据库系统的影响进行了实验分析,并从资源管理、数据组织等方面给出了性能及能耗优化建议。Jaeyoung Do 等[12]实验对比了排序-合并、循环嵌套、Hash 等连接算法在 SSD 设备和 HDD 设备上的性能差异,结果显示这些操作借助 SSD 设备仅得到低于 2 倍的性能提升,节能效果不显著。Daniel Bausch 等[13]实验发现基于 SSD 设备的数据库系统查询处理能力相比 HDD 设备环境可最大提高 50 倍,一定程度地降低了数据库系统的能耗,但是不同扫描操作之间的性能提升差距比较大。Sang-Won Lee 等[46]基于 SSD 设备的数据库测试了多个方面的性能和功耗,并讨论了 CPU 会不会成为基于 SSD 设备数据库系统性能瓶颈的问题。上述关于硬件方面的节能研究都是通过降低系统执行时间的方式实现一定的节能效果。

软件方面的研究工作主要是围绕绿色查询优化器进行设计与研究。其具体研究形式为查询工作负载构建功耗/能耗模型,在满足用户 SLA(服务等级协议)的基础上,最终为查询选择具有低能耗的执行计划。Rodriguez 等[47]通过统计查询计划的基数,列数、查询元组数,以及利用系统内部传感器数据和系统负载数据信息,构建了查询语句级的功耗开销模型。Xu 等[43,48]主要根据索引元组数、读取的数据页数等运算符特征,构建了运算符级的功耗模型,并综合功耗和性能两个方面评估及优化查询计划的选择。不同于Xu 等[43,48]的研究,

Liu 等[49]则是采用查询检索的数据列数和 CPU 元组数的乘积构建了功耗模型。Kang [50,51]通过合并类似的实时查询减少了重复的访问及处理操作,并同时进行动态电源管理,有效降低了实时数据库系统的截止期错误及功耗。文献[52]提出了一个可精确估算峰值功耗的查询计划模型,该模型在峰值功耗和时间效率之间选择有吸引力的折衷方案来降低功耗。杨良怀等[53,54]通过对磁盘利用率、CPU 利用率等信息进行多元线性拟合构建出了一种功耗模型。
...................................

第三章 能耗感知模型 ........................................... 11
3.1 基于 SQL 语句的数据库资源消耗模式....................................... 11
3.2 时间开销模型 .................................. 12
3.3 功耗开销模型 .................................. 14
第四章 功耗——性能权衡的查询计划优化模型 ....................................... 21
4.1 模型提出的假设 ..................................... 21
4.2 假设的合理性 ............................ 23
第五章 实验结果与数值分析 ...................................... 33
5.1 实验环境 ................................... 33
5.1.1 基本硬件参数 ....................................... 33
5.1.2 实验数据采集 ....................................... 34

第五章 实验结果与数值分析

5.1 实验环境
5.1.1 基本硬件参数
实验运行在基于 SSD 设备的单节点数据库系统上,系统的硬件配置参数及数据处理信息如下表 5-1 所示:

实验基于 SSD 设备的 Oracle 数据库系统,构建数据库所需的表结构及数据都来自于 TPC-H 基准,该基准由非盈利组织——事务处理性能委员会(简称 TPC)为计算机建立的标准化的性能测试基准,其主要包含一系列应用于商务领域的数据、查询语句。在能耗感知模型实验中,我们采用的数据集是我们自行设计的,主要是基于 SSD 上 I/O操作特性的简单 SQL 语句。而在功耗——性能权衡模型的验证实验中,我们主要采用TPC-H 测试集提供的 22 条查询语句,同时该基准的 dbgen 工具可帮助我们生成多种大小的数据库。
.........................

第六章 总结与展望

6.1 总结
随着大数据时代的到来,其产生的数据量正呈爆炸性增长。数据中心作为数据存储的重要载体,其建设规模逐年成倍增长,因此数据中心的能耗问题日益突出,得到了政府、企业及国际的高度重视。数据库系统作为数据中心的主要资源消耗部件,其节能研究引起了学术界及工业界的广泛关注。其中,耗电少、性能高的 SSD 设备的出现为数据库节能研究带来了新思路。然而,现有基于 SSD 设备的数据库系统的研究主要是以提高性能为目标,鲜有关注能耗方面的研究。针对这种问题,本文主要提出了一种绿色查询优化器设计,即针对数据库查询负载的能耗消耗构建了两大模型——能耗感知模型、功耗——性能权衡模型。其中,能耗感知模型主要实现对数据库查询负载的能耗估算,为数据库节能提供了理论及技术支持。功耗——性能权衡模型在兼顾系统性能的条件下,主要通过降低系统功耗实现了节能的效果。最后我们通过实验验证了本文模型的可行性及有效性,实验结果显示本文模型可有效提高基于 SSD 设备的数据库系统的能源利用率。

参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100