数据库系统概论 |
您所在的位置:网站首页 › 概述查询优化的策略 › 数据库系统概论 |
一、关系数据库系统查询处理 1. 查询处理步骤 检查通过后把SQL查询语句转换成内部表示(即等价的关系代数表达式)。 SQL——>关系代数 在关系系统中一般用查询树(语法分析树)来表示扩展的关系代数表达式 (3)查询优化 选择一个高效执行的查询处理策略 通过优化器——>得到——>执行策略——>生成——>查询执行计划——>通过代码生成器——>生成——>查询执行计划的代码 两种执行方式:①自顶向下②自底向上 2. 实现查询操作的算法实例 (1)选择操作的实现 1)全表扫描方法 对查询的基本表顺序扫描,逐一检查每个元组是否满足选择条件,把满足条件的元组作为结果输出 2)索引扫描方法 适合于选择条件中的属性上有索引(例如B+树索引或Hash索引) ,通过索引先找到满足条件的元组主码或元组指针,再通过元组指针直接在查询的基本表中找到元组。 (2)连接操作的实现 1)嵌套循环算法 2)排序-合并算法 3)索引连接(index join)算法 4)Hash Join算法 例如: SELECT * FROM Student, SC WHERE Student.Sno=SC.Sno;1)嵌套循环算法 ①对外层循环(Student表)的每一个元组(s),检索内层循环(SC表)中的每一个元组(sc) ②检查这两个元组在连接属性(Sno)上是否相等 ③如果满足连接条件,则串接后作为结果输出,直到外层循环表中的元组处理完为止。 2)排序-合并算法 ①如果连接的表没有排好序,先对Student表和SC表按连接属性Sno排序 ②取Student表中第一个Sno,依次扫描SC表中具有相同Sno的元组 ③当扫描到Sno不相同的第一个SC元组时,返回Student表扫描它的下一个元组,再扫描SC表中具有相同Sno的元组,把它们连接起来 ④重复上述步骤直到Student 表扫描完 二、关系数据库系统的查询优化 1. 查询优化概述 (1)关系系统的查询优化 是关系数据库管理系统实现的关键技术又是关系系统的优点所在,减轻了用户选择存取路径的负担 (2)非关系系统 用户使用过程化的语言表达查询要求,执行何种记录级的操作,以及操作的序列是由用户来决定的 用户必须了解存取路径,系统要提供用户选择存取路径的手段,查询效率由用户的存取策略决定 如果用户做了不当的选择,系统是无法对此加以改进的 (3)查询优化的优点 ①用户不必考虑如何最好地表达查询以获得较好的效率 ②系统可以比用户程序的“优化”做得更好 (4)关系数据库管理系统通过某种代价模型计算出各种查询执行策略的执行代价,然后选取代价最小的执行方案 1)集中式数据库 执行开销磁盘存取块数(I/O代价)最重要处理机时间(CPU代价)查询的内存开销2)分布式数据库 执行开销磁盘存取块数(I/O代价)处理机时间(CPU代价)查询的内存开销通信代价(5) 查询优化的总目标选择有效的策略求得给定关系表达式的值使得查询代价最小(实际上是较小)2. 一个实例 SELECT Student.Sname FROM Student, SC WHERE Student.Sno=SC.Sno AND SC.Cno=’2’ //假定学生-课程数据库中有1000个学生记录,10000个选课记录选修2号课程的选课记录为50个 可以用多种等价的关系代数表达式来完成这一查询![]() ![]() ![]() (1)第一种情况 (2)第二种情况 (3)第三种情况 第三种情况总的读写数据块=100+100 其执行代价大约是第一种情况的万分之一,是第二种情况的20分之一 假如SC表的Cno字段上有索引 第一步就不必读取所有的SC元组而只需读取Cno=‘2’的那些元组(50个) 存取的索引块和SC中满足条件的数据块大约总共3~4块 若Student表在Sno上也有索引 不必读取所有的Student元组 因为满足条件的SC记录仅50个,涉及最多50个Student记录 读取Student表的块数也可大大减少 把代数表达式Q1变换为Q2、 Q3 有选择和连接操作时,先做选择操作,这样参加连接的元组就可以大大减少,这是代数优化 在Q3中 1)SC表的选择操作算法有全表扫描或索引扫描,经过初步估算,索引扫描方法较优。 2)对于Student和SC表的连接,利用Student表上的索引,采用索引连接代价也较小,这就是物理优化。 三、 代数优化 1. 关系代数表达式等价变换规则 代数优化策略:通过对关系代数表达式的等价变换来提高查询效率 关系代数表达式的等价:指用相同的关系代替两个表达式中相应的关系所得到的结果是相同的 两个关系表达式E1和E2是等价的,可记为E1≡E2 (1)常用的等价变换规则 2. 查询树的启发式优化 启发式规则 (1)选择运算应尽可能先做 在优化策略中这是最重要、最基本的一条。 (2)把投影运算和选择运算同时进行 如有若干投影和选择运算,并且它们都对同一个关系操作,则可以在扫描此关系的同时完成所有的这些运算以避免重复扫描关系。 (3) 把投影同其前或其后的双目运算结合起来,没有必要为了去掉某些字段而扫描一遍关系。 (4) 把某些选择同在它前面要执行的笛卡尔积结合起来成为一个连接运算,连接特别是等值连接运算要比同样关系上的笛卡尔积省很多时间。 (5)找出公共子表达式 ●如果这种重复出现的子表达式的结果不是很大的关系 ●并且从外存中读入这个关系比计算该子表达式的时间少得多 ●则先计算一次公共子表达式并把结果写入中间文件是合算的。 ●当查询的是视图时,定义视图的表达式就是公共子表达式的情况 算法:关系表达式的优化 输入:一个关系表达式的查询树 输出:优化的查询树 方法: 例题 SELECT Student.Sname FROM Student, SC WHERE Student.Sno=SC.Sno AND SC.Cno=’2’第一步:把SQL语句转换成查询树,如下图所示 四、物理优化 代数优化改变查询语句中操作的次序和组合,不涉及底层的存取路径 对于一个查询语句有许多存取方案,它们的执行效率不同, 仅仅进行代数优化是不够的 物理优化就是要选择高效合理的操作算法或存取路径,求得优化的查询计划 物理优化方法解释基于规则的启发式优化启发式规则是指那些在大多数情况下都适用,但不是在每种情况下都是适用的规则基于代价估算的优化优化器估算不同执行策略的代价,并选出具有最小代价的执行计划两者结合的优化方法常常先使用启发式规则,选取若干较优的候选方案,减少代价估算的工作量,然后分别计算这些候选方案的执行代价,较快地选出最终的优化方案1. 基于启发式规则的存取路径选择优化 (1)选择操作的启发式规则 对于小关系,使用全表顺序扫描,即使选择列上有索引 对于大关系,启发式规则有: 1)对于选择条件是“主码=值”的查询 查询结果最多是一个元组,可以选择主码索引 一般的关系数据库管理系统会自动建立主码索引 2)对于选择条件是“非主属性=值”的查询,并且选择列上有索引 要估算查询结果的元组数目 如果比例较小( |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |