分享

MySql 索引是怎么回事? MySql杂谈

 程序员读书空间 2022-11-17 发布于浙江

在码农的世界里,优美的应用体验,来源于程序员对细节的处理以及自我要求的境界,年轻人也是忙忙碌碌的码农中一员,每天、每周,都会留下一些脚印,就是这些创作的内容,有一种执着,就是不知为什么,如果你迷茫,不妨来瞅瞅码农的轨迹。

有100万条数据,需要从中筛选查询10条数据,尽然用了3秒才出来,于是乎,你会想到添加个索引,然后查询速度一下从秒级别变成了毫秒级别,你知道中间发生了什么吗?

#添加索引  ALTER TABLE `question_wrong` ADD INDEX create_time_index ( `create_time` ) 

1 索引

索引的作用就是为了提高数据查询的效率,如同书的目录一样,你可以通过书的目录来快速定位内容的大概位置。

在 MySQL 中,索引是在存储引擎层实现的,所以并没有统一的索引标准,不同存储引 擎的索引的工作方式并不一样。

1.1 哈希表 索引模型

哈希表数据结构适用于只等值查询的场景。

哈希表是以键 - 值(key-value)存储数据的结构,只要输入待查找 key, 就可以从中获取到对应的值 Value,实现原理也就是在一个数组中,将key通过哈希函数换算成一个确定的位置,然后把 value 放在数组的这个位置上。

多个 key 值经过哈希函数的换算,会出现同一个值的情况,然后处理冲突的方法是,拉出一个链表,如下图中的152号位置。

1.2 有序数组 索引模型

有序数组常应用于等值查询和范围、适用于静态存储引擎 查询场景。

如将用户表的电话在数组中以递增的顺序保存,在查询某一电话号码时,用二分法就可以快速得到,这个时间复杂度很小。

1.3 二叉搜索树

二叉搜索树的特点是如下图所示:

二叉树是搜索效率最高的,但是实际上大多数的数据库存储却并不使用二叉树。

原因是,索引不止存在内存中,还要写到磁盘上,对于一个 100 多万行的表,如果使用二叉树来存储,一次查询可能需要访问 20 个数据块,从机械硬盘中随机读一个数据块大约需要 10 ms 左右的时间,那么查询一次就需要访问20个10ms,效率很低。

N 叉树在读写上的性能优点,以及适配磁盘的访问模式,已经被广泛应用在数据库引 擎中。

2 InnoDB 存储引擎的索引模型

在 InnoDB 使用了 B+ 树索引模型,所以数据都是存储在 B+ 树中的,其中表是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表。

每一个索引在 InnoDB 里面对应一棵 B+ 树。

例如在文章开如时有指令

#添加索引  ALTER TABLE `question_wrong` ADD INDEX create_time_index ( `create_time` ) 

question_wrong 表中有主键 ID,同时又为 create_time 添加了一个索引,这就有了主键索引和非主键索引区分。

主键索引的叶子节点存的是整行数据,在 InnoDB 里,主键索引也被称为聚簇索引 (clustered index)。

非主键索引的叶子节点内容是主键的值,在 InnoDB 里,非主键索引也被称为二级索引 (secondary index)。

如执行查询语句

select * from question_wrong where ID=100

即主键查询方式,则只需要搜索 ID 这棵 B+ 树

select * from question_wrong where create_time='2021-03-05 00:00:00'

普通索引查询方式,则需要先搜索 create_time索引树,得到对应的ID 的值,然后再到ID 索引树搜索一次(这个过程称为回表)。

基于非主键索引的查询需要多扫描一棵索引树。因此在实际应用中推荐使用主键查询。

3 索引维护

在插入新值的时候,B+ 树为了维护索引有序性,也需要做对应的更新,如当前主键索引B+ 树维护到 ID为 100,当插入新的数据ID为101时,只需要在 主键索引B+ 树记录的后面插入一个新记录就可以,如果插入的新的数据ID为50时,就需要逻辑上挪动后面的数据,空出位置。

如果当前 主键索引B+ 树的数据页满了,就需要申请一 个新的数据页,然后挪动部分数据过去,这个过程称为页分裂。

4 自增主键

一般情况下建表语句里要有自增主键,自增主键是指自增列上定义的主键,在建表语句中一般是这么定义的: NOT NULL PRIMARY KEY AUTO_INCREMENT。

小编的表构建规范就是建表一定要有自增主键,一般是ID。

CREATE TABLE `t_course_teacher`(  `id` BIGINT(20) NOT NULL AUTO_INCREMENT ,  `user_id` BIGINT(20) DEFAULT '0' COMMENT '用户;' ,  `course_id` BIGINT(20) DEFAULT '0' COMMENT '课程 ' ,  `course_status` INT DEFAULT '0' COMMENT '默认为 0 可用;1 禁用;2删除;' ,  `create_time` DATETIME DEFAULT NULL COMMENT '课程创建时间' ,  `update_time` DATETIME DEFAULT NULL COMMENT '课程修改时间' ,  PRIMARY KEY(`id`)) ENGINE = INNODB AUTO_INCREMENT = 39 DEFAULT CHARSET = utf8 COMMENT = '用户课程表';

当指定自增主键ID时,插入新记录的时候可以不指定 ID 的值,系统会获取当前 ID 最大值加 1 作为下一条记录的 ID 值,每次插入一条新记录,都是追加操作,都不涉及到挪动其他记录,也不会触发叶子节点的分裂。

主键长度越小,普通索引的叶子节点就越小,普通索引占用的空间也就越小。所以,从性能和存储空间方面考量,自增主键往往是一个不错的的选择。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多