MySql进阶学习
本文最后更新于:2 年前
Mysql进阶学习
事务
事务 是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系
统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败。
就比如: 张三给李四转账1000块钱,张三银行账户的钱减少1000,而李四银行账户的钱要增加
1000。 这一组操作就必须在一个事务的范围内,要么都成功,要么都失败。
数据的准备
drop table if exists account;
create table account
(
id int primary key AUTO_INCREMENT comment 'ID',
name varchar(10) comment '姓名',
money double(10, 2) comment '余额'
) comment '账户表';
insert into account(name, money)
VALUES ('张三', 2000),
('李四', 2000);
正常的操作下表数据的变化
select * from account;
select * from account where name = '张三';
update account set money = money - 1000 where id = 1;
update account set money = money + 1000 where id = 2;
操作异常情况下的数据情况
update account set money = money - 1000 where id = 1;
error
update account set money = money + 1000 where id = 2;
在此情况下,第二句sql无法执行到
这样就会导致张三用户账户的钱少了,但是李四账号并没有收到钱,那么就会出现问题。
手动控制事务
1).查看/设置事务提交方式
select @@autocommit;
set @@autocommit = 0;
2).提交事务
commit;
3).事务回滚
rollback;
上面的过程是将事务的提交设置为手动提交,此时我们执行的DML语句都不会提交, 需要手动的执行commit进行提交。
自动控制事务
1).开启事务
statr/begin tranaction
2).提交事务
commit;
3).事务回滚
rollbock;
转账案例实现
start transaction;
-- 从张三账户中转出钱
update account set money = money - 1000 where id = 1;
-- 向李四账号中转入钱
update account set money = money + 1000 where id = 2;
-- 执行完毕,提交事务
commit;
事务四大特性
原子性(Atomicity):事务是不可分割的最小操作单元,要么全部成功,要么全部失败。
一致性(Consistency):事务完成时,必须使所有的数据都保持一致状态。
隔离性(Isolation):数据库系统提供的隔离机制,保证事务在不受外部并发操作影响的独立
环境下运行。
- 持久性(Durability):事务一旦提交或回滚,它对数据库中的数据的改变就是永久的。
上述就是事务的四大特性,简称ACID。
并发事务产生的问题
1). 赃读:一个事务读到另外一个事务还没有提交的数据
2). 不可重复读:一个事务先后读取同一条记录,但两次读取的数据不同,称之为不可重复读。
3). 幻读:一个事务按照条件查询数据时,没有对应的数据行,但是在插入数据时,又发现这行数据
已经存在,好像出现了 “幻影”。
事务的隔离级别
为了解决事务并发产生的问题,在数据库中引入了事务隔离级别。主要有以下四种:
隔离级别 | 脏读 | 不可重复度 | 幻读 |
---|---|---|---|
Read uncommited(读未提交) | √ | √ | √ |
Read commited(读已提交) | × | √ | √ |
Repeatable Read(默认) | × | × | √ |
Serializable(串行化) | × | × | × |
1). 查看事务的隔离级别
SELECT @@TRANSACTION_ISOLATION;
Mysql默认使用的是Repeatable Read
2).设置事务隔离级别
SET [ SESSION | GLOBAL ] TRANSACTION ISOLATION LEVEL { READ UNCOMMITTED | READ COMMITTED | REPEATABLE READ | SERIALIZABLE }
-- session是设置当前会话即当前连接的终端的隔离级别
-- GLOBAL是设置所有会话的隔离级别
注意:事务的隔离级别越高其性能越低
存储引擎
查看当前数据库支持的存储引擎
show engines
当创建表时默认使用InnoDB存储引擎
show create table tb_user;
创建数据表时指定数据引擎,添加参数engine=存储引擎名
create table my_myisam
(
id int,
name varchar(10)
) engine = MyISAM;
create table my_myisam
(
id int,
name varchar(10)
) engine = Memory;
InnoDB
1). 介绍
InnoDB是一种兼顾高可靠性和高性能的通用存储引擎,在 MySQL 5.5 之后,InnoDB是默认的MySQL 存储引擎。
2). 特点
- DML操作遵循ACID模型,支持事务;
- 行级锁,提高并发访问性能;
- 支持外键FOREIGN KEY约束,保证数据的完整性和正确性;
3).逻辑存储结构
MyISAM
1). 介绍
MyISAM是MySQL早期的默认存储引擎。
2). 特点
不支持事务,不支持外键
支持表锁,不支持行锁
访问速度快
Memory
1). 介绍
Memory引擎的表数据时存储在内存中的,由于受到硬件问题、或断电问题的影响,只能将这些表作为临时表或缓存使用。
2). 特点
内存存放
hash索引(默认)
面试题:
InnoDB引擎与MyISAM引擎的区别 ?
①. InnoDB引擎, 支持事务, 而MyISAM不支持。
②. InnoDB引擎, 支持行锁和表锁, 而MyISAM仅支持表锁, 不支持行锁。
③. InnoDB引擎, 支持外键, 而MyISAM是不支持的。
主要是上述三点区别,当然也可以从索引结构、存储限制等方面,更加深入的回答,具体参
考如下官方文档:
https://dev.mysql.com/doc/refman/8.0/en/innodb-introduction.html
https://dev.mysql.com/doc/refman/8.0/en/myisam-storage-engine.html
存储引擎的选择
在选择存储引擎时,应该根据应用系统的特点选择合适的存储引擎。
- InnDB:是mysql的默认存储引擎,支持事务、外键。如果应用对事务的完整性要求比较高,在并发条件下要求数据的一致性的情况下应该选择此存储引擎。
- MyISAM: 如果应用是以读取和插入操作为主 ,只有少量的删除和更新操作,并且对事务的完整性,并发性要求不是很高,那么选择此存储引擎合适
- Memory: 将所有数据保存在内存中, 访问速度快,通常用于临时表和缓存。但是由于存放在内存中其受到的限制也很多,如表的大小限制,无法对过大的表进行缓存,还有安全性问题,如断电时数据丢失。
索引
介绍
索引(index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足
特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构
上实现高级查找算法,这种数据结构就是索引。
索引结构
MySQL的索引是在存储引擎层实现的,不同的存储引擎有不同的索引结构,主要包含以下几种:
索引结构 | 描述 |
---|---|
B+tree | 最常见的索引类型,大部分引擎都支持 B+ 树索引 |
Hash索引 | 底层数据结构是用哈希表实现的, 只有精确匹配索引列的查询才有效, 不支持范围查询 |
R-tree(空间索引) | 空间索引是MyISAM引擎的一个特殊索引类型,主要用于地理空间数据类型,通常使用较少 |
Full-text(全文索引) | 是一种通过建立倒排索引,快速匹配文档的方式。类似于Lucene,Solr,ES |
存储引擎对于索引结构的支持情况
索引 | InnoDB | MyISAM | Memory |
---|---|---|---|
B+tree | 支持 | 支持 | 支持 |
Hash索引 | 不支持 | 不支持 | 支持 |
R-tree | 不支持 | 支持 | 不支持 |
Full-text | 5.6版本之后支持 | 支持 | 不支持 |
B-tree
B-Tree,B树是一种多叉路衡查找树,相对于二叉树,B树每个节点可以有多个分支,即多叉。以一颗最大度数(max-degree)为5(5阶)的b-tree为例,那这个B树每个节点最多存储4个key,5个指针
B+Tree
B+Tree是B-Tree的变种,我们以一颗最大度数(max-degree)为4(4阶)的b+tree为例,其结构示意图:
- 绿色框框起来的部分,是索引部分,仅仅起到索引数据的作用,不存储数据。
- 红色框框起来的部分,是数据存储部分,在其叶子节点中要存储具体的数据。
B+Tree 与 B-Tree相比,主要有以下三点区别:
所有的数据都会出现在叶子节点。
叶子节点形成一个单向链表。
非叶子节点仅仅起到索引数据作用,具体的数据都是在叶子节点存放的。
MySQL索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上,增加一个指向相邻叶子节点
的链表指针,就形成了带有顺序指针的B+Tree,提高区间访问的性能,利于排序。
Hash索引
哈希索引就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在hash表中。Java中的HashMap结构类似(树加链表的实现方式)。如果两个(或多个)键值,映射到一个相同的槽位上,他们就产生了hash冲突(也称为hash碰撞),可以通过链表来解决。
特点
Hash索引只能用于对等比较(=,in),不支持范围查询(between,>,< ,…)
无法利用索引完成排序操作
查询效率高,通常(不存在hash冲突的情况)只需要一次检索就可以了,效率通常要高于B+tree索 引
为什么InnDB选择B+Tree作为索引结构
- 相比较二叉树,其层级更少,搜索效率更高
- 于B-tree,无论是叶子节点还是非叶子节点,都会保存数据,这样导致一页中存储的键值减少,指针跟着减少,要同样保存大量数据,只能增加树的高度,导致性能降低;
- 相对Hash索引,B+tree支持范围匹配及排序操作
索引分类
在MySQL数据库,将索引的具体类型主要分为以下几类:主键索引、唯一索引、常规索引、全文索引。
分类 | 含义 | 特点 | 关键字 |
---|---|---|---|
主键索引 | 针对表中主键创建的索引 | 默认自动创建,只能有一个 | primary |
唯一索引 | 避免表中某 数据列的值重复 | 可以有多个 | UNIQUE |
常规索引 | 快速定位数据 | 可以有多个 | |
全文索引 | 全文索引查找的是文中的关键字,而不是比较索引的值 | 可以有多个 | FULLTEXT |
聚集索引和二级索引
InnDB存储引擎中,根据索引的存储形式,又可以分为以下两种:
分类 | 含义 | 特点 |
---|---|---|
聚集索引(Clustered Index) | 将数据存储与索引放到一块,索引结构的叶子节点保存到行数据 | 必须有且只有一个 |
二级索引 | 将数据与索引分开存储,索引结构的叶子节点关联是对应的主键 | 可以 存放很多个 |
聚集索引选取规则:
- 如果存在主键,主键索引就是聚集索引
- 如果不存在主键,将使用第一个唯一(UNIQUE)索引作为聚集索引
- 如果表没有主键,或没有合适的唯一索引,则InnoDB会自动生成一个rowid作为隐藏的聚集索引。
聚集索引与二级索引的结构如下:
当执行
select * from user where name = 'Arm';
通过二级索引获取到其对应的主键索引,再到聚集索引中获取所有的行数据,这种查询过程叫做回表查询。
上述查询详细查询过程如下:
由于是根据name字段进行查询,所以先根据name=’Arm’到name字段的二级索引中进行匹配查找。但是在二级索引中只能查找到 Arm 对应的主键值 10。
由于查询的字段是*,二级索引中没有该字段,所以此时需要根据二级索引中存储的主键id = 10去聚集索引中查询
最后获取主键为10的行,返回所有数据
InnoDB存储引擎最小的存储单元-页(16K),那么高度为2的B+tree树能存储多少条数据?
这里我们
先假设B+树高为2
,即存在一个根节点和若干个叶子节点,那么这棵B+树的存放总记录数为:根节点指针数*单个叶子节点记录行数。上文我们已经说明单个叶子节点(页)中的记录数=16K/1K=16。(这里假设一行记录的数据大小为1k,
实际上
现在很多互联网业务数据记录大小通常就是1K左右
)。那么现在我们需要计算出
非叶子节点能存放多少指针
,其实这也很好算,我们假设主键ID为bigint类型,长度为8字节
,而指针大小
在InnoDB源码中设置为6字节
,这样一共14字节,我们一个页中能存放多少这样的单元,其实就代表有多少指针,即16384/14=1170
。那么可以算出一棵高度为2的B+树
,能存放1170*16=18720条
这样的数据记录。
索引语法
创建索引
CREATE [ UNIQUE | FULLTEXT ] INDEX index_name ON table_name ( index_col_name,... );
查看索引
show INDEX in account;
删除索引
DROP INDEX index_name ON table_name ;
索引的使用
name字段为姓名字段,该字段的值可能会重复,为该字段创建索引
CREATE INDEX idx_user_name ON tb_user(name);
phone手机号字段的值,是非空,且唯一的,为该字段创建唯一索引。
CREATE UNIQUE INDEX idx_user_phone ON tb_user(phone);
为profession、age、status创建联合索引。
CREATE INDEX idx_user_profession_age_status ON tb_user(profession, age, status);
为email建立合适的索引来提升查询效率
CREATE INDEX idx_user_email ON tb_user(email);
查看表中已创建的索引
SQL性能分析
SQL的执行频次
SHOW GLOBAL STATUS LIKE 'Com_____';
SHOW SESSION STATUS LIKE 'Com_____';
慢查询日志
慢查询日志记录了所有执行时间超过指定参数(long_query_time,单位:秒,默认10秒)的所有SQL语句的日志。
MySQL的慢查询日志默认没有开启,我们可以查看一下系统变量 slow_query_log。
开启slow_query_log
(默认关闭),在mysql配置文件中添加以下配置
slow_query_log = 1
long_query_time= 2 # 当查询时间超过两秒时,会被记录
profile详情
show profiles 能够在做SQL优化时帮助我们了解时间都耗费到哪里去了。通过have_profiling参数,能够看到当前MySQL是否支持profile操作:
SHOW @@hava_profiling;
如果没有开启,则可以使用以下语句开启
set profiling = 1
执行一系列的业务SQL的操作,然后通过如下指令查看指令的执行耗时:
-- 查看每一条SQL的耗时基本情况
show profiles;
-- 查看指定query_id的SQL语句各个阶段的耗时情况
show profile for query query_id;
-- 查看指定query_id的SQL语句CPU的使用情况
show profile cpu for query query_id;
最左前缀法则
如果索引了多列(联合索引),要遵守最左前缀法则。最左前缀法则指的是查询从索引的最左列开始,并且不跳过索引中的列。如果跳跃某一列,索引将会部分失效(后面的字段索引失效)。
覆盖索引
尽量使用覆盖索引,减少select *。 那么什么是覆盖索引呢? 覆盖索引是指 查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到 。
使用覆盖索引可以避免回表查询,提高sql查询的效率。
索引设计原则
1). 针对于数据量较大,且查询比较频繁的表建立索引。
2). 针对于常作为查询条件(where)、排序(order by)、分组(group by)操作的字段建立索引。
3). 尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高。
4). 如果是字符串类型的字段,字段的长度较长,可以针对于字段的特点,建立前缀索引。
5). 尽量使用联合索引,减少单列索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间,避免回表,提高查询效率。
6). 要控制索引的数量,索引并不是多多益善,索引越多,维护索引结构的代价也就越大,会影响增删改的效率。
create unique index idx_user_phone_name on tb_user(phone,name);
7). 如果索引列不能存储NULL值,请在创建表时使用NOT NULL约束它。当优化器知道每列是否包含NULL值时,它可以更好地确定哪个索引最有效地用于查询。
SQL优化
插入数据
如果我们需要一次性往数据库表中插入多条记录,可以从以下三个方面进行优化。
1). 优化方案一
批量插入数据
2). 优化方案二
手动控制事务
3). 优化方案三
主键顺序插入,性能要高于乱序插入
如果一次性需要插入大批量数据(比如: 几百万的记录),使用insert语句插入性能较低,此时可以使
用MySQL数据库提供的load指令进行插入。
-- 客户端连接服务端时,加上参数 -–local-infile mysql –-local-infile -u root -p -- 设置全局参数local_infile为1,开启从本地加载文件导入数据的开关 set global local_infile = 1; -- 执行load指令将准备好的数据,加载到表结构中 load data local infile '/root/sql1.log' into table tb_user fields terminated by ',' lines terminated by '\n' ;
4).主键顺序插入,性能要高于乱序插入
主键优化
- 满足业务需求的情况下,尽量降低主键的长度。
- 插入数据时,尽量选择顺序插入,选择使用AUTO_INCREMENT自增主键。
- 尽量不要使用UUID做主键或者是其他自然主键,如身份证号。
- 业务操作时,避免对主键的修改。
order by优化
MySQL的排序,有两种方式:
Using filesort : 通过表的索引或全表扫描,读取满足条件的数据行,然后在排序缓冲区sortbuffer中完成排序操作,所有不是通过索引直接返回排序结果的排序都叫 FileSort 排序。
Using index : 通过有序索引顺序扫描直接返回有序数据,这种情况即为 using index,不需要额外排序,操作效率高。
对于以上的两种排序方式,Using index的性能高,而Using filesort的性能低,我们在优化排序操作时,尽量要优化为 Using index。
order by优化原则:
- A. 根据排序字段建立合适的索引,多字段排序时,也遵循最左前缀法则。
- B. 尽量使用覆盖索引。
- C. 多字段排序, 一个升序一个降序,此时需要注意联合索引在创建时的规则(ASC/DESC)。
- D. 如果不可避免的出现filesort,大数据量排序时,可以适当增大排序缓冲区大小
- sort_buffer_size(默认256k)。
group by优化
在分组操作中,我们需要通过以下两点进行优化,以提升性能:
A. 在分组操作时,可以通过索引来提高效率。
B. 分组操作时,索引的使用也是满足最左前缀法则的。
limit优化
优化思路: 一般分页查询时,通过创建 覆盖索引 能够比较好地提高性能,可以通过覆盖索引加子查询形式进行优化。
count优化
count的工作原理
MyISAM 引擎把一个表的总行数存在了磁盘上,因此执行 count(*) 的时候会直接返回这个数,效率很高; 但是如果是带条件的count,MyISAM也慢。
InnoDB 引擎就麻烦了,它执行 count(*) 的时候,需要把数据一行一行地从引擎里面读出来,然后累积计数。
count的用法
count() 是一个聚合函数,对于返回的结果集,一行行地判断,如果 count 函数的参数不是NULL,累计值就加 1,否则不加,最后返回累计值。
用法:count(*)、count(主键)、count(字段)、count(数字)
count用法 | 含义 |
---|---|
count(主键) | InnoDB 引擎会遍历整张表,把每一行的 主键id 值都取出来,返回给服务层。服务层拿到主键后,直接按行进行累加(主键不可能为null)。 |
count(*) | 没有not null 约束: InnoDB 引擎会遍历整张表把每一行的字段值都取出来,返回给服务层,服务层判断是否为null,不为null,计数累加。 有not null 约束: InnoDB引擎会遍历整张表把每一行的字段值都取出来,返回给服务层,直接按行进行累加。 |
count(字段) | InnoDB 引擎遍历整张表,但不取值。服务层对于返回的每一行,放一个数字’1’进去,直接按行进行累加。 |
count(数字) | InnoDB引擎并不会把全部字段取出来,而是专门做了优化,不取值,服务层直接按行累加。 |
按照效率排序的话,count(字段) < count(主键 id) < count(1) ≈ count(*),所以尽量使用 count(*)。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!