MySql进阶学习

本文最后更新于:2 年前

Mysql进阶学习

事务

事务 是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系

统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败。

就比如: 张三给李四转账1000块钱,张三银行账户的钱减少1000,而李四银行账户的钱要增加

1000。 这一组操作就必须在一个事务的范围内,要么都成功,要么都失败。

数据的准备

drop table if exists account;
create table account
(
    id    int primary key AUTO_INCREMENT comment 'ID',
    name  varchar(10) comment '姓名',
    money double(10, 2) comment '余额'
) comment '账户表';
insert into account(name, money)
VALUES ('张三', 2000),
       ('李四', 2000);

正常的操作下表数据的变化

select * from account;

select * from account where name = '张三';

update account set money = money - 1000 where id = 1;

update account set money = money + 1000 where id = 2;

操作异常情况下的数据情况

update account set money = money - 1000 where id = 1;
error
update account set money = money + 1000 where id = 2;

在此情况下,第二句sql无法执行到

这样就会导致张三用户账户的钱少了,但是李四账号并没有收到钱,那么就会出现问题。

手动控制事务

1).查看/设置事务提交方式

select @@autocommit;

set @@autocommit = 0;

image-20220922154213267

2).提交事务

commit;

3).事务回滚

rollback;

上面的过程是将事务的提交设置为手动提交,此时我们执行的DML语句都不会提交, 需要手动的执行commit进行提交。

自动控制事务

1).开启事务

statr/begin tranaction

2).提交事务

commit;

3).事务回滚

rollbock;

转账案例实现

start transaction;
-- 从张三账户中转出钱
update account set money = money - 1000 where id = 1;
-- 向李四账号中转入钱
update account set money = money + 1000 where id = 2;

-- 执行完毕,提交事务
commit;

事务四大特性

  • 原子性(Atomicity):事务是不可分割的最小操作单元,要么全部成功,要么全部失败。

  • 一致性(Consistency):事务完成时,必须使所有的数据都保持一致状态。

  • 隔离性(Isolation):数据库系统提供的隔离机制,保证事务在不受外部并发操作影响的独立

环境下运行。

  • 持久性(Durability):事务一旦提交或回滚,它对数据库中的数据的改变就是永久的。

上述就是事务的四大特性,简称ACID。

并发事务产生的问题

1). 赃读:一个事务读到另外一个事务还没有提交的数据

image-20220922155417574

2). 不可重复读:一个事务先后读取同一条记录,但两次读取的数据不同,称之为不可重复读。

image-20220922155423618

3). 幻读:一个事务按照条件查询数据时,没有对应的数据行,但是在插入数据时,又发现这行数据

已经存在,好像出现了 “幻影”。

image-20220922155433815

事务的隔离级别

为了解决事务并发产生的问题,在数据库中引入了事务隔离级别。主要有以下四种:

隔离级别 脏读 不可重复度 幻读
Read uncommited(读未提交)
Read commited(读已提交) ×
Repeatable Read(默认) × ×
Serializable(串行化) × × ×

1). 查看事务的隔离级别

SELECT @@TRANSACTION_ISOLATION;

Mysql默认使用的是Repeatable Read

image-20220922160058646

2).设置事务隔离级别

SET [ SESSION | GLOBAL ] TRANSACTION ISOLATION LEVEL { READ UNCOMMITTED | READ COMMITTED | REPEATABLE READ | SERIALIZABLE }

-- session是设置当前会话即当前连接的终端的隔离级别
-- GLOBAL是设置所有会话的隔离级别

注意:事务的隔离级别越高其性能越低

存储引擎

查看当前数据库支持的存储引擎

show engines

image-20220922150430705

当创建表时默认使用InnoDB存储引擎

show create table tb_user;

image-20220922150801513

创建数据表时指定数据引擎,添加参数engine=存储引擎名

create table my_myisam
(
    id   int,
    name varchar(10)
) engine = MyISAM;


create table my_myisam
(
    id   int,
    name varchar(10)
) engine = Memory;

InnoDB

1). 介绍

InnoDB是一种兼顾高可靠性和高性能的通用存储引擎,在 MySQL 5.5 之后,InnoDB是默认的MySQL 存储引擎。

2). 特点

  • DML操作遵循ACID模型,支持事务;
  • 行级锁,提高并发访问性能;
  • 支持外键FOREIGN KEY约束,保证数据的完整性和正确性;

3).逻辑存储结构

image-20220922151214606

MyISAM

1). 介绍

MyISAM是MySQL早期的默认存储引擎。

2). 特点

  • 不支持事务,不支持外键

  • 支持表锁,不支持行锁

  • 访问速度快

Memory

1). 介绍

Memory引擎的表数据时存储在内存中的,由于受到硬件问题、或断电问题的影响,只能将这些表作为临时表或缓存使用。

2). 特点

  • 内存存放

  • hash索引(默认)

image-20220922151341240

面试题:

InnoDB引擎与MyISAM引擎的区别 ?

①. InnoDB引擎, 支持事务, 而MyISAM不支持。

②. InnoDB引擎, 支持行锁和表锁, 而MyISAM仅支持表锁, 不支持行锁。

③. InnoDB引擎, 支持外键, 而MyISAM是不支持的。

主要是上述三点区别,当然也可以从索引结构、存储限制等方面,更加深入的回答,具体参

考如下官方文档:

https://dev.mysql.com/doc/refman/8.0/en/innodb-introduction.html

https://dev.mysql.com/doc/refman/8.0/en/myisam-storage-engine.html

存储引擎的选择

在选择存储引擎时,应该根据应用系统的特点选择合适的存储引擎。

  • InnDB:是mysql的默认存储引擎,支持事务、外键。如果应用对事务的完整性要求比较高,在并发条件下要求数据的一致性的情况下应该选择此存储引擎。
  • MyISAM: 如果应用是以读取和插入操作为主 ,只有少量的删除和更新操作,并且对事务的完整性,并发性要求不是很高,那么选择此存储引擎合适
  • Memory: 将所有数据保存在内存中, 访问速度快,通常用于临时表和缓存。但是由于存放在内存中其受到的限制也很多,如表的大小限制,无法对过大的表进行缓存,还有安全性问题,如断电时数据丢失。

索引

介绍

索引(index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足

特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构

上实现高级查找算法,这种数据结构就是索引。

索引结构

MySQL的索引是在存储引擎层实现的,不同的存储引擎有不同的索引结构,主要包含以下几种:

索引结构 描述
B+tree 最常见的索引类型,大部分引擎都支持 B+ 树索引
Hash索引 底层数据结构是用哈希表实现的, 只有精确匹配索引列的查询才有效, 不支持范围查询
R-tree(空间索引) 空间索引是MyISAM引擎的一个特殊索引类型,主要用于地理空间数据类型,通常使用较少
Full-text(全文索引) 是一种通过建立倒排索引,快速匹配文档的方式。类似于Lucene,Solr,ES

存储引擎对于索引结构的支持情况

索引 InnoDB MyISAM Memory
B+tree 支持 支持 支持
Hash索引 不支持 不支持 支持
R-tree 不支持 支持 不支持
Full-text 5.6版本之后支持 支持 不支持

B-tree

B-Tree,B树是一种多叉路衡查找树,相对于二叉树,B树每个节点可以有多个分支,即多叉。以一颗最大度数(max-degree)为5(5阶)的b-tree为例,那这个B树每个节点最多存储4个key,5个指针

image-20220922171802873

B+Tree

B+Tree是B-Tree的变种,我们以一颗最大度数(max-degree)为4(4阶)的b+tree为例,其结构示意图:

image-20220922171908681

  • 绿色框框起来的部分,是索引部分,仅仅起到索引数据的作用,不存储数据。
  • 红色框框起来的部分,是数据存储部分,在其叶子节点中要存储具体的数据。

B+Tree 与 B-Tree相比,主要有以下三点区别:

  • 所有的数据都会出现在叶子节点。

  • 叶子节点形成一个单向链表。

  • 非叶子节点仅仅起到索引数据作用,具体的数据都是在叶子节点存放的。

MySQL索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上,增加一个指向相邻叶子节点

的链表指针,就形成了带有顺序指针的B+Tree,提高区间访问的性能,利于排序。

image-20220923112657769

Hash索引

哈希索引就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在hash表中。Java中的HashMap结构类似(树加链表的实现方式)。如果两个(或多个)键值,映射到一个相同的槽位上,他们就产生了hash冲突(也称为hash碰撞),可以通过链表来解决。

image-20220923113007344

特点

  • Hash索引只能用于对等比较(=,in),不支持范围查询(between,>,< ,…)

  • 无法利用索引完成排序操作

  • 查询效率高,通常(不存在hash冲突的情况)只需要一次检索就可以了,效率通常要高于B+tree索 引

为什么InnDB选择B+Tree作为索引结构

  • 相比较二叉树,其层级更少,搜索效率更高
  • 于B-tree,无论是叶子节点还是非叶子节点,都会保存数据,这样导致一页中存储的键值减少,指针跟着减少,要同样保存大量数据,只能增加树的高度,导致性能降低;
  • 相对Hash索引,B+tree支持范围匹配及排序操作

索引分类

在MySQL数据库,将索引的具体类型主要分为以下几类:主键索引、唯一索引、常规索引、全文索引。

分类 含义 特点 关键字
主键索引 针对表中主键创建的索引 默认自动创建,只能有一个 primary
唯一索引 避免表中某 数据列的值重复 可以有多个 UNIQUE
常规索引 快速定位数据 可以有多个
全文索引 全文索引查找的是文中的关键字,而不是比较索引的值 可以有多个 FULLTEXT

聚集索引和二级索引

InnDB存储引擎中,根据索引的存储形式,又可以分为以下两种:

分类 含义 特点
聚集索引(Clustered Index) 将数据存储与索引放到一块,索引结构的叶子节点保存到行数据 必须有且只有一个
二级索引 将数据与索引分开存储,索引结构的叶子节点关联是对应的主键 可以 存放很多个

聚集索引选取规则:

  • 如果存在主键,主键索引就是聚集索引
  • 如果不存在主键,将使用第一个唯一(UNIQUE)索引作为聚集索引
  • 如果表没有主键,或没有合适的唯一索引,则InnoDB会自动生成一个rowid作为隐藏的聚集索引。

聚集索引与二级索引的结构如下:

image-20220923121417420

当执行

select * from user where name = 'Arm';

通过二级索引获取到其对应的主键索引,再到聚集索引中获取所有的行数据,这种查询过程叫做回表查询。

image-20220923121626216

上述查询详细查询过程如下:

  • 由于是根据name字段进行查询,所以先根据name=’Arm’到name字段的二级索引中进行匹配查找。但是在二级索引中只能查找到 Arm 对应的主键值 10。

  • 由于查询的字段是*,二级索引中没有该字段,所以此时需要根据二级索引中存储的主键id = 10去聚集索引中查询

  • 最后获取主键为10的行,返回所有数据

InnoDB存储引擎最小的存储单元-页(16K),那么高度为2的B+tree树能存储多少条数据?

这里我们先假设B+树高为2,即存在一个根节点和若干个叶子节点,那么这棵B+树的存放总记录数为:根节点指针数*单个叶子节点记录行数。

上文我们已经说明单个叶子节点(页)中的记录数=16K/1K=16。(这里假设一行记录的数据大小为1k,实际上现在很多互联网业务数据记录大小通常就是1K左右)。

那么现在我们需要计算出非叶子节点能存放多少指针,其实这也很好算,我们假设主键ID为bigint类型,长度为8字节,而指针大小在InnoDB源码中设置为6字节,这样一共14字节,我们一个页中能存放多少这样的单元,其实就代表有多少指针,即16384/14=1170。那么可以算出一棵高度为2的B+树,能存放1170*16=18720条这样的数据记录。

image-20220923124545908

索引语法

  1. 创建索引

    CREATE [ UNIQUE | FULLTEXT ] INDEX index_name ON table_name ( index_col_name,... );
  2. 查看索引

    show INDEX in account;
  3. 删除索引

    DROP INDEX index_name ON table_name ;

索引的使用

  • name字段为姓名字段,该字段的值可能会重复,为该字段创建索引

    CREATE INDEX idx_user_name ON tb_user(name);
  • phone手机号字段的值,是非空,且唯一的,为该字段创建唯一索引。

    CREATE UNIQUE INDEX  idx_user_phone ON tb_user(phone);
  • 为profession、age、status创建联合索引。

    CREATE INDEX idx_user_profession_age_status ON tb_user(profession, age, status);
  • 为email建立合适的索引来提升查询效率

    CREATE INDEX idx_user_email ON tb_user(email);

查看表中已创建的索引

image-20220923130559040

SQL性能分析

SQL的执行频次

SHOW GLOBAL  STATUS LIKE 'Com_____';
SHOW SESSION  STATUS LIKE 'Com_____';

image-20220923131257200

慢查询日志

慢查询日志记录了所有执行时间超过指定参数(long_query_time,单位:秒,默认10秒)的所有SQL语句的日志。

MySQL的慢查询日志默认没有开启,我们可以查看一下系统变量 slow_query_log。

开启slow_query_log(默认关闭),在mysql配置文件中添加以下配置

slow_query_log = 1 
long_query_time= 2 # 当查询时间超过两秒时,会被记录

profile详情

show profiles 能够在做SQL优化时帮助我们了解时间都耗费到哪里去了。通过have_profiling参数,能够看到当前MySQL是否支持profile操作:

SHOW @@hava_profiling;

image-20220923132917533

如果没有开启,则可以使用以下语句开启

set profiling  = 1

执行一系列的业务SQL的操作,然后通过如下指令查看指令的执行耗时:

-- 查看每一条SQL的耗时基本情况 
show profiles; 
-- 查看指定query_id的SQL语句各个阶段的耗时情况 
show profile for query query_id; 
-- 查看指定query_id的SQL语句CPU的使用情况 
show profile cpu for query query_id;

最左前缀法则

如果索引了多列(联合索引),要遵守最左前缀法则。最左前缀法则指的是查询从索引的最左列开始,并且不跳过索引中的列。如果跳跃某一列,索引将会部分失效(后面的字段索引失效)。

覆盖索引

尽量使用覆盖索引,减少select *。 那么什么是覆盖索引呢? 覆盖索引是指 查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到 。

使用覆盖索引可以避免回表查询,提高sql查询的效率。

索引设计原则

1). 针对于数据量较大,且查询比较频繁的表建立索引。

2). 针对于常作为查询条件(where)、排序(order by)、分组(group by)操作的字段建立索引。

3). 尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高。

4). 如果是字符串类型的字段,字段的长度较长,可以针对于字段的特点,建立前缀索引。

5). 尽量使用联合索引,减少单列索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间,避免回表,提高查询效率。

6). 要控制索引的数量,索引并不是多多益善,索引越多,维护索引结构的代价也就越大,会影响增删改的效率。

create unique index idx_user_phone_name on tb_user(phone,name);

7). 如果索引列不能存储NULL值,请在创建表时使用NOT NULL约束它。当优化器知道每列是否包含NULL值时,它可以更好地确定哪个索引最有效地用于查询。

SQL优化

插入数据

如果我们需要一次性往数据库表中插入多条记录,可以从以下三个方面进行优化。

  • 1). 优化方案一

      批量插入数据
    
  • 2). 优化方案二

      手动控制事务
    
  • 3). 优化方案三

    主键顺序插入,性能要高于乱序插入

    如果一次性需要插入大批量数据(比如: 几百万的记录),使用insert语句插入性能较低,此时可以使

    用MySQL数据库提供的load指令进行插入。

    -- 客户端连接服务端时,加上参数 -–local-infile 
    mysql –-local-infile -u root -p 
    -- 设置全局参数local_infile为1,开启从本地加载文件导入数据的开关 
    set global local_infile = 1; 
    -- 执行load指令将准备好的数据,加载到表结构中 
    load data local infile '/root/sql1.log' into table tb_user fields terminated by ',' lines terminated by '\n' ;
  • 4).主键顺序插入,性能要高于乱序插入

主键优化

  • 满足业务需求的情况下,尽量降低主键的长度。
  • 插入数据时,尽量选择顺序插入,选择使用AUTO_INCREMENT自增主键。
  • 尽量不要使用UUID做主键或者是其他自然主键,如身份证号。
  • 业务操作时,避免对主键的修改。

order by优化

MySQL的排序,有两种方式:

  • Using filesort : 通过表的索引或全表扫描,读取满足条件的数据行,然后在排序缓冲区sortbuffer中完成排序操作,所有不是通过索引直接返回排序结果的排序都叫 FileSort 排序。

  • Using index : 通过有序索引顺序扫描直接返回有序数据,这种情况即为 using index,不需要额外排序,操作效率高。

对于以上的两种排序方式,Using index的性能高,而Using filesort的性能低,我们在优化排序操作时,尽量要优化为 Using index。

order by优化原则:

  • A. 根据排序字段建立合适的索引,多字段排序时,也遵循最左前缀法则。
  • B. 尽量使用覆盖索引。
  • C. 多字段排序, 一个升序一个降序,此时需要注意联合索引在创建时的规则(ASC/DESC)。
  • D. 如果不可避免的出现filesort,大数据量排序时,可以适当增大排序缓冲区大小
  • sort_buffer_size(默认256k)。

group by优化

在分组操作中,我们需要通过以下两点进行优化,以提升性能:

  • A. 在分组操作时,可以通过索引来提高效率。

  • B. 分组操作时,索引的使用也是满足最左前缀法则的。

limit优化

优化思路: 一般分页查询时,通过创建 覆盖索引 能够比较好地提高性能,可以通过覆盖索引加子查询形式进行优化。

count优化

count的工作原理

MyISAM 引擎把一个表的总行数存在了磁盘上,因此执行 count(*) 的时候会直接返回这个数,效率很高; 但是如果是带条件的count,MyISAM也慢。

InnoDB 引擎就麻烦了,它执行 count(*) 的时候,需要把数据一行一行地从引擎里面读出来,然后累积计数。

count的用法

count() 是一个聚合函数,对于返回的结果集,一行行地判断,如果 count 函数的参数不是NULL,累计值就加 1,否则不加,最后返回累计值。

用法:count(*)、count(主键)、count(字段)、count(数字)

count用法 含义
count(主键) InnoDB 引擎会遍历整张表,把每一行的 主键id 值都取出来,返回给服务层。服务层拿到主键后,直接按行进行累加(主键不可能为null)。
count(*) 没有not null 约束: InnoDB 引擎会遍历整张表把每一行的字段值都取出来,返回给服务层,服务层判断是否为null,不为null,计数累加。
有not null 约束: InnoDB引擎会遍历整张表把每一行的字段值都取出来,返回给服务层,直接按行进行累加。
count(字段) InnoDB 引擎遍历整张表,但不取值。服务层对于返回的每一行,放一个数字’1’进去,直接按行进行累加。
count(数字) InnoDB引擎并不会把全部字段取出来,而是专门做了优化,不取值,服务层直接按行累加。

按照效率排序的话,count(字段) < count(主键 id) < count(1) ≈ count(*),所以尽量使用 count(*)。


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!

 目录

Copyright © 2020 my blog
载入天数... 载入时分秒...