浅析MySQL的基数统计

吾爱主题阅读：231 2024-04-01 23:51:49 评论：0

一、基数是啥？
Cardinality指的就是 MySQL表中某一列的不同值的数量。

如果这一类是唯一索引，那基数 = 行数。

如果这一列是sex，枚举类型只有男女，那它是基数就是2

Cardinality越高，列就越有成为索引的价值。MySQL执行计划也会基于Cardinality选择索引。

通过下面的方式可以看到表中各列的基数。

比如这个经典的例子：
有一列为sex，那对于sex列中存储的值来说非男即女，它的基数最大就是2。
那也就完全没有必要为sex建立索引。因为，为了提升你基于sex的查询速度，MySQL会为你选择的这个新索引创建一棵全新的B+Tree。但你sex只有两种值，对于MySQL来说，即使它为你指定的列建立了B+Tree索引，真正执行查询时，最多进行一次二分查询，剩下的操作只能是遍历，所以为sex创建索引意义不大。

二、InnoDB更新基数的时机？
参数：innodb_stats_auto_recalc控制MySQL是否主动重新计算这些持久性的信息。默认为1表示true，0表示false。
默认情况下当表中的行变化超过10%时，重新计算基数信息。

三、基数是估算出来

基数并不会实时更新！而且它是通过采样估算出来的值！

至于基数的公式是怎样的，可能并不重要。

重要的是你得知道，他是通过随机采样数据页的方式统计出来的一个估算值。

而且随机采样的页数可以通过参数innodb_stats_persistent_sample_pages 设置，默认值是20。