HOME/技術記事/MySQLインデックスチューニング基礎

MySQLインデックスチューニング基礎

2023/1/19 16:212024/9/20 9:04

技術本部サービスリライアビリティグループ（SRG）の鬼海（@fat47）です。

#SRG（Service Reliability Group）は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。

本記事は、SRG 内にある DBWG（DBワーキンググループ）が全社内向けに提供しているデータベースに関する資料を公開します。

なにかの役に立てば幸いです。

インデックスとはなぜインデックスが必要なのか EXPLAINの見方 EXPLAINの各項目意味インデックスチューニングの流れ解析のケーススタディケース1 : インデックスが全く設定されていない場合ケース2 : 「1」のクエリにソートとLimit句を追加した場合ケース3 : 「2」に加えて範囲条件がある場合ケース4 : 複数の範囲条件がある場合

インデックスとは

MySQLがデータを効率的に取得するデータ構造でDBのデータサイズによって重要性が変わります。

インデックスは本に例えると「索引」です。

ある項目について本の中身を探すときに本の索引を利用することで、

その項目が本の何ページに登場するかをすぐに見つけることができます。

なぜインデックスが必要なのか

ページ数が少ない本では最初のページから探していけば目的の項目を探せますが、

辞書のようにページ数が多い本ではすぐには探せません。

DBでも同様に小さいサイズのデータベースの場合はインデックスがなくてもデータは探せます。

しかしDBサイズが大きくなると急激にパフォーマンスが低下する可能性があります。

そのため適切なインデックスを設定し、目的のデータをすぐに探し出せる状態にする必要があります。

EXPLAINの見方

インデックスを貼るにはEXPLAINコマンドを活用していくことが必要です。

EXPLAINはMySQLのクエリオプティマイザがクエリをどう実行するかを可視化してくれます。

💡

EXPLAINは本番環境と同量のデータが入ってる環境で解析するようにしましょう開発環境やステージング環境等のレコード数が少ない環境の場合インデックスが存在してもフルスキャンしたほうが早いと判断される場合があります

実際にクエリを解析してみましょう。

EXPLAINの各項目意味

id select文を識別しているid番号

サブクエリやUNIONを使っている場合は参考になることもあります。

select_type PRIMARY/SUBQUERY/DEPENDENT SUBQUERY/UNCACHEABLE SUBQUERY/DERIVED/UNION/UNION RESULTなどが記載されます。

DEPENDENT SUBQUERY(相関サブクエリ)が出ていたら注意しましょう。

table テーブル名

type

テーブルへのアクセス方法 ALL/index/range/ref/eq_ref/const,system/nullなどがある。 ALLはフルスキャン、indexはインデックス順のフルスキャンなのでこれが出ている場合は注意。望ましい順番はconst-eq_ref-ref-range-index-ALL

possible_keys 選択される可能性のあるインデックスです。

key 実際にクエリで選択されたインデックスです。 NULLの場合はインデックスが使用されていません。

key_len 使用されているキーの長さ（バイト数）です。

これを見ることで複合インデックスがどこまで利用されているかわかります。たとえばint、datetime、varchar(4)で複合インデックスが貼られている場合、 intカラムまでしかインデックス利用されていなければkey_lenは4 intカラム,datetimeカラムまで利用されていればkey_lenは12(=4+8) 全て利用されていて、utf8で日本語が利用されていれば key_lenは24(=4+8+(4×3)) それぞれのデータ容量については下記を参照しましょう。

MySQL :: MySQL 5.6 Reference Manual :: 11.6 Data Type Storage Requirements

The storage requirements for table data on disk depend on several factors. Different storage engines represent data types and store raw data differently. Table data might be compressed, either for a column or an entire row, complicating the calculation of storage requirements for a table or column.

https://dev.mysql.com/doc/refman/5.6/en/storage-requirements.html

一般的にキー長は短いほうが良いですが、インデックスが使われていてもスロークエリが発生している場合、狙った複合インデックスが使われていないことが多いです。

ref ref列はkey列で指定されたインデックスの値を調べるために利用されます。定数が指定されているとconst 、JOINの場合は結合する相手側のテーブルで検索条件として利用されているカラムが表示されます。

rows MySQLが目的の行を検索するために読み取る必要があると推定した行の数を示します。基本的にはrowsがすくなければ少ないほどよいです。ここの数字は大まかな見積もりであり実際にフェッチする行ではないことと、 WHERE句の検索条件によってフェッチした行に対してさらに行の絞り込みが行われるので、返される結果行は少なくなる可能性があることに注意です。

Extra オプティマイザがどのような戦略を選択したかを示しています。下記のような情報が表示されます。

Using index - カバリングインデックスを利用しており最もよい。
Using where - ストレージエンジン側で行を取得した後にwhere句でMySQLサーバーがフィルタリングしている。
Using temporary - 結果ソートに一時テーブルを作成している。group byするときなどは仕方がないが、極力ないほうが良い。
Using filesort - インデックス順ではなく、ファイルソートを利用する。少ない件数であればファイルソートが速いこともあるが、件数が増えた場合はほとんどこの部分がボトルネックとなるので避けること。

インデックスチューニングの流れ

遅いクエリを把握するためにスロークエリ取得設定をいれてクエリを探します。

スロークエリの記録とpt-query-digestを用いた解析 - CyberAgent SRG #ca_srg

鬼海雄太 Takuya Hasegawa 技術本部サービスリライアビリティグループ（SRG）の鬼海（@fat47）です。 #SRG （Service Reliability Group）は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。本記事は、SRG 内にある DBWG ...

https://ca-srg.dev/992f903cc04d403fa5f5c81011929fad

遅いクエリにEXPLAINを付けてサービス参照のないDBスレーブで実行します。

rowsやExtraの出力内容を見て適切なインデックスが適用されているか確認します。

3の結果でインデックスに不足があったテーブルにインデックスを設定します。

💡

チューニングのコツひとまとめ ・ rowsが少なくなるインデックスを作成しましょう。多くても数万程度にしたいです。・更新性能に影響するのでやみくもにindexは貼らない。・インデックスによってrowsが20%程度に絞られる場合に貼ることを検討しましょう。・カーディナリティが低すぎる(インデックスを貼っても30%以上にしか絞られない)場合は貼っても効かないか逆に遅くなることもあります。・explainのkey_len列を見て、複合インデックスがどこまできいているのか確認しましょう。・Extra列にUsingfilesort　Using Temporaryが出ている場合は要注意。・ソート(order by)にインデックスを使わせるように気をつけましょう。・インデックスが効くようなクエリを書きましょう。・複合インデックスは範囲条件(upd_datetime < 'YYYYMMDD'など)が発生した場合そこで終わります。・つまり複合インデックス内で複数の範囲条件に対して複合インデックスがあっても両方は利用できません。ソートの場合も同様です。

解析のケーススタディ

とあるテーブル設計をサンプルとして解析してみます。

サンプルテーブル名：i_user_test

レコード件数：約100万件

ケース1 : インデックスが全く設定されていない場合

rowsが106万件あるので全件取得のフルスキャンになっています。

にインデックスを貼ってみます。

rowsが約3万件まで絞りこまれています。さらに件数を絞るため

との複合インデックスを作成します。

rowsが約4000件まで絞れました。key_lenを見てみると8になっています。

これはintが1カラム4バイトなので、2カラムにつけた複合インデックスが利用されていることがわかります。

更ににも複合インデックスを貼ってみましょう。

はtinyintなのでバイト数は1です。key_lenが9になっているので複合インデックスの

利用はされているようですが、rowsの件数はかわっていません。

これはの結果がほとんど0でカーディナリティが低い（カラム内のデータの種類の数が少ない）ため絞り込まれていないです。

ですので今回はとまでの複合インデックスが適切だったということがわかります。

ケース2 : 「1」のクエリにソートとLimit句を追加した場合

rowsの件数は絞り込まれていますが、ExtraにUsing filesortが出現しました。

このクエリの場合4000件を取得してソートしたあとに10件だけ取り出しているので、約4000件の取得はほぼ無駄と言えます。

ソート対象であるも複合インデックスに加えます。

ExtraからUsing filesortが消えました。key_lenを見ると8なのでが使われてないようにみえますが、実際はソートで利用されています。

今回の場合はソートされた順に10件取り出した時点で処理が完了するため、rowsの4000件も取りにいかないようになっています。

ケース3 : 「2」に加えて範囲条件がある場合

ととで複合インデックスを作成してみましょう。

ExtraにUsing filesortが出ているのでのソートでインデックスが使われていません。これはInnoDBの仕様上の範囲条件でインデックスの利用が終了してまうためです。

この場合との2つの複合インデックスを作成してのfilesortを許容するか、

との複合インデックスを作成してfilesortを消すか実際の実行時間を見て検討する必要があります。

ケース4 : 複数の範囲条件がある場合

ととで複合インデックスを貼ってみます。

key_lenは12になっています。4バイトのと8バイトのまでしかインデックスは効いておらず、は使われていません。

これはケース3同様、範囲条件が利用された時点でインデックスの使用が終了するためです。

つまり定数条件(この場合で言えば)は複合インデックスの中に複数指定できますが、範囲条件はインデックスの最後に一つしか指定できません。

ですので今回のケースの場合、[]か[]の

どちらかのインデックスしか選択できません。

まずはでインデックスを作成してみます。