WebやITに関わっていると、「正規表現」という言葉に出会うかもしれません。
正規表現とは、文字列を特殊な記号を使って表す方法で、プログラミングを行う際や大量のデータの検索、置換えなどで使われます。
Googleアナリティクスも、時折この正規表現を使わなければいけない、あるいは使った方が便利な場面があります。
正規表現すべてを理解するのは非常に難しいですが、Google Analyticsでの用途であれば、限られたものをいくつか覚えておけば、まず問題ありません。
この記事ではよく使う正規表現を6つ、加えて必ず覚えておきたい記号1つを紹介します。
1 6つの正規表現
Googleアナリティクスで主に必要とされるのは、下記のような正規表現です。
用途によってどちらを選ぶかで覚えておきたいのが、「*」と「+」です。
「*」が0回以上、「+」が1回以上の繰り返しと書きましたが、つまり「*」は文字が無くても構いません。一方の「+」は1回以上なので必ず文字がある、ということになります。
2 必須で覚えておきたい表現
事例で「home.」「home.*」といったものを書きましたが、実際には次のようなURLを検索することが多いでしょう。
a.website/home.html
a.website/home.php
a.website/home.html?utm utm_source=google
悩ましいことに「.」という記号がurlにはまず入っています。
正規表現では任意の一文字とされるため、意図しない結果が返ってくるかもしれません。
またパラメーターには「?」という記号が付きます。
ここでは紹介していませんが、「?」は正規表現だと直前の文字が0または1回出現するという意味です。
ですからこれをそのまま入力すると、誤った結果が返されてきます。
これを回避できるように、正規表現にはエスケープ処理するための記号が用意されています。
それが、「\(バックスラッシュの半角)」です。
上のようなURLをヒットさせたいなら、たとえば次のように入力します。
a.website/home..+
(「a.website/home.html」
「a.website/home.php」「a.website/home.html?utm utm_source=google」がヒットします)
a.website/home.html?.+
(「a.website/home.html?utm utm_source=google」がヒットします)
「.」や「?」の箇所に、「」でエスケープ処理をされているのがわかりますね。
少し複雑な正規表現になってくると、このエスケープ処理が多く入ってきますので、しっかりと覚えましょう。
3 まとめ
正規表現は慣れるまでは大変かもしれませんが、今回紹介したものを何回か使っていけば、とても便利に検索や指定ができるようになります。
使いどころとしては、レポートだとページレポートのアドバンスフィルタが多いでしょう。また設定ではフィルタや目標設定など、多く使う所があります。
頻出すると思われるものを今回紹介しましたが、これ以外にも覚えておいた方がいいものがあと少しあります。それについてもこのブログ内で、後日紹介しましょう。
その際には実際のGoogleアナリティクスでの使い方も含め、より実践的な解説にしてみたいと思います。