正規表現でユニコードの漢字・ひらがな・カタカナをマッチするには

個人的なメモ。大半は引用です。

具体例

上記(4)勉強会資料まとめスライドから引用させていただきました。
1文字とのマッチ例なので、複数文字ならば+など繰り返し記号を用いてください。

漢字(日中韓)にマッチ
\p{Han}
ひらがなにマッチ
\p{Hiragana}
カタカナにマッチ
[\p{Katakana}ー]

(注意:\p{Katakana}にはいわゆるカタカナの音引き「ー (\u30FC)」だけ含まれていません)

カタカナ+半角カナにマッチ
[\p{Katakana}ーー゙゚]

(注意:半角カナの音引き「ー (\uFF70)」はマイナス「- (\u002D)」とは違います)
なお、\p{Katakana}はそのほか㋑㋺㋩などの丸囲みカタカナにもマッチします。