個人的なメモ。大半は引用です。
参考文献
- [連載:正規表現] Unicode文字プロパティについて(1)
- [連載:正規表現] Unicode文字プロパティについて(2) — Pの一族
- [連載:正規表現] Unicode文字プロパティについて (3) 文字プロパティとは
そしてまとめスライド
具体例
上記(4)勉強会資料まとめスライドから引用させていただきました。
1文字とのマッチ例なので、複数文字ならば+など繰り返し記号を用いてください。
- 漢字(日中韓)にマッチ
- \p{Han}
- ひらがなにマッチ
- \p{Hiragana}
- カタカナにマッチ
- [\p{Katakana}ー]
(注意:\p{Katakana}にはいわゆるカタカナの音引き「ー (\u30FC)」だけ含まれていません)
- カタカナ+半角カナにマッチ
- [\p{Katakana}ーー゙゚]
(注意:半角カナの音引き「ー (\uFF70)」はマイナス「- (\u002D)」とは違います)
なお、\p{Katakana}はそのほか㋑㋺㋩などの丸囲みカタカナにもマッチします。
おまけ(上記「Pの一族」より)
- アンダースコアたち
- \p{Pc}(Unicode Characters in the 'Punctuation, Connector' Category)
- ハイフン/ダッシュたち
- \p{Pd}(Unicode Characters in the 'Punctuation, Dash' Category)
- かっこの仲間たち
- \p{Ps}(開き)、\p{Pe}(閉じ)
(Unicode Characters in the 'Punctuation, Open' Category, Unicode Characters in the 'Punctuation, Close' Category)
- 向きを持つ引用符たち
- \p{Pi}(開始)\p{Pf}(終了)
(Unicode Characters in the 'Punctuation, Initial quote (may behave like Ps or Pe depending on usage)' Category, Unicode Characters in the 'Punctuation, Final quote (may behave like Ps or Pe depending on usage)' Category)
- その他もろもろの約物
- \p{Po}(Unicode Characters in the 'Punctuation, Other' Category)