簡体字から日本の漢字への対応表を作るには

中国語サイトが読みたくなった

でも中国語を勉強する気はさほど無い。
そんなときに野口悠紀雄氏の記事を見かけた。機械式に置換して漢文の知識で読み切る、という感じだ。

ワープロの置換機能を利用して自分で訓読文を作る

 そこで、Aの文章を自分で訓読文に直すことを試みよう。
 ここでは、つぎのような機械的な置き換えを行なうことにする。

  • 的⇒の (4個ある)
  • 和⇒と (「共和国」の和を除き、3個ある)
  • 是⇒は (3個ある。なお、是は、英語のbe動詞と似たものである。したがって、正確には「である」とすべきなのだが、「は」と置き換えたほうが読みやすい。日本語の文章で、「である」は略しても意味は分かることを応用したものだ)。

 以上の置換法を知るだけなら、文字通り10秒間学習すれば済む。苦労せずに簡単に覚えられるだろう。「こういう方法がある」と認識するだけで十分なのだ。
 なお、以上の置き換えは、頭の中で行なってもよいのだが、実際に変換して目に見える形にしたほうがよい。ワープロやエディタのソフトには置換機能があるから、それを用いてコピーしてきた文章を置換すれば、どんなに長い文章でも一瞬で置換できる。

介詞、簡字体などを変換する

 さらに変換を進めれば、さらに読みやすくなる。
 まず、介詞を変換し、また簡字体を変換する。さらに、而など、いくつかの単語を変換する。難しいのは、为、在、则、份などだ。
 なお、中国語の原文で略してあるものがある。それを補う。日本語の見出しで「は」や「の」が省略してあるのと同じだ。さらに、意味を補って変換
 これで、ほとんど読めたことになるわけだ。
 なお、ここで引用したのは、特殊な例ではない。また、文法的に特別簡単というわけでもない。おそらく中国の文献の平均的なレベルだ。そうしたものが、ここで述べた方法で、ほとんど読めてしまうのである。
10秒間の勉強でOK――「野口式『超』中国語読解法」のマジック|中国語ができなくても大丈夫 野口悠紀雄の中国経済統計「超」読解法|ダイヤモンド・オンライン

「的」と「和」だけでもかなり前進

 まず第1は、的(de)の意味を知ることだ。これは、もっとも使用頻度が高い語のひとつである。
 「〜的」は日本語の「〜の」と同じ、と考えることにしよう。
 第2は、「和」が並列を表す「と」だと知ることである。例えば、「城市和农村」は、「都市と農村」である。この表現は、統計にも頻繁に出てくる。

介詞が識別できればさらに前進

 つぎに、「介詞」と呼ばれるものを覚える。これは、日本語の前置詞や助詞に似たものである。つぎのようなものがある。
(1)時間、場所を表す介詞

  • 在 zài   〜で(範囲を示す)
  • 从 cóng  〜から(起点を示す)
  • 到 dào  〜まで(到達点を示す)
  • 离 lí   〜から(2点間の隔たり)
  • 当    の時に(時間の起点)

(2)方向を表す介詞

  • 往 wǎng、向 xiàng、朝 cháo  〜に向かって

(3)対象を表す介詞

  • 跟 gēn、和 hé  〜と(相手を示す)
  • 对 duì、为 wèi  〜に対して
  • 给 gěi      〜のために

頻繁に使う言葉

 以下のものは、頻繁に使われる言葉なので、これらを知っていると、単語の切れ目が分かる。

  • 了 le   動詞の後ろにつけて、動作の完了を表す
  • 有 yǒu  存在を表す。否定形は、没有méiyǒu
  • 不 bù  否定を表す
  • 以 yǐ  〜をもって

中国語の文章を「とにかく読む」ための最小限ノウハウ|中国語ができなくても大丈夫 野口悠紀雄の中国経済統計「超」読解法|ダイヤモンド・オンライン

簡体字から慣れた漢字に変換したい

実は Mac だと、右クリックで変換出来たりする。

ただ、どのようなルールで変換しているのか分からない。のでプログラムに出来ない。
その他の情報をググってみると、簡体字から繁体字へのテーブルを示したサイトがいくつか見つかった。

最後のものだと、日本漢字(常用漢字表的な字形)も載せられているので使えそうだと思った。のだが、一部に問題がありそうだったので、そのままは使えなさそう。

UnicodeのVariant(異体)

Unicode の漢字の文字データの上でも、その文字に繁体字があれば kTraditionalVariant という属性が存在します(逆に簡体字があれば kSimplifiedVariant 属性を有する )。これを使えば簡体字をある程度まで繁体字に直せるんじゃなかろうか。

さらに詳細な項目に関しては以下に記載あり。

異体

該当文字に対する異体字を表します。先頭の数字等は次の種別を表します。
0: 同義の文字
1: 簡体字
2: 繁体字
3: 特定の状況において同義の文字
4: 同字異体(Z軸異体と呼ばれる、同字だが見た目が少し異なるもので、ラウンド・トリップ用です。)
IVS: 異体字セレクタ補助のうち、字体が複数存在するものです。該当する異体字セレクタへリンクしてあります。
参照: Unicode Standard Annex #38の kSemanticVariant(0)、kSimplifiedVariant(1)、kTraditionalVariant(2)、kSpecializedSemanticVariant(3)、kZVariant(4)
Unicode CJK統合漢字拡張A−凡例 - CyberLibrarian

さて「Z軸」という記載があり、「軸」なる概念があることが分かりましたが、これは何なのかと言えばこのようなことであるらしい。

漢字の字形は3次元モデルによって比較することができる。X軸(字義)は漢字を意味によって分け、Y軸(抽象形状)は、X軸上の漢字を抽象化された形状(同定し得る形状)ごとに分ける。つまり、ある漢字の正字体と簡略字体は同じY軸の上に置かれる。Z軸(字形/書体)は漢字を字形の違いによって分ける。UnicodeではZ軸の違いだけが吸収された。字形の違いは通常、同じ文字を異なる書体で表現したときに起こる。また、地域毎の多様化の結果として、言語の違いによる字形の差異も発生する。
CJKV日中韓越情報処理 - ケンランディ - Google ブックス

私が理解したところでは、Z軸はいわゆる包摂に該当するのだと思われる。
で、このデータは http://www.unicode.org/Public/UNIDATA/Unihan.zip にある Unihan_Variants.txt に入っている。

繁体字≠日本の漢字

しかししかし。繁体字がそのまま日本の漢字(常用漢字)になる、わけじゃない。例えば「體」。簡体字常用漢字は「体」。また「鹽」の簡体字は「盐」で常用漢字は「塩」。
なのでそのあたりは修正しなきゃいけない。
(以降更新予定)