CompareOptionsのうち、IgnoreNonSpaceは濁点付きの文字、囲み文字や発音記号など、基本となる文字と修飾記号の組み合わせになる文字について、その組み合わせを無視して比較するように指定します。 これらの値や他の値と組み合わせて使用することも出来ます。 CompareOptions.IgnoreNonSpaceの解説では、
文字列比較で、発音区別符など、非スペーシング組み合わせ文字を無視するように指定します。 Unicode 標準は、新しい文字を生成するために基本文字と組み合わせられる文字を組み合わせ文字として定義しています。非スペーシング組み合わせ文字は、表示されるときに文字間隔用の領域は確保しません。
CompareOptions 列挙体
とされています。 非スペーシング組み合わせ文字とは、Unicodeのカテゴリ'Mark, Nonspacing' [Mn]のことで、これに該当する文字は比較の際に無視されることになります。
まずは、具体的な例と比較結果を見てみます。
個々の実行結果について、詳しく説明します。
- "cafe"と"café"
-
é(U+00E9 LATIN SMALL LETTER E WITH ACUTE)はe(U+0065 LATIN SMALL LETTER E)と́(U+0301 COMBINING ACUTE ACCENT)の組み合わせと等価とされています。
IgnoreNonSpaceの場合、カテゴリが'Mark, Nonspacing'である́(U+0301 COMBINING ACUTE ACCENT)が無視され、e(U+0065 LATIN SMALL LETTER E)として比較されるため、"cafe"と"café"は同じであると判断されます。 - "cat"と"cæt"
- æ(U+00E6 LATIN SMALL LETTER AE)は組み合わせた文字としては扱われないため、IgnoreNonSpaceの場合でも"cat"と"cæt"は異なると判断されます。
- "caet"と"cæt"
- インバリアントカルチャおよびja-JPでは"ae"と"æ"は同等であると判断されるため、NoneでもIgnoreNonSpaceでも"caet"と"cæt"は同じであると判断されます。
Ordinalの場合、a(U+0061 LATIN SMALL LETTER A)とæ(U+00E6 LATIN SMALL LETTER AE)はコードポイントが異なるため、"caet"と"cæt"は異なると判断されます。 - "えと"と"えど"
-
ど(U+3069 HIRAGANA LETTER DO)はと(U+3068 HIRAGANA LETTER TO)ど(U+3099 COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK)の組み合わせと等価とされています。
IgnoreNonSpaceの場合、カテゴリが'Mark, Nonspacing'である゙(U+3099 COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK)が無視され、と(U+3068 HIRAGANA LETTER TO)として比較されるため、"えと"と"えど"は同じであると判断されます。 - "ハン"と"パン"
"ウ"と"ヴ" -
パ(U+30D1 KATAKANA LETTER PA)はハ(U+30CF KATAKANA LETTER HA)と゚(U+309A COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK)の組み合わせ、ヴ(U+30F4 KATAKANA LETTER VU)はウ(U+30A6 KATAKANA LETTER U)ど(U+3099 COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK)の組み合わせと等価とされています。
従って"えと"と"えど"の場合と同様、IgnoreNonSpaceの場合は濁点・半濁点が無視され、"ハン"と"パン"、"ウ"と"ヴ"はそれぞれ同じであると判断されます。 - "バ゙ン"と"パン"
"◎゛ "と"●" -
ハ(U+30CF KATAKANA LETTER HA)に濁点が二つつけられたものとパ(U+30D1 KATAKANA LETTER PA)は等しくなります。 これは、濁点が基本となる文字に対して重み1を与え、半濁点が重み2を与えるためで、濁点二つと半濁点一つではどちらも同じ重みが与えられます。 その結果、"バ゙ン"と"パン"は同じであると判断されます。
◎(U+25CE BULLSEYE)に濁点がつけられたものと●(U+25CF BLACK CIRCLE)が等しくなるのもこれと同じで、濁点によって重みが与えらることにより、"◎゛ "と"●"は同じであると判断されます。
参考: 「MS ACCESS 95/97 の美しいソート順」の謎に答える - ものがたり - "C"と"©"
"C"と"Ⓒ" -
©(U+00A9 COPYRIGHT SIGN)は組み合わせた文字としては扱われないため、IgnoreNonSpaceの場合でも"C"と"©"は異なると判断されます。
一方Ⓒ(U+24B8 CIRCLED LATIN CAPITAL LETTER C)はC(U+0043 LATIN CAPITAL LETTER C)とほぼ等価とされているため、IgnoreNonSpaceの場合"C"と"Ⓒ"は同じであると判断されます。 - "1"と"①"
"1"と"①" -
①(U+2460 CIRCLED DIGIT ONE)は1(U+0031 DIGIT ONE)とほぼ等価とされているため、IgnoreNonSpaceの場合"1"と"①"は同じであると判断されます。
また、1(U+FF11 FULLWIDTH DIGIT ONE)は1(U+0031 DIGIT ONE)と全角半角の関係にあるため、IgnoreNonSpace+IgnoreWidthの場合"1"と"①"は同じであると判断されます。