NAME

Unicode::LineBreak::JA_JP - UAX #14 Unicode 行分割アルゴリズム

SYNOPSIS

use Unicode::LineBreak;
$lb = Unicode::LineBreak->new();
$broken = $lb->break($string);

DESCRIPTION

Unicode::LineBreak は、Unicode 標準の附属書14 [UAX #14] で述べる Unicode 行分割アルゴリズムを実行する。 分割位置を決定する際に、附属書11 [UAX #11] で定義される East_Asian_Width 参考特性も考慮する。

用語

便宜的に以下の用語を使う。

強制分割〔mandatory break〕は、基本規則で定められており、周囲の文字に関係なく義務的に実行される行分割動作。 任意分割は、基本規則で認められており、ユーザが実行すると決めた場合に行われる行分割動作。 [UAX #14] で定義される任意分割には直接分割〔direct break〕と間接分割〔indirect break〕とがある。

音素文字的な文字〔alphabetic characters〕は、通常、他の文字が分割の機会を与えないかぎり、文字同士の間で行分割できない文字。 表語文字的な文字〔ideographic characters〕は、通常、その前後で行分割できる文字。 [UAX #14] では音素文字的な文字のほとんどを AL に、表語文字的な文字のほとんどを ID に分類している (これらの用語は文字学の観点からすれば不正確である)。 若干の用字系では、個々の文字からは分割位置が明確にならないため、辞書による発見的方法を用いる。

文字列の桁数は、文字列に含まれる文字の数と等しいとはかぎらない。 個々の文字は広い〔wide〕か、狭い〔narrow〕か、前進を伴わない〔nonspacing〕かのいずれかであり、各々 2 桁、1 桁、0 桁を占める。 若干の文字は、使われる文脈によって広くも狭くもなり得る。 カスタマイズによって、文字はより多様な幅を持ちうる。

PUBLIC INTERFACE

行の分割

new ([KEY => VALUE, ...])

コンストラクタ。 KEY => VALUE の対については "オプション" を参照。

$self->break (STRING)

インスタンスメソッド。 Unicode 文字列 STRING を分割し、それを返す。 配列コンテクストでは、結果の各行の配列を返す。

$self->break_partial (STRING)

インスタンスメソッド。 break() と同じだが、文字列を少しずつ追加して入力する場合。 入力が完了したことを示すには、STRING 引数に undef を与える。

$self->config (KEY)
$self->config (KEY => VALUE, ...)

インスタンスメソッド。 設定を取得または変更する。 KEY => VALUE の対については "オプション" を参照。

$self->copy

コピーコンストラクタ。 オブジェクトインスタンスの複製をつくる。

情報の取得

context ([Charset => CHARSET], [Language => LANGUAGE])

関数。 キャラクタセット CHARSET および言語コード LANGUAGE から、それを使う言語/地域の文脈を得る。

$self->eawidth (STRING)

インスタンスメソッド。 Unicode 文字列 STRING の最初の文字の East_Asian_Width 特性を得る。 返値については "定数" を参照。 EA_Z は前進を伴わない (幅のない) ことを意味する。 特性値 A (曖昧) は適切な値に解決する。

$self->lbclass (STRING)

インスタンスメソッド。 Unicode 文字列 STRING の最初の文字の行分割特性 (分類) を得る。 返値については "定数" を参照。 AI、SA、SG、XX の各分類は他の適切な分類に解決する。 ただし、東南アジアの表記体系のための単語分節が有効になっているときは、対応している用字系 (現在はタイ文字のみ) の文字の特性を SA のまま解決しない。

$self->lbrule (BEFORE, AFTER)

インスタンスメソッド。 分類 BEFORE と分類 AFTER の間での行分割動作を得る。 返値については "定数" を参照。

: このメソッドは、BK、CM、CR、LF、NL、SP の各分類に関わる規則については適切な値を返せないかもしれない。 また、AI、SA、SG、XX の各分類に関わる規則については意味のある値を返さない。

$self->strsize (LEN, PRE, SPC, STR)

インスタンスメソッド。 [UAX #11] で定義された文字幅に基づいて、Unicode 文字列 PRE.SPC.STR の桁数を算出する。

オプション

"new""config" の両メソッドには以下の対を指定できる。

BreakIndent => "YES" | "NO"

行頭の SPACE の並び (インデント) の後では常に分割を許す。 [UAX #14] はこのような用法を考慮していない。 初期値は "YES"

: このオプションはリリース 1.011 で導入された。

CharactersMax => NUMBER

行に含みうる最大の文字数。行末の空白文字と改行の文字列を除く。 文字数は一般に行の長さを表さないことに注意。 初期値は 9980 にはできない。

ColumnsMin => NUMBER

任意分割された行の、改行の文字列と行末の空白文字を含めない最小桁数。 初期値は 0

ColumnsMax => NUMBER

行の、改行の文字列と行末の空白文字を含めない最大桁数。つまり、行の最大長。 初期値は 76

"UrgentBreaking" オプションおよび "ユーザ定義の行分割動作" も参照。

ComplexBreaking => "YES" | "NO"

東南アジアの複雑な文脈で、発見的な行折りを行う。 初期値は、東南アジアの表記体系での語分割が有効なら "YES"

Context => CONTEXT

言語/地域の文脈を指定する。 現在使える文脈は "EASTASIAN""NONEASTASIAN"。 初期の文脈は "NONEASTASIAN"

EAWidth => [ ORD => PROPERTY ]
EAWidth => undef

個々の文字の East_Asian_Width 特性を手直しする。 ORD は文字の UCS インデクス値か、それらの配列への参照。 PROPERTY は East_Asian_Width 特性のいずれか ("定数" を参照)。 このオプションは複数回指定できる。 undef を指定すると、それまでの手直しをすべて取り消す。

初期値では、East_Asian_width 特性の手直しはしない。 "文字の特性の手直し" も参照。

Format => METHOD

分割した行を整形する方法を指定する。

"SIMPLE"

初期の方法。 任意分割の位置に改行を挿入するだけ。

"NEWLINE"

"Newline" オプションで指定したもので改行を置き換える。 改行の前とテキスト終端の空白文字を除去する。 テキスト終端に改行がなければ追加する。

"TRIM"

任意分割の位置に改行を挿入する。 改行の前の空白文字を除去する。

undef

なにもしない (改行の挿入も)。

サブルーチンへの参照

"行の整形" を参照。

HangulAsAL => "YES" | "NO"

ハングル音節とハングル連結チャモ〔conjoining jamo〕を音素文字的な文字 (AL) と扱う。 初期値は "NO"

LBClass => [ ORD => CLASS ]
LBClass => undef

個々の文字の行分割特性 (分類) を手直しする。 ORD は文字の UCS インデクス値か、それらの配列への参照。 CLASS は行分割特性のいずれか ("定数" を参照)。 このオプションは複数回指定できる。 undef を指定すると、それまでの手直しをすべて取り消す。

初期値では、行分割特性の手直しはしない。 "文字の特性の手直し" も参照。

LegacyCM => "YES" | "NO"

前に空白文字がついた結合文字を単独の結合文字 (ID) と扱う。 Unicode 5.0 版からは、空白文字のこのような使いかたは推奨されない。 初期値は "YES"

Newline => STRING

改行の文字列とする Unicode 文字列。 初期値は "\n"

Prep => METHOD

ユーザ定義の行分割動作を追加する。 このオプションは複数回指定できる。 METHOD には以下のものを指定できる。

"NONBREAKURI"

URI を分割しない。

"BREAKURI"

URI を、印刷物に適した規則で分割する。 詳しくは [CMOS] の 6.17 節と 17.11 節を参照。

[ REGEX, SUBREF ]

正規表現 REGEX にマッチする文字列を、SUBREF で参照されるサブルーチンで分割する。 詳細は "ユーザ定義の行分割動作" を参照。

undef

それまでに追加した動作をすべて取り消す。

SizingMethod => METHOD

文字列の長さを算出する方法を指定する。 以下のオプションが使える。

"UAX11"

初期の方法。 strsize() を使う。

undef

文字列に含まれる書記素クラスタ (Unicode::GCString 参照) の数を返す。

サブルーチンへの参照

"文字列長の算出" を参照。

"EAWidth" オプションも参照。

TailorEA => [ ORD => PROPERTY, ... ]

"EAWidth" の旧式な形式。

TailorLB => [ ORD => CLASS, ... ]

"LBClass" の旧式な形式。

UrgentBreaking => METHOD

長すぎる行の扱いかたを指定する。 以下のオプションが使える。

"CROAK"

エラーメッセージを出力して死ぬ。

"FORCE"

長すぎる文字列を無理やり分割する。

undef

初期の方法。 長すぎる文字列も分割しない。

サブルーチンへの参照

"ユーザ定義の行分割動作" を参照。

UserBreaking => [METHOD, ...]

"Prep" の旧式な形式。

定数

EA_Na, EA_N, EA_A, EA_W, EA_H, EA_F, EA_Z

[UAX #11] で定義される 6 つの East_Asian_Width 特性を表す値と、前進を伴わないことを表す EA_Z。

LB_BK, LB_CR, LB_LF, LB_NL, LB_SP, LB_OP, LB_CL, LB_CP, LB_QU, LB_GL, LB_NS, LB_EX, LB_SY, LB_IS, LB_PR, LB_PO, LB_NU, LB_AL, LB_ID, LB_IN, LB_HY, LB_BA, LB_BB, LB_B2, LB_CB, LB_ZW, LB_CM, LB_WJ, LB_H2, LB_H3, LB_JL, LB_JV, LB_JT, LB_SG, LB_AI, LB_SA, LB_XX

[UAX #14] で定義される 37 の行分割特性 (分類) を表す値。

: 特性値 CP はUnicode 5.2.0版で導入された。

MANDATORY, DIRECT, INDIRECT, PROHIBITED

行分割動作を表す 4 つの値。

強制分割。直接分割も間接分割も認める。間接分割を認めるが直接分割は禁ずる。分割を禁ずる。

Unicode::LineBreak::SouthEastAsian::supported

東南アジアの表記体系のための単語分節機能が有効かどうかを示すフラグ。 この機能が有効になっていれば、空でない文字列。 そうでなければ undef

: 現リリースでは現代タイ語のタイ文字にのみ対応している。

UNICODE_VERSION

このモジュールが参照する Unicode 標準の版を示す文字列。

CUSTOMIZATION

行の整形

"Format" オプションにサブルーチンへの参照を指定する場合、そのサブルーチンは 3 つの引数を取らなければならない。

修正後 = &サブルーチン(SELF, EVENT, STR);

SELF は Unicode::LineBreak オブジェクト、EVENT はサブルーチンが呼ばれた文脈を表す文字列、STR は分割位置の前または後の Unicode 文字列の断片。

EVENT |駆動の契機           |STR
-----------------------------------------------------------------
"sot" |テキスト先頭         |最初の行の断片
"sop" |強制分割の後         |次の行の断片
"sol" |任意分割の後         |続きの行の断片
""    |分割の直前           |行全体 (終端の空白文字を除く)
"eol" |任意分割             |分割位置の前の空白文字
"eop" |強制分割             |改行とその前の空白文字
"eot" |テキスト終端         |テキスト終端の空白文字 (と改行)
-----------------------------------------------------------------

サブルーチンは、テキストの断片を修正して返さなければならない。なにも修正しなかったことを示すには、undef を返せばよい。 なお、"sot""sop""sol" の文脈での修正はその後の分割位置の決定に影響するが、ほかの文脈での修正は影響しない。

注意: 文字列の引数は実際には書記素クラスタ列である。 Unicode::GCString::JA_JP 参照。

たとえば次のコードは、行末の空白を取り除いて行折りをする。

sub fmt {
    if ($_[1] =~ /^eo/) {
        return "\n";
  	}
    return undef;
}
my $lb = Unicode::LineBreak->new(Format => \&fmt);
$output = $lb->break($text);

ユーザ定義の行分割動作

任意分割によって生じる行が CharactersMax、ColumnsMax、ColumnsMin のいずれかの制限を超えると見込まれるときは、引き続く文字列に対して緊急分割を実行できる。 "UrgentBreaking" オプションにサブルーチンへの参照を指定する場合、そのサブルーチンは 2 つの引数を取らなければならない。

分割後 = &サブルーチン(SELF, STR);

SELF は Unicode::LineBreak オブジェクト、STR は分割すべき Unicode 文字列。

サブルーチンは、文字列 STR を分割した結果の配列を返さなければならない。

注意: 文字列の引数は実際には書記素クラスタ列である。 Unicode::GCString::JA_JP 参照。

たとえば次のコードは、若干の化学物質 (チチンのような) の名称にハイフンを挿入し、行折りできるようにする。

    sub hyphenize {
	return map {$_ =~ s/yl$/yl-/; $_} split /(\w+?yl(?=\w))/, $_[1];
    }
    my $lb = Unicode::LineBreak->new(UrgentBreaking => \&hyphenize);
    $output = $lb->break("Methionylthreonylthreonylglutaminylarginyl...");

"Prep" オプションに [REGEX, SUBREF] の配列参照を指定する場合、サブルーチンは 2 つの引数を取らなければならない。

分割後 = &サブルーチン(SELF, STR);

SELF は Unicode::LineBreak オブジェクト、STR は REGEX にマッチする分割すべき Unicode 文字列。

サブルーチンは、文字列 STR を分割した結果の配列を返さなければならない。

たとえば次のコードは、HTTP URL を [CMOS] の規則を用いて分割する。

my $url = qr{http://[\x21-\x7E]+}i;
sub breakurl {
    my $self = shift;
    my $str = shift;
    return split m{(?<=[/]) (?=[^/]) |
                   (?<=[^-.]) (?=[-~.,_?\#%=&]) |
    	       (?<=[=&]) (?=.)}x, $str;
}
my $lb = Unicode::LineBreak->new(Prep => [$url, \&breakurl]);
$output = $lb->break($string);

状態の保存

XXX.

文字列長の算出

"SizingMethod" オプションにサブルーチンへの参照を指定する場合、そのサブルーチンは 5 つの引数を取らなければならない。

桁数 = &サブルーチン(SELF, LEN, PRE, SPC, STR);

SELF は Unicode::LineBreak オブジェクト、LEN は先行する文字列の長さ、PRE は先行する Unicode 文字列、SPC は追加される空白文字、STR は処理する Unicode 文字列。

サブルーチンは PRE.SPC.STR の桁数を算出して返さなければならない。 桁数は整数でなくてもよい。桁数の単位は随意に選べるが、"ColumnsMin" オプションおよび "ColumnsMax" オプションのそれと一致させなければならない。

注意: 文字列の引数は実際には書記素クラスタ列である。 Unicode::GCString::JA_JP 参照。

たとえば次のコードは、行に 8 桁ごとのタブストップがあるものとして処理する。

sub tabbedsizing {
    my ($self, $cols, $pre, $spc, $str) = @_;

    my $spcstr = $spc.$str;
    while ($spcstr =~ s/^( *)(\t+)//) {
        $cols += length($1);
        $cols += length($2) * 8 - $cols % 8;
    }
    $cols += $self->strsize(0, '', '', $spcstr);
    return $cols;
};
my $lb = Unicode::LineBreak->new(LBClass => [ord("\t") => LB_SP],
                                 SizingMethod => \&tabbedsizing);
$output = $lb->break($string);

文字の特性の手直し

"LBClass" オプションおよび "EAWidth" オプションで個々の文字の行分割特性 (分類) や East_Asian_Width 特性を手直しできる。その際に便利な定数をいくつか定義してある。

行分割特性

仮名などの行頭禁則文字

初期値では、若干の仮名や仮名に準ずるものを行頭禁則文字 (NS) と扱う。 以下の対を LBClass オプションに指定すれば、これらの文字を通常の表語文字的な文字 (ID) と扱える。

KANA_NONSTARTERS() => LB_ID

下記の文字すべて。

IDEOGRAPHIC_ITERATION MARKS() => LB_ID

表語文字的な繰り返し記号。 U+3005 繰返し記号、U+303B ゆすり点、U+309D 平仮名繰返し記号、U+309E 平仮名繰返し記号 (濁点)、U+30FD 片仮名繰返し記号、U+30FE 片仮名繰返し記号 (濁点)。

注。仮名ではないものもある。

KANA_SMALL_LETTERS() => LB_ID
KANA_PROLONGED_SOUND_MARKS() => LB_ID

小書き仮名。 小書き平仮名 U+3041 ぁ, U+3043 ぃ, U+3045 ぅ, U+3047 ぇ, U+3049 ぉ, U+3063 っ, U+3083 ゃ, U+3085 ゅ, U+3087 ょ, U+308E ゎ, U+3095 ゕ, U+3096 ゖ。 小書き片仮名 U+30A1 ァ, U+30A3 ィ, U+30A5 ゥ, U+30A7 ェ, U+30A9 ォ, U+30C3 ッ, U+30E3 ャ, U+30E5 ュ, U+30E7 ョ, U+30EE ヮ, U+30F5 ヵ, U+30F6 ヶ。 片仮名表音拡張 U+31F0 ㇰ - U+31FF ㇿ。 小書き片仮名 (代替名称) U+FF67 ァ - U+FF6F ッ。

長音記号。 U+30FC 長音記号、U+FF70 長音記号 (代替名称)。

注。これらの文字は行頭禁則文字と扱われることも、通常の表語文字的な文字と扱われることもある。[JIS X 4051] 6.1.1 参照。

注。U+3095 ゕ, U+3096 ゖ, U+30F5 ヵ, U+30F6 ヶ は仮名ではないとされる。

MASU_MARK() => LB_ID

U+303C ます記号。

注。この文字は仮名ではないが、通常 "ます""マス" の略記として用いられる。

注。この文字は [UAX #14] では行頭禁則文字 (NS) に分類されるが、[JIS X 4051] では文字クラス (13) (ID に相当) に分類される。

曖昧な引用符

初期値では、若干の記号を曖昧な引用符 (QU) と扱う。

LEFT_QUOTES() => LB_OP, RIGHT_QUOTES() => LB_CL

ある言語 (オランダ語、英語、イタリア語、ポルトガル語、スペイン語、トルコ語、 および東アジアの多くの言語) では、開き記号に 9 が回転した形状の引用符 (‘ “) を、閉じ記号に 9 の形状の引用符 (’ ”) を用いる。

RIGHT_QUOTES() => LB_OP, LEFT_QUOTES() => LB_CL

ほかの言語 (チェコ語、ドイツ語、スロヴァク語) では、9 の形状の引用符 (’ ”) を開き記号に、9 が回転した形状の引用符 (‘ “) を閉じ記号に用いる。

LEFT_GUILLEMETS() => LB_OP, RIGHT_GUILLEMETS() => LB_CL

フランス語、ギリシャ語、ロシア語などでは、左向きのギュメ (« ‹) を開き記号に、右向きのギュメ (» ›) を閉じ記号に用いる。

RIGHT_GUILLEMETS() => LB_OP, LEFT_GUILLEMETS() => LB_CL

ドイツ語やスロヴァク語では、右向きのギュメ (» ›) を開き記号に、左向きのギュメ (« ‹) を閉じ記号に用いる。

デーン語、フィン語、ノルウェー語、スウェーデン語では、9 の形状の引用符や 右向きのギュメ (’ ” » ›) を開き記号にも閉じ記号にも用いる。

East_Asian_Width 特性

ラテン、ギリシア、キリルの各用字系では、特定の文字が曖昧 (A) の East_Asian_Width 特性を持っている。このため、こういった文字は "EASTASIAN" 文脈で広い文字と扱われる。 EAWidth => [ AMBIGUOUS_*() => EA_N ] と指定することで、そのような文字を常に狭い文字と扱う。

AMBIGUOUS_ALPHABETICS() => EA_N

下記の文字すべてを East_Asian_Width 特性 N (中立) の文字と扱う。

AMBIGUOUS_CYRILLIC() => EA_N
AMBIGUOUS_GREEK() => EA_N
AMBIGUOUS_LATIN() => EA_N

曖昧 (A) の幅を持つキリル、ギリシア、ラテン用字系の文字を中立 (N) の文字と扱う。

いっぽう、東アジアの符号化文字集合に対する多くの実装でたびたび広い文字に描画されてきたにもかかわらず、Unicode 標準では全角 (F) の互換文字を持つがゆえに狭い (Na) 文字とされている文字が若干ある。EAWidth オプションに以下のように指定することで、これらの文字を "EASTASIAN" 文脈で広い文字と扱える。

QUESTIONABLE_NARROW_SIGNS() => EA_A

U+00A2 セント記号、U+00A3 ポンド記号、U+00A5 円記号 (または元記号)、U+00A6 破断線、U+00AC 否定、U+00AF マクロン。

設定ファイル

"new" メソッドおよび "config" メソッドのオプション引数の組み込み初期値は、 設定ファイルで上書きできる。 Unicode/LineBreak/Defaults.pm。 詳細は Unicode/LineBreak/Defaults.pm.sample を読んでほしい。

BUGS

バグやバグのような動作は、開発者に教えてください。

CPAN Request Tracker: http://rt.cpan.org/Public/Dist/Display.html?Name=Unicode-LineBreak.

VERSION

$VERSION 変数を参照してほしい。

このモジュールの開発版が http://hatuka.nezumi.nu/repos/Unicode-LineBreak/ にある。

標準への適合性

このモジュールで用いている文字の特性値は、Unicode 標準 6.0.0 版による。

このモジュールでは、実装水準 UAX14-C2 を実装しているつもり。

  • 一部の表語文字的な文字を NS として扱うか ID として扱うかを選べる。

  • ハングル音節およびハングル連結チャモを ID として扱うか AL として扱うかを選べる。

  • AI に分類される文字を AL と ID のどちらに解決するかを選べる。

  • CB に分類される文字は解決しない。

  • 東南アジアの表記体系の単語分節に対応しない場合は、 SA に分類される文字は AL に解決する。 ただし、Grapheme_Cluster_Break 特性の値が Extend か SpacingMark である文字は CM に解決する。

  • SG や XX に分類される文字は AL に解決する。

  • 以下の UCS の範囲にあるコードポイントは、文字が割り当てられていなくても決まった特性値を持つ。

    範囲               | lbclass()  | eawidth()  | 説明
    -------------------------------------------------------------
    U+3400..U+4DBF     | ID         | W          | CJK漢字
    U+4E00..U+9FFF     | ID         | W          | CJK漢字
    U+D800..U+DFFF     | AL (SG)    | N          | サロゲート
    U+E000..U+F8FF     | AL (XX)    | F か N (A) | 私用領域
    U+F900..U+FAFF     | ID         | W          | CJK漢字
    U+20000..U+2FFFD   | ID         | W          | CJK漢字
    U+30000..U+3FFFD   | ID         | W          | CJK漢字
    U+F0000..U+FFFFD   | AL (XX)    | F か N (A) | 私用領域
    U+100000..U+10FFFD | AL (XX)    | F か N (A) | 私用領域
    その他未割り当て   | AL (XX)    | N          | 未割り当て
    -------------------------------------------------------------
  • 一般カテゴリ特性が Mn、Me、Cc、Cf、Zl、Zp のいずれかである文字は、[UAX #11] で割り当てられた East_Asian_Width 特性の値に関わらず、当モジュールで定義した特性値 Z (前進を伴わない) を持つ。

REFERENCES

[CMOS]

The Chicago Manual of Style, 15th edition. University of Chicago Press, 2003.

[JIS X 4051]

JIS X 4051:2004 日本語文書の組版方法. 日本規格協会, 2004.

1 POD Error

The following errors were encountered while parsing the POD:

Around line 696:

=over without closing =back