The Perl Toolchain Summit needs more sponsors. If your company depends on Perl, please support this very important event.

$0

(utf8とみなして) 入力データをひとつひとつの文字にばらして、符号位置を表し足り、頻度を数えたりする。

[オプション] -b : utf8ではなくてバイト単位で処理する。 -u : 0x 表記ではなく u+ で表示。バイナリで無くて、ユニコードの区点番号となる。 -1 : 入力を1文字ずつ出力1行に反映。 -: ; 文字の位置を表示 -0 : いろいろな位置を表すのに、1始まりではなくて、0始まりにする。 -n : 各文字の頻度を数える。

[用途] * 頻出する文字を知る。 * よく似た2行がどこに違いがあるのか見つけたいときに、sdiff で並べる操作の前に使う。

[開発上のメモ] * grep -o . と同じ程度の処理速度があるだろうか。 * 頻度の多い順に表示されているが、表示順を選べるようにオプションを作りたい。 * 最初の出現順でまずは格納したいかも。 * freq, code-point, [normalized-char] 等を先頭に出力すべし。 * 最初の出現位値, 最後の出現位値も出力したい。 * 非常に長い行を読むときに、途中で結果を表示するようにしたい。

 * このプログラムの名前の候補としてはordcharsとか ordutf8とか  utf8ord を考えたが、2019-10-16にchars2code とした。