The Perl Toolchain Summit needs more sponsors. If your company depends on Perl, please support this very important event.

NAME

Encode::JP::Mobile - 日本の携帯電話向け Shift_JIS (CP932) / UTF-8 エンコーディング

SYNOPSIS

  use Encode;
  use Encode::JP::Mobile;

  my $bytes = "\x82\xb1\xf9\x5d\xf8\xa0\x82\xb1"; # NTT DoCoMo 絵文字を含んだ Shift_JIS バイト列
  my $chars = decode("x-sjis-imode", $bytes);     # \x{3053}\x{e6b9}\x{e63f}\x{3053}

  use Encode::JP::Mobile ':props';
  if ($chars =~ /\p{InDoCoMoPictograms}/) {
      warn "It has DoCoMo pictogram characters!";
  }

DESCRIPTION

Encode::JP::Mobile は Encode 用の拡張モジュールで、日本の携帯電話用絵文字を Unicode の私用領域 (PRIVATE AREA) にマッピングします。

このモジュールの実装は EXPERIMENTAL です。APIや実装は将来のバージョンで変更される可能性があります。

ENCODINGS

このモジュールは以下のエンコーディングをサポートしています。

x-sjis-imode

NTT DoCoMo の i-mode 端末用のマッピング。絵文字は Shift_JIS の私用領域でエンコードされ、Unicode の私用領域にマッピングされます。この際の変換ルールは CP932 と同様です。

例えば、U+E64E晴れ の絵文字で、このエンコーディングでは \xF8\X9F にエンコードされます。

このエンコーディングは CP932 の完全なサブセットです。現状のバージョンでは、(x-sjis-kddi-autoでdecodeした)KDDI/AU の絵文字および SoftBank の絵文字をマップした Unicode 私用領域からDoCoMo 絵文字へのマッピングもサポートしています。例えば、

  my $kddi  = "\xf6\x59"; # KDDI/AU の SJIS で [!]
  my $char  = decode("x-sjis-kddi-auto-raw", $bytes); # \x{EF59}
  my $imode = encode("x-sjis-imode", $char); # \xf9\xdc -- DoCoMo の SJIS で [!]

のように相互変換されます。

x-sjis-docomo をエイリアスとして利用できます。

x-sjis-softbank

SoftBank 絵文字をエンコードするためのエスケープシーケンスがベースの Shift_JIS エンコーディングです。エンコード・デコードのアルゴリズムは UCM ファイルではなく、Perl コードで実装されています。

x-sjis-vodafone をエイリアスとして利用できます。

例えば、U+E001男の子 の絵文字で、このエンコーディングでは \x1b$G!\x0f のようにエンコードされます。(\x1b がエスケープシーケンス開始、\x0f が終了を示す)

DoCoMo および (x-sjis-kddi-autoでdecodeした)KDDI/AU の絵文字は適切な SoftBank 絵文字にマッピングされます。

x-sjis-softbank-auto

Unicode 私用領域にマップされた SoftBank 絵文字と Shift_JIS 私用領域(外字)をマッピングします。このエンコーディングは 3GC 端末を利用して Shift_JIS でエンコードされた Web フォームに絵文字を入力し、サブミットしたときに送信されるエンコードです。実機端末では HTML 内にこのエンコーディングでエンコードした絵文字をデコードして表示できることが確認されています。

x-sjis-vodafone-auto をエイリアスとして利用できます。

Shift_JIS 私用領域のマッピングは CP932 に似ていますが、若干ずれている場所があります。

例えば、 U+E001男の子 絵文字 (x-sjis-softbank と同様) で、このエンコーディングでは \xF9\x41 とエンコードされます。

DoCoMo および KDDI/AU の絵文字は適切な SoftBank 絵文字にマッピングされます。

x-sjis-kddi-cp932-raw

KDDI/AU 絵文字のマッピング。(おそらく)CP932 をベースにしていますが、CP932.TXT には含まれない私用領域文字を多く含んでいます。

例えば、U+E481! (ビックリマーク)絵文字で、このエンコーディングでは \xF6\x59 のようにエンコードされ、これは CP932 と同様です。 U+EB88怒る 絵文字で、\xF4\x8D のようにエンコードされますが、CP932 はこの文字に対するマッピングを含んでいません。

このエンコーディングに含まれる一部の絵文字は、SoftBank の私用領域と重複しています。

このエンコーディングでは、絵文字の相互変換がおこなわれないことに注意してください。これは、KDDI-CP932 の Unicode の領域が SoftBank の絵文字領域と重複しているため、ただしく相互変換することができないためです。絵文字相互変換機能を利用したい場合には x-sjis-kddi-auto を使用してください。

x-sjis-ezweb をエイリアスとして利用できます。

x-sjis-kddi-auto

KDDI/AU 絵文字のマッピングで、端末内部の Shift_JIS - UTF-8 間の変換表を元にしています。

KDDI端末から、UTF-8 ページ内の Web フォームに絵文字を入力して送信した場合、x-sjis-kddi でマップされる Unicode 私用領域 (CP932 ベース) とは異なる領域(通称 裏KDDI Unicode)が利用されます。x-sjis-kddi-auto は、この領域と、KDDI 端末の Shift_JIS 外字バイト列とをマッピングしたものです。

現状のバージョンでは、DoCoMo の絵文字をマップした Unicode 私用領域から KDDI/AU 絵文字、SoftBank 絵文字へのマッピングもサポートしています。

x-sjis-ezweb-auto をエイリアスとして利用できます。

x-iso-2022-jp-kddi

KDDI/AU の絵文字を Email 内で利用する際のエンコーディング。日本語でメールを送信する際、依然としてデファクトスタンダードである iso-2022-jp をベースにしています。

実際には、ほとんどの KDDI/AU 携帯電話端末は Shift_JIS でエンコードされた Email を受信することができるため、x-sjis-kddi (または -auto)を利用してメールを送信すれば問題はないでしょう。このエンコーディングは携帯端末から送られた絵文字を含むメールを受信し、デコードする際に必要になります。

x-iso-2022-jp-ezweb をエイリアスとして利用できます。

x-iso-2022-jp-kddi-auto

x-iso-2022-jp-kddi と同様ですが、絵文字を KDDI-Auto の Unicode 領域にデコードします。

x-sjis-airedge

AirEDGE の絵文字をマッピングします。cp932 の完全なサブセットで、x-sjis-airh をエイリアスとして利用できます。

AirEDGE 独自の文字コードでは、絵文字は E000 - E0C9 にマップされ、CP932 と同様のエンコーディングですが、実際にはこのエンコーディングを利用することはまずないと思われます。AirEDGE 端末から「ウェブ用絵文字」を利用して送信したデータは、DoCoMo 用絵文字と同様のエンコーディングで送信され、CP932 互換のマッピングで DoCoMo 用絵文字のコードポイントにマッピングされます。また、AirEDGE 独自の絵文字私用領域は SoftBank の私用領域とも重複しており、相互変換の上でも問題があります。

x-sjis-airedgex-sjis-docomo の別名、として考えておくとよいでしょう。

SoftBank および KDDI/AU の絵文字は適切な DoCoMo 絵文字(ウェブ入力用絵文字)にマッピングされます。

x-iso-2022-jp-airh

AirEDGE から送られる絵文字入りのメールを変換するためのエンコーディングです。

AirEDGE から送られるメールは通常のメールと同様に iso-2022-jp がベースとなっていますが、絵文字部分のみ x-sjis-docomo-raw という独自仕様になっており、これはその混在したメールを変換するためのエンコーディングになります。

x-iso-2022-jp-airedgeをエイリアスとして利用できます。

x-utf8-docomo, x-utf8-softbank, x-utf8-kddi

これらのエンコーディングは、Unicode 私用領域にある各キャリアの絵文字を相互変換しながら UTF-8 互換のエンコーディングにエンコードするのに使用します。utf-8 という名前がついていますが、実際にはすべての Unicode 文字をエンコードするわけではなく、サブセットとして、

  cp932 + x-sjis-{キャリア} + (他キャリアからのマッピング)

に含まれる文字セットをエンコードし、他キャリアの分は自動で自キャリアの対応する絵文字に変換します。

例えば、

  # UTF-8 で KDDI の "晴れ" 絵文字
  my $bytes = "\xEE\xBD\xA0";
  Encode::from_to($bytes, "utf-8" => "x-utf8-docomo");
  # $bytes は DoCoMo の "晴れ" 絵文字を UTF-8 でエンコードしたもの

これらのエンコードは基本的にラウンドトリップ可能ですが、UTF-8のサブセットであるため、CP932 および携帯絵文字以外の文字をエンコード・デコードすることはできません。また、各キャリア間で変換不可能な文字についても対応するマッピングが存在しない場合がありますので、Encode::JP::Mobile::FB_CHARACTER や カスタムコールバックなどを利用して代替文字を表示する必要があります。

x-utf8-airh, x-utf8-airedge は存在しません。Willcom 端末は utf8 でページを表示している場合には絵文字の表示ができないようです。詳しくは http://mobilehacker.g.hatena.ne.jp/tokuhirom/20080118/1200637282 を参照。Willcom 端末で絵文字を表示させたい場合には x-sjis-airh, x-sjis-airedge をご利用ください。

x-sjis-docomo-raw, x-sjis-softbank-raw, x-sjis-softbank-auto-raw, x-sjis-kddi-cp932-raw, x-sjis-kddi-auto-raw, x-sjis-airh-raw

x-sjis-* のエンコーディングには -raw suffix がついたバージョンのエンコーディングも用意されています。

これは、FALLBACK によって文字コードを判定するような用途を想定しています。

x-utf8-*-raw が用意されていないのは、utf-8 エンコーディングがそれにあたるからです。

MIME-Header-JP-Mobile-DoCoMo, MIME-Header-JP-Mobile-DoCoMo-SJIS, MIME-Header-JP-Mobile-KDDI, MIME-Header-JP-Mobile-KDDI-SJIS, MIME-Header-JP-Mobile-SoftBank, MIME-Header-JP-Mobile-SoftBank-UTF8, MIME-Header-JP-Mobile-SoftBank-SJIS, MIME-Header-JP-Mobile-AirH, MIME-Header-JP-Mobile-AirH-SJIS

これらはメールの件名などで利用する MIME エンコーディング用です。詳細は Encode::JP::Mobile::MIME をご覧下さい。

UNICODE PROPERTIES

モジュールを ':props' フラグつきで import すると、以下のUnicode プロパティが利用できるようになります。

  • InMobileJPPictograms

    Encode::JP::Mobile であつかうすべての絵文字にマッチします。

  • InDoCoMoPictograms

  • InKDDIPictograms

  • InSoftBankPictograms

  • InAirEdgePictograms

    これらはそれぞれそのキャリアの表示できる絵文字にマッチします。

  • InKDDICP932Pictograms

  • InKDDIAutoPictograms

    InKDDICP932Pictograms, InKDDIAutoPictograms はそれぞれ、x-sjis-kddi, x-sjis-kddi-auto のマッピングによって得られる Unicode 私用領域のレンジをあらわし、InKDDIPictograms はその双方を含みます。

  • InKDDISoftBankConflicts

    SoftBank と KDDI (x-sjis-kddi を利用した場合) の Unicode 私用領域の重複する文字列を含んでいます。

BACKWARD COMPATIBLITY

バージョン 0.07 から、モジュールで利用するエンコーディング名を x-sjis-* のように変更しました。以前の shift_jis-* というエイリアスも残してありますが、将来のリリースで削除される予定です。

バージョン 0.25 から、x-sjis-kddi-cp932-raw(旧称 x-sjis-kddi)は DoCoMo との絵文字相互変換をおこなわなくなりました。

AUTHORS

Tatsuhiko Miyagawa <miyagawa@bulknews.net> with contributions from:

Tokuhiro Matsuno

Naoki Tomita

Masahiro Chiba

LICENSE

This library is free software, licensed under the same terms with Perl.

SEE ALSO

Encode, HTML::Entities::ImodePictogram, Unicode::Japanese

http://coderepos.org/share/wiki/Mobile/Encoding http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/basic/ http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/extention/ http://www.au.kddi.com/ezfactory/tec/spec/3.html http://developers.softbankmobile.co.jp/dp/tool_dl/web/picword_top.php http://www.willcom-inc.com/ja/service/contents_service/club_air_edge/for_phone/homepage/index.html http://www.nttdocomo.co.jp/service/mail/imode_mail/emoji_convert/ http://www.nttdocomo.co.jp/binary/pdf/service/mail/imode_mail/emoji_convert/pictogram.pdf http://broadband.mb.softbank.jp/service/3G/mail/pictogram/convert.pdf