PHPまとめ - 日本語を扱う

■ 概要

日本語を扱う私たちには文字コードという厄介な問題があります。

アルファベット圏の国とは違い、１文字が１バイトとは限らないので漢字コードやマルチバイトなどと言ったりします。

マルチバイトを扱う関数群は「mb_」で始まります。

■ 対応している文字コード

ASCIIとUTF-8はもちろん、他にも対応文字コードがあります。
▼ 対応文字コードを確認 <?php foreach (mb_list_encodings() as $jcode) echo $jcode," \n";

[表示結果] UTF-8 EUC-JP SJIS eucJP-win SJIS-win CP51932 JIS ISO-2022-JP ISO-2022-JP-MS
使えそうな目ぼしいものをピックアップすると上記のようになります。

日本語ＥＵＣを扱う場合は「CP51932」を、ＪＩＳを扱う場合には「JIS」を、シフトＪＩＳを扱う場合には「SJIS-win」を使ったほうがより多くの依存文字にも対応できるようです。

■ ３つの内部エンコーディング

▼ マルチバイト関連全体の内部エンコーディングはこれで設定または取得できる。
mb_internal_encoding("SJIS-win"); // 内部エンコーディングを設定 echo mb_internal_encoding(); // 現在の内部エンコーディングを確認

▼ 正規表現用のエンコーディングを設定
mb_regex_encoding("SJIS");
設定したエンコーディングに基づいた挙動をするようになる。これが設定されていなければmb_internal_encoding()値が使われる。

"JIS"指定はできないらしい。

▼ メールのメッセージエンコーディングとして使用される
mb_language("ja"); // ISO-2022-JP/Base64 mb_language("Japanese"); // ISO-2022-JP/Base64 mb_language("uni"); // UTF-8/Base64
メール関連の関数mail(), mb_send_mail()へ渡すメッセージのエンコーディングを知らせることで自動的に「Content-type」や「Content-Transfer-Encoding」ヘッダを付加させるようになる？

■ 変換処理

▼ 与えた文字列を文字コード変換して返す $s = mb_convert_encoding($s, "SJIS-win", "SJIS-win,UTF-8,CP51932,JIS");
元の文字コードを認識できていなくても、カンマ区切りで複数指定できるので確率の高そうなものから順に書いておけばよい。

よくあるシフトＪＩＳの半角カタカナと日本語ＥＵＣの漢字の間で起こる文字コードの誤判別問題を考慮して、シフトＪＩＳを先に書いておきます。
というのは半角カタカナのみで送られてくる可能性が、漢字（しかも単独であまり使わない領域）のみで送られてくる可能性よりも高いのと、私の場合はシフトＪＩＳでページ表示するのでシフトＪＩＳで送られてくることがほとんどだから・・　という理由です。

上記はわたしの認識が間違っていました。
文字コードリストを指定する使い方として、まず先に"ASCII,JIS,UTF-8"の順で書いておかないとうまく判別できないようです。

なので
$jcode = mb_detect_encoding($s, "ASCII,JIS,UTF-8,CP51932,SJIS-win", true);
が一番的確な判断をしてくれそうです。したがってエンコード時には
$s = mb_convert_encoding($s, "SJIS-win", mb_detect_encoding($s, "ASCII,JIS,UTF-8,CP51932,SJIS-win", true));
と書くのがいいように思います。

▼ 与えたスカラー変数や配列をすべて変換 mb_convert_variables("SJIS-win", "SJIS-win,UTF-8,CP51932,JIS", $array); mb_convert_variables("SJIS-win", "SJIS-win,UTF-8,CP51932,JIS", $array1, $s, $array2); mb_convert_variables("SJIS-win", "SJIS-win,UTF-8,CP51932,JIS", $_GET, $_POST, $_REQUEST);
変換処理の際には内部で一つにして、より精度の高い変換を行うとか

なので複数の変数を渡す場合は元の文字コードが何なのか知らなくとも、同じであることが前提となる。

▼ かなカナ変換 // かなカナ変換＋半角カナ全角変換 $s = mb_convert_kana($s, "KVC"); // 半角カナ全角変換＋全角英文字半角変換 $s = mb_convert_kana($s, "KVa", "SJIS");
内部エンコーディングを前提とした変換を行う。内部エンコーディングとは別の文字コードなら第三引数に指定できる。

▼ 大小文字間の変換 $s = mb_strtolower('ＡＢＣDEF', "SJIS"); // "ａｂｃdef" $s = mb_strtoupper('Hello world'); // "HELLO WORLD"
内部エンコーディングを前提とした変換を行う。内部エンコーディングとは別の文字コードなら第二引数に指定できる。

■ 探索（サーチ、マッチ）

▼ 指定した文字が最初に現れる位置を返す if (($p=mb_strpos($s, "foo")) !== false) echo "fooが見つかった！"; if (($p=mb_strpos($s, "bar", $offset, "SJIS")) !== false) echo "barがoffset位置以降から見つかった！";
第三・第四にオフセット位置と文字コード指定ができます。
同系統の関数は以下のとおり

mb_stripos() ...大小文字の違いを無視して探索

mb_strrpos() ...指定文字が最後に現れる位置を返す

mb_strripos() ...大小文字の違いを無視して指定文字が最後に現れる位置を返す

■ 分割

パターンで分割してその配列を返す
mb_regex_encoding("SJIS"); foreach (mb_split('と', "愛しさとせつなさと心強さと♪") as $wchar) { echo $wchar," \n"; // "愛しさ" "せつなさ" "心強さ" "♪" } foreach (mb_split('[しな]さと', "愛しさとせつなさと心強さと♪") as $wchar) { echo $wchar," \n"; // "愛" "せつ" "心強さと♪" } foreach (mb_split('と', "愛しさとせつなさと心強さと♪", 3) as $wchar) { // 最大3分割 echo $wchar," \n"; // "愛しさ" "せつなさ" "心強さと♪" }
preg_split()に似てる。pregの方が使いやすそうな気が・・

■ 指定幅で丸める

表示したいけど長すぎて全部は表示できないようなとき、指定した長さで切ってくれる。
echo mb_strimwidth("Hello World", 0, 10, "..."); // "Hello W..."
第四・第五引数には、末尾に付加したい文字および文字コード指定ができる。

■ 文字数を得る

mb_internal_encoding("SJIS-win"); echo mb_strlen('愛しさとせつなさと心強さと♪')," \n"; // 14 echo mb_strlen('愛しさとせつなさと心強さと♪', "ASCII")," \n"; // 28 echo strlen('愛しさとせつなさと心強さと♪')," \n"; // 28
第二引数に文字コード指定ができる。

■ 部分文字列

mb_internal_encoding("SJIS-win"); echo mb_substr('愛しさとせつなさと心強さと♪', 9)," \n"; // "心強さと♪" echo mb_substr('愛しさとせつなさと心強さと♪', 9, 3)," \n"; // "心強さ" echo mb_substr('愛しさとせつなさと心強さと♪', -1)," \n"; // "♪"
第四引数に文字コード指定ができる。

2010(C)Mingw