PHP 判斷/移除 BOM(UTF-8)

BOM: 萬國碼檔案簽名 BOM (Byte Order Mark, U+FEFF)

BOM 的內容可以表示 UNICODE 是哪種編碼, 但是在接收到的檔案, 要拆解後寫入 DB, 看到 BOM 就覺得有點 ooxx.

在 utf8_encode 看到兩段程式可以來測試寫入/移除 BOM.

將寫入的檔案內容前加 BOM

<?php
function writeUTF8File($filename,$content)
{
    $f = fopen($filename, 'w');
    fwrite($f, pack("CCC", 0xef,0xbb,0xbf));
    fwrite($f,$content);
    fclose($f);
}
?>

移除 BOM function

<?php
function removeBOM($str = '')
{
    if (substr($str, 0,3) == pack("CCC",0xef,0xbb,0xbf))
        $str = substr($str, 3);

    return $str;
}
?>

由此上述 BOM = pack("CCC",0xef,0xbb,0xbf), 所以移除 BOM 的寫法可用上面的 removeBOM function 或下述其一:

str_replace("\xef\xbb\xbf", '', $bom_content);
preg_replace("/^\xef\xbb\xbf/", '', $bom_content);

另外看到判斷此字串是不是 UTF-8 的 function:

<?php
function isUTF8($string)
{
    return (utf8_encode(utf8_decode($string)) == $string);
}
?>

作者: Tsung

對新奇的事物都很有興趣, 喜歡簡單的東西, 過簡單的生活. 檢視「Tsung」的全部文章

在〈PHP 判斷/移除 BOM(UTF-8)〉中有 11 則留言

yanren表示:

2009 年 03 月 30 日21:05:30

是否檔案(例如：字幕)也能判斷是不是UTF-8編碼嗎？(含 BOM 與不含 BOM 兩種)

回覆
Tsung表示:

2009 年 03 月 30 日21:53:01

可以~ 🙂

回覆
yanren表示:

2009 年 03 月 30 日22:47:15

您好，想請教您，如果是要在 Linux 下判斷檔案是否為 UTF-8 編碼(含 BOM 或不含 BOM 都要可判斷)，
是否有比較好的方式呢？(非使用PHP)

回覆
1. 楊禮軒表示:
  
  2019 年 08 月 31 日17:43:21
  
  搞了一整天的東西，終於在這裡找到解決，謝謝您的分享
Tsung表示:

2009 年 03 月 31 日03:36:37

xxd -l 3 -p filename
如果出來結果是 efbbbf => BOM
不是則不是 BOM

回覆
Hank表示:

2009 年 03 月 31 日09:26:26

您好，謝謝！
我的疑問是並非所有檔案在UTF-8時都會加上efbbbf的 BOM，
所以，如果檔案 header 並沒有含入 efbbbf，
是否有辦法能判斷是不是UTF-8格式呢？

回覆
Tsung表示:

2009 年 03 月 31 日09:40:59

此文最下面那個 function 就可以判斷那篇是否是 UTF-8 的文章.
或者使用 iconv -f utf-8 -t big5 filename, 如果能順利轉換, 那也代表這篇文章是 UTF-8.

回覆
yanren表示:

2009 年 03 月 31 日11:49:49

謝謝您的回答。
iconv 的誤判率其實蠻高的，目前我還在找除了加上BOM，還有什麼方法或工具可以用來自動偵測檔案的編碼為 UTF-8 或是 BIG5、GB2312、ISO8859-1、....等。
看來要能自動偵測世界各國的編碼並不是那麼容易 XD

回覆
Tsung表示:

2009 年 03 月 31 日11:59:37

嗯嗯, 偵測世界各國編碼, PHP 有一個 function, 不過準確率確實也有點問題.
如果您有找到, 也勞煩您跟小弟指導一下, 我也蠻想知道怎麼解決此問題的. Orz..

回覆
chccd表示:

2019 年 05 月 29 日00:46:02

Hello~我是NC網頁設計師，現在是半夜12點，謝謝您這一篇文章讓我抓出某第三方支付API中無法json_decode的問題~

回覆
1. Tsung表示:
  
  2019 年 05 月 29 日08:42:28
  
  呵呵，辛苦了~ 🙂