鍍金池/ 問(wèn)答/PHP  HTML/ php 正則匹配 反斜杠+數(shù)字 出現(xiàn)異常,求解

php 正則匹配 反斜杠+數(shù)字 出現(xiàn)異常,求解

我在修改一個(gè) WordPress 插件,需要從 WordPress 生成的網(wǎng)頁(yè)源碼里截取一部分。但是源碼里偶爾有 反斜杠+數(shù)字 的情況,匹配的結(jié)果異常,結(jié)果里會(huì)吞掉 反斜杠和后面的兩位數(shù)字。

<?php
header('Content-type: text/html; charset=UTF8');

// 自己寫 demo 測(cè)試,不管單引號(hào)還是雙引號(hào)定義的字符串,都不會(huì)“吞掉”
$str="
<div class=\"post_t\">
文本文本
\f
\1
\9999
<div></div>
</div>";
$regexp="/\"post_t\".*<div/s";
preg_match($regexp, $str ,$match);
echo $match[0];

// 但是插件里的這個(gè)字符串變量不是我定義的,匹配結(jié)果也不一樣:
// \f 反斜杠后面是字母的話沒有變化,輸出 \f
// \1 反斜杠和數(shù)字一起消失,最多消失前兩個(gè)數(shù)字,所以輸出是空的
// \9999 輸出 99

我百思不得其解,就算是反斜杠部分被當(dāng)成了其他進(jìn)制,也不該吞掉啊。不知各位有沒有遇到過(guò)這個(gè)情況,有什么經(jīng)驗(yàn)嗎,謝謝!

回答
編輯回答
葬愛

被作為轉(zhuǎn)義字符處理了:反斜杠與數(shù)字組合表示對(duì)前面匹配的捕獲組的引用。
看個(gè)正則例子 (\d)\1:它將匹配所有兩個(gè)連續(xù)相等數(shù)字,其中的\1表示 與第一個(gè)捕獲組 \d相同的值。
對(duì)于字符串 ss22345, 它將匹配到 22. 反斜杠后的數(shù)字表示是對(duì)第幾個(gè)捕獲組的引用,正則一般最多只能取到99個(gè)捕獲組。
故,你的字符串中的\1\99被解析為捕獲組引用了,而第一個(gè)捕獲組合第九十九個(gè)捕獲組根本不存在,它默認(rèn)作為空處理了,就是你說(shuō)的“吞掉”

2018年4月27日 07:43