1 使用正则表达式来检测HTML 是否关闭
代码片段
解释:
/<([a-zA-Z0-9]+)\\s*[^\\/>]*>/这个模式是用来匹配HTML 的标记(如:<head>、
<div>、<div id="main">等等,但是除了<br/>这种)的,并且在$start_tags 保持着标签
的名字(如:head、div 等)。而/<\\/([a-zA-Z0-9]+)>/这个模式是用来匹配闭合的HTML
标记(如:</head>,</div>等)的。并且在$end_tags 中保持这闭合的标签名。然后我们用
count($start_tags[1]) != count($end_tags[1])这个条件语句来判断开始的标记跟闭合的
标记是否相等,不相等就说明没闭合。最后用in_array($start_tags[1][$i], $end_tags[1])
来判断开始标跟闭合的标记是否相等。至此,我们就完成了HTML 的匹配了!
2 匹配E-mail 格式
代码片段
解释:
不要被
/^[\w\d!#$%&'*+-\/=?^`{|}~]+(\.[\w\d!#$%&'*+-\/=?^`{|}~]+)*@([a-z\d][-a-z\d]*[az\
d]\.)+[a-z][-a-z\d]*[a-z]$/
这条模式给吓跑了, 其实也很简单的。前部分
[\w\d!#$%&'*+-\/=?^`{|}~]+(\.[\w\d!#$%&'*+-\/=?^`{|}~]+)*只是匹配符合RFC-2882 标
准的E-mail 地址允许出现的字符,就是英文字母,数字跟一些符号,有兴趣可以查询
RFC-2882 手册,而([a-z\d][-a-z\d]*[a-z\d]\.)+就是匹配HOST 的。最后[a-z][-a-z\d]*[a-z]
就是匹配顶级域名的(如:.com、.org)。
3 非贪心模式
有时候使用正则表达式的时候,你会发现有以下的问题:
代码片段
很惊奇的你会发现匹配的是这样的内容"hello", Jack say: "Hi",而不是"hello"和
"Hi"。这就是贪心匹配引起的。在贪心匹配中,正则表达式会尽可能的匹配最多的字
符,所以出现了第一种情况,但是我们想要的是第二种情况,那我们要怎么做呢?
我们可以使用非贪心匹配,将刚才的模式改为/".*?"/这样就可以看见我们想要的
结果了。*?这个就是非贪心匹配模式。还有另外一种就是+?。
? *?:前面的字符可以出现任意多次,但是遇到*?后的一个字符即停止匹配。
? +?:前面的字符可以出现一次或者多次,但是遇到+?后的一个字符即停止匹
配。
4 检测一个用户密码是否安全
代码片段
解释:
在本例中,我们使用了/(?=.*[0-9])(?=.*[a-z])(?=.*[A-Z]).{8,16}/模式来匹配我们的
密码。在这个模式中,我们使用了正则表达式中的前瞻模式(?=)。(?=.*[0-9])这个是匹
配密码中有数字,而(?=.*[a-z])是匹配密码中有小写字母,最后(?=.*[A-Z])就是匹配密
码中有大写字母。而.{8,16}这个就是匹配密码是由8 至16 个字符组成的。那么我们
的密码就需要有数字,大写字母和小写字母组成的就属于安全的密码了~
5 匹配一个网站中的所有链接
代码片段
在这个例子中,我们想用file_get_contents 来取得一个网页的内容。然后用
str_replace("\n", "", $html)把所有的换行去掉。再用preg_replace('/<a/i', "\n<a", $html)和
preg_replace('/<\/a>/', "</a>\n", $html)来把所有的<a href="http://www.php1.cn/"> 最后就用preg_match_all('/<a\s*.*>.*?<\/a>/', $html, $matches) 匹配链接模式。
/<a\s*.*>.*?<\/a>/就是匹配<a href="http://www.php1.cn/"> 么要把<a href="http://www.php1.cn/"> 是不能匹配换行的,所以就如<a>和</a>不在同一行就不能匹配了!!所以我们要这样做!