帝国cms分页采集正则及过滤技巧

帝国教程强烈建议 2024-03-04 08:30 481 0

　　老实说我并不主张网站采集，不过做为站长，网页采集实在是一大利器。拿帝国CMS来说，采集功能很强大。虽然帝国CMS采集方法简单易学，但还是有朋友为采集规则而绞尽脑汁。以下是我悼念的一些帝国CMS的采集正则。

　　从文章的源代码中获得的

　　第一种：

[1] [2] [3] [4] 下一页

　　编写的规则：

　　选全部列出式

　　区域正则：

[!--smallpageallzz--]'>下一页

　　链接正则：

　　

　　--------------------------------------------------------------------------------

　　第二种

　　采集代码

　　
[1] [2] 下一页
《

　　编写的规则：

　　选用上下导航式：

　　分页区域正则：[!--smallpagezz--]下一页

　　分页链接正则：
　　新闻正文正则：

　　src="http://pagead2.googlesyndication.com/pagead/show_ads.js">

　　

　　

　　[!--newstext--]

　　

　　

　　

　　过滤广告正则：

　　
[!--ad--],

[!--ad--]

　　例如：http://www.3edu.net/lw/3/lw_31205.html

　　--------------------------------------------------------------------------------

　　第三种

【1】【2】【3】【4】【5】