帝国cms分页采集正则及过滤技巧

帝国教程 强烈建议 2024-03-04 08:30 94 0

  老实说我并不主张网站采集,不过做为站长,网页采集实在是一大利器。拿帝国CMS来说,采集功能很强大。虽然帝国CMS采集方法简单易学,但还是有朋友为采集规则而绞尽脑汁。以下是我悼念的一些帝国CMS的采集正则。

  从文章的源代码中获得的

  第一种:

  

[1] [2] [3] [4] 下一页

  编写的规则:

  选全部列出式

  区域正则:

  

[!--smallpageallzz--]'>下一页

  链接正则:

  

  --------------------------------------------------------------------------------

  第二种

  采集代码

  

[1] [2] 下一页

  编写的规则:

  选用上下导航式:

  分页区域正则:[!--smallpagezz--]下一页

  分页链接正则:

  新闻正文正则:

  src="http://pagead2.googlesyndication.com/pagead/show_ads.js">

  

  

  [!--newstext--]

  

  

  

  过滤广告正则:

  

[!--ad--]
,

[!--ad--]

  例如:http://www.3edu.net/lw/3/lw_31205.html

  --------------------------------------------------------------------------------

  第三种

  

帝国cms分页采集正则及过滤技巧 【1】 【2】 【3】 【4】 【5】 帝国cms分页采集正则及过滤技巧

  编写的规则:

  "全部列出"式正则设置:

  分页区域正则(无)

  分页链接正则:

  --------------------------------------------------------------------------------

  第四种:

  

  

  选全部列出式

  区域正则: