优化DEDECMS采集程序 支持部分采集只需要两步

织梦教程 强烈建议 2024-02-06 13:39 78 0
  DEDE采集程序原理   DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处——不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。   修改文件dedehttpdown.class.php   要让DEDECMS实现部分采集的功能***简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:   (1)第118行 $this->m_html='';背后加入$this->dataLimit=0;   (2)第 285行$this->m_html .=fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。   使用方法:   $remoteURL=‘   $dh=new DedeHttpDown();   $dh->OpenUrl($remoteURL);   $dh->dataLimit=1024;   $remoteHTML=$dh->GetHtml();   我们只需要在 $dh->OpenUrl($remoteURL);背后加入 $dh->dataLimit=1024;(你想采集的字节大小)即可。   通过这样的方法,我们可以更节约服务器资源。

时间:(2024-02-06 13:39:28)
本站资源均来自互联网或会员发布,如果不小心侵犯了您的权益请与我们联系。我们将立即删除!谢谢!