当前位置:主页 > 网站运营经验 > 网站收录阶段 > 正文

禁止百度蜘蛛爬取服务器

问题描述:
由于百度蜘蛛的大量抓取,导致服务器性能下降,最后宕机;而它抓取的还是一些不重要的业务
 
 
解决办法:
从入口文件中禁止,如果是百度的抓取就让它直接返回,不让它进入程序中消耗服务器资源
主要用到的得到user-agent百度的为“Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

php程序段
  1. list(,$controller,$function) =  explode('/', $_SERVER['SCRIPT_URL']);  
  2. //禁止百度蜘蛛抓取tl 和cl目录  
  3. $user_agent = $_SERVER['HTTP_USER_AGENT'];  
  4. if($user_agent == 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' && preg_match('/^(tl*)|^(cl*)/',$controller)) {  
  5.     die('不需要抓取');  
另外从apache中直接禁掉所有蜘蛛的抓取可以用以下配置

BrowserMatch "Spider" bad_bot

版权保护: 本文由 主页 原创,转载请保留链接: http://www.top.kim/shoulu/48.html

博客主人topkim
域名投资铁定律
第一,一定要选择大注册局的后缀。
第二,一定要选择三位顶级后缀。
第三,一定要选择备案的后缀。
第四,一定要选择资源多的后缀。
第五,一定要选择,适合终端运营建站的后缀,
网站运营人
   网站运营没有一个固定的规则,网站运营应该根据公司核心需要蝶变成不同的运营方式,我不是很认可公司依托百度运营为主,我认为依托百度的推广不是最佳的策略,苦苦运营多少年都始终依托在别人的控制之下这样的运营没有创新。不管是PC端流量,还是手机端流量,微信端流量,APP流量,品牌建设也好,他们并不复杂,复杂的是制定好运营思路,让其落实执行下去,复杂的是不要建立在现有的运营知识结构下止步不前,而是不断入微的观察发现新的趋势,新的有效的运营方法并且应用到公司项目上,复杂的是研究透竞争公司的运营体系,把他的长处拓展到自己公司的运用体系上。一家,两家,三家,只要你认真研究行业里做的最好的前三家行业竞争对手的系统并把其长处拓展移植过来,你不想成为行业NO.1都很困难,永远记住,别人有的,我也有,别人没有的我也有。用坚定的韧性去执行项目落地,永远要比别人多一分。这就是我多年的核心运营秘密,凭借这个我曾经一不小心在很短的时间内把网站运用到8000多世界排名,因为达到了这么高的成绩,我马上换了新的挑战,又把全国顶级难度的关键词优化到了首页达到后我又换了新的工作。再后来我坚持一个项目达8年,回首过去,原来我做出的世界排名前8000的成绩,后面的接任者根本镇守不住(后来公司老总联系我分析原因,我一看我做的工作架构都让他们改变了,连我创造的架构都毁,我也没在做分析原因),原来我优化到首页的关键词,(我离开公司时,曾经指导公司3个月,即便这样,时间久了他们还是忘记了我的叮嘱)我知道,我做出来的成绩很少有人能够守住,我觉的我的职业生涯给别人添了麻烦,为什么我帮公司做出成绩却不帮公司守住成绩?一个完善的职业经历应该是做的出来,还要守得住!
  • 文章总数
  • 20256访问次数
  • 建站天数
  • 标签

    友情链接