请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 如何防止自己网页的内容被采集
 □ 内容: 1楼

      防止采集第一种方法:在文章的头尾加上随机不固定的内容。网站采集者在采集时,通常都是指定一个开始位置和一个结束位置,截取中间的内容。 
       
      比如你的文章内容是"有讯软件信息网",则随机内容的加入方法: 
       
      <div id="xxx">随机内容1+有讯软件信息网+随机内容2</div> 
       
      注:随机内容1和随机内容2每篇文章只要随机显示一个就可以了.  
       
      防止采集第二种方法:在文章正文页面插入重复特征头尾代码的注释。 
       
      文章列表加随机不同的链接标签,比如<a href="" class="xxx"><a class="xxx" href=''''>,当然,这个可以用正则去掉,但足于对付通用的CMS采集系统了. 
       
      <!--<div id="xxx_文章ID">--> 
       
      其它标题或内容... 
       
      <!--<div id="xxx_文章ID">--> <div id="xxx_文章ID"> 
       
      随机内容1欢迎有讯软件信息网随机内容2 
       
      <--</div>--></div><--</div>--> 
       
      即:正文头尾或列表头尾添加<!--重复特征代码--> 
       
        
       
      防采集第三种方法:加在文章列表的随便链接样式。 
       
      目的是让采集的人无法抓到列表链接规律,无法批量进行采集. 
       
      例如: 
       
      <a href="xxx.html">标题一</a> 
       
      <a alt="xxx" href="xxx.html">标题二</a> 
       
      <a href=''xxx.html''>标题三</a> 
       
      <a href=xxx.html>标题四</a> 
       
      如果把以上三种方法全部用上,我想一定能让很多想采集的人因.无能无力而放弃采集你的网站。 
      
——
      
争分夺秒背单词 → ball  n.球,球状物;舞会
 □ 发帖时间:2013-5-8|16:52:07 |回复|返回|

 页次:1/1页 每页10  本主题贴数0 分页: 1


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn