请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 网文采集大师 采集《水浒传》小说示例
 □ 内容: 1楼

      首先到百度上搜索下小说下载地址,如果没有专门的TXT文件下载的,那么找在线阅读的,我刚找到一个地址: 
      http://www.purepen.com/shz/ 
       
      打开一看,页面非常整洁,极利于采集,于是选择一部分文字,点击浏览器右键菜单中的文本采集菜单,马上打开网文采集大师,在软件文章目录页地址栏中复制入地址: 
       
      http://www.purepen.com/shz
 
      再检查一下各目录的链接地址,发现前面都有:http://www.purepen.com/shz/ 
      所以在链接关键字中也复制入上面的地址,即可点击按钮1:获取列表了。 
      采集到的地址如下: 
       
      http://www.purepen.com/shz/001.htm 
      http://www.purepen.com/shz/002.htm 
      http://www.purepen.com/shz/003.htm 
      ...... 
      http://www.purepen.com/shz/119.htm 
      http://www.purepen.com/shz/120.htm
 
       
      看来这是一百二十回本的。
——
      
争分夺秒背单词 → gas  n.煤气;气体;汽油
 □ 发帖时间:2011-1-21|16:11:41 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师 采集《水浒传》小说示例
 □ 内容: 2楼

      接下来打开任何一个阅读页面,发现也是一样的非常整洁,对于这种极其简洁的网页,我们一般用普通采集模式即可,先打开一个阅读页面测试一下,在未输入正文起止关键字的情况下,点击按钮2:  
      获取文章
,就可看到网文文本已经转入到下面的文本编辑框了,再检查发现我们需要的文字就是处在两个“《水浒传》目录”中的那部分文字,所以在正文起始和结束关键字中都输入:《水浒传》目录,不用担心前后两个一样的关键字会引起出错,软件是按前一个关键字从前截取,后一个关键字从后截取的,测试一下,就会发现,截取的就是我们需要的那段文字了。
——
      
争分夺秒背单词 → Fahrenheit  n.华氏温度计
 □ 发帖时间:2011-1-21|16:16:44 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师 采集《水浒传》小说示例
 □ 内容: 3楼

      再接下来,我们所做的就是点击按钮4:批量抓取了,连标题关键字也不用输入,直接用软件自动从所获取的文本中的首行作为文件名了,稍等片刻,软件就自动全部将这部小说下载到你的电脑中供你离线阅读和收藏了。
——
      
争分夺秒背单词 → sincere  a.真诚的;真挚的
 □ 发帖时间:2011-1-21|16:33:41 |回复|返回|

 页次:1/1页 每页10  本主题贴数2 分页: 1


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn