请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 教你如何使用网文采集大师中的专业采集模式
 □ 内容: 1楼

      都说电脑要双核的,在最新版本的网文采集大师软件中,我们就为其新增加了一个强劲的核心--专业采集引擎,拥有了双核的网文采集大师,不但采集速度得到大幅度的提高,同时,采集成功率也得到了大幅度的提高,本领真的是更加强劲了。下面就让我一步步来教你如何用专业采集模式采集网文吧。 
       
        假定我们现在要采集的是网易读书频道中的《三国(四大古典名著首次被著名作家改编成现代白话文本)》小说,假定这部小说是你在上网时不经意间看到的,而且你当时正在看此小说的目录,那么,请随意选择一段文字,再点击浏览器的右键菜单,看是不是有文本采集(J)这个菜单啊,如果有的话就好了,直接点击此菜单,就可打开网文采集大师了,当然如果没有的话,你也可以找到软件在桌面上或开始菜单中的快捷菜单打开进行操作。 
       
        打开了网文采集大师软件后,如果是已经注册过的话,软件主界面的当前浏览页面就会是你的浏览器显示的页面的,如果不是,你也可以在软件左上角的地址输入栏的下拉框中找到的,打开目录页后,我们还要先看看这个小说目录的地址规则,在软件中移动鼠标到目录页中的第一个链接,即第一章 曹操献刀(1)的链接上,我们可以看到,软件状态栏显示的链接URL是:http://data.book.163.com/book/section/0000LWXY/0000LWXY1.html 
      再移到其它章节,或者是最后一个章节,即第九章 斩颜良诛文丑(8) 上,我们可以看到,链接URL是: 
      http://data.book.163.com/book/section/0000LWXY/0000LWXY70.html, 
      如此,我们就知道了这个小说的链接规律,是由: 
       
      http://data.book.163.com/book/section/0000LWXY/0000LWXY1.html 
      http://data.book.163.com/book/section/0000LWXY/0000LWXY2.html 
      http://data.book.163.com/book/section/0000LWXY/0000LWXY3.html 
      ...... 
      http://data.book.163.com/book/section/0000LWXY/0000LWXY70.html 
      
 
      这样变化的,因此我们可以在链接关键字中输入: 
      http://data.book.163.com/book/section/0000LWXY/0000LWXY, 
      也可以直接拖一个链接到关键字输入框中删除后一部分即可。接着我们再点击:1.获取列表 按钮,就可以很快的获得所有文章的链接地址了,检查一下,发现列表第一个链接是: 
      http://data.book.163.com/book/section/0000LWXY/0000LWXY0.html, 
      这是目录页的链接,我们删除它。 
       
        现在,我们可以点击第一个链接打开分析其网页源代码了:http://data.book.163.com/book/section/0000LWXY/0000LWXY1.html 
       在打开的浏览页面中,点击右键,选择 查看源文件(V)菜单,在打开的源文件中查看我们要用的标题起始和结束关键字,以及正文起始和结束关键字。 
       
        我们先在源文件中看看文章的正文前,是否有明显的标题,结果我们发现有:<h1 class="f26s tC">第一章 曹操献刀(1)</h1> 这段代码,我们复制<h1 class="f26s tC">这段代码,然后在源码中查一下,发现这是唯一的,于是,我们可以用这个作标题起始关键字了,结束关键字是从起始关键字处开始搜索的,后面的HTML标签是否唯一没有关系,这里我们就选择</h1>即可。
——
      
争分夺秒背单词 → wing  n.翼,翅膀,翅
 □ 发帖时间:2010-7-7|17:31:24 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:教你如何使用网文采集大师中的专业采集模式
 □ 内容: 2楼

      再接着看源代码,我们可以看到正文内容前有<p class="ti2em">这段HTML标签,经查找,这个标签在源码中是唯一的,我们将其设置为正文起始关键字,在源代码中,内容结束处有<p class="aPages">这段代码,在正文中也是唯一的,因此我们就设其为正文结束关键字。
——
      
争分夺秒背单词 → strife  n.冲突,竞争
 □ 发帖时间:2010-7-7|17:40:14 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:教你如何使用网文采集大师中的专业采集模式
 □ 内容: 3楼

      经过以上几步,我们已经获取了要采集网页的所有链接,要采集网页中的标题起始和结束关键字,还有正文起始和结束关键字,如果要将采集的文本新存一目录,那么,我们还要新建一个目录,点击浏览的页面中,选定“三国”两字,再在目录列表框右键点击新建目录,在目录名输入框中发现已经有三国两字了,确定后就会新建一目录了。 
        好了,万事俱备,我们现在只要选择网文采集大师软件选项菜单下的“专业采集模式”菜单,就可点击“4.批量抓取开始采集了。 
        没几分钟,软件就会成功采集到你要的所有文章了,一切就是这么简单。
——
      
争分夺秒背单词 → magnitude  n.大小;重大;星等
 □ 发帖时间:2010-7-7|17:46:32 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:教你如何使用网文采集大师中的专业采集模式
 □ 内容: 4楼

      如果还不明白,请下载以下任务文件,解压到软件安装目录中,再用软件打开此任务进行测试。 
      点击下载上面的示例任务
——
      
争分夺秒背单词 → dirty  a.脏的;下流的
 □ 发帖时间:2010-7-7|17:51:21 |回复|返回|

 页次:1/1页 每页10  本主题贴数3 分页: 1


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn