|
□ 主题: 教你如何使用网文采集大师中的专业采集模式 |
都说电脑要双核的,在最新版本的网文采集大师软件中,我们就为其新增加了一个强劲的核心--专业采集引擎,拥有了双核的网文采集大师,不但采集速度得到大幅度的提高,同时,采集成功率也得到了大幅度的提高,本领真的是更加强劲了。下面就让我一步步来教你如何用专业采集模式采集网文吧。 假定我们现在要采集的是网易读书频道中的《三国(四大古典名著首次被著名作家改编成现代白话文本)》小说,假定这部小说是你在上网时不经意间看到的,而且你当时正在看此小说的目录,那么,请随意选择一段文字,再点击浏览器的右键菜单,看是不是有文本采集(J)这个菜单啊,如果有的话就好了,直接点击此菜单,就可打开网文采集大师了,当然如果没有的话,你也可以找到软件在桌面上或开始菜单中的快捷菜单打开进行操作。 打开了网文采集大师软件后,如果是已经注册过的话,软件主界面的当前浏览页面就会是你的浏览器显示的页面的,如果不是,你也可以在软件左上角的地址输入栏的下拉框中找到的,打开目录页后,我们还要先看看这个小说目录的地址规则,在软件中移动鼠标到目录页中的第一个链接,即第一章 曹操献刀(1)的链接上,我们可以看到,软件状态栏显示的链接URL是:http://data.book.163.com/book/section/0000LWXY/0000LWXY1.html 再移到其它章节,或者是最后一个章节,即第九章 斩颜良诛文丑(8) 上,我们可以看到,链接URL是: http://data.book.163.com/book/section/0000LWXY/0000LWXY70.html, 如此,我们就知道了这个小说的链接规律,是由: http://data.book.163.com/book/section/0000LWXY/0000LWXY1.html http://data.book.163.com/book/section/0000LWXY/0000LWXY2.html http://data.book.163.com/book/section/0000LWXY/0000LWXY3.html ...... http://data.book.163.com/book/section/0000LWXY/0000LWXY70.html 这样变化的,因此我们可以在链接关键字中输入: http://data.book.163.com/book/section/0000LWXY/0000LWXY, 也可以直接拖一个链接到关键字输入框中删除后一部分即可。接着我们再点击:1.获取列表 按钮,就可以很快的获得所有文章的链接地址了,检查一下,发现列表第一个链接是: http://data.book.163.com/book/section/0000LWXY/0000LWXY0.html, 这是目录页的链接,我们删除它。 现在,我们可以点击第一个链接打开分析其网页源代码了:http://data.book.163.com/book/section/0000LWXY/0000LWXY1.html 在打开的浏览页面中,点击右键,选择 查看源文件(V)菜单,在打开的源文件中查看我们要用的标题起始和结束关键字,以及正文起始和结束关键字。 我们先在源文件中看看文章的正文前,是否有明显的标题,结果我们发现有:<h1 class="f26s tC">第一章 曹操献刀(1)</h1> 这段代码,我们复制<h1 class="f26s tC">这段代码,然后在源码中查一下,发现这是唯一的,于是,我们可以用这个作标题起始关键字了,结束关键字是从起始关键字处开始搜索的,后面的HTML标签是否唯一没有关系,这里我们就选择</h1>即可。
|
——
——
|
发帖时间:2010-7-7|17:31:24 |
|返回| |
|