网页文本采集大师软件简要使用说明 假定我们要抓取新浪读书网上的“孩子,爸爸其实不想和妈妈离婚”这一部小说,如下图 第一步:查找要采集的网页目录 这里,我们就是要先到新浪网找到该小说的目录页,目录地址如下: http://vip.book.sina.com.cn/book/index_66681.html 第二步:输入文章目录页地址 复制上面的地址到软件的文章目录页输入框,然后回车,用软件打开该网页。 第三步:查找链接关键字 找到第一章第一节的链接地址,并查看其格式为: http://vip.book.sina.com.cn/book/chapter_66681_47253.html 再往后找后面一些的地址,注意供VIP会员资格浏览的网页只能VIP会员才能阅读,这个我们的软件要下载这样的文章的话,也必须你是VIP会员才行,所以我们找前面一些的,这里以第十一章第十一节作为我们要抓取的最后一章,其链接地址为: http://vip.book.sina.com.cn/book/chapter_66681_49404.html 现在我们比较上面两个链接地址,找到它们的公共部分: http://vip.book.sina.com.cn/book/chapter_66681_4 于是将其输入到链接关键字输入框中。 第四步:获取采集文章列表 这步很简单,点击一下获取列表按钮就行了,点击后你将会在软件左侧的网址列表框中看到很多网址了 第五步:输入正文起始和结束关键字 在软件左侧网址中,选择第一个,点击,在软件右侧打开该网页,并删除软件正文起始关键字和结束关键字输入框中的文字,直接点击获取文章,检查获取整个网页文字的样子,从中找出正式的起始关键字和结束关键字,这里我们可以看到,该小说的每一节都是以“爸爸其实不想和妈妈离婚 >”这一段文字开始的,而结束都是以“上一章”这3个字符结束的,因此,我们相应的在软件的正文起始关键字和结束关键字输入框中分别复制刚才找到的这两个关键字(词),然后再点击一下获取文章,看看是不是就是你所要的结果了。 第六步:确定采集文章保存目录 这一步比较简单,你只要在软件左下侧找到一个你要保存的目录,或者直接点击目录浏览框右键菜单,新建一个目录也可。 第七步:确定文章的标题起始关键字和结束关键字 这一步其实也就是为了确定每个文件名的样式的,我们看到刚才获取的文章,第一行就是“第一章 离婚 第一节”,其实第一行就可以当成文件标题了,因此在此,我们就不用输入标题采集关键字了,程序会自动识别的,你可以点击一下保存文章,试试效果的。 第八步:开始批量抓取 好,上面的步骤都准备好了,现在我们就可以开始采集了,采集时,你还可以选择是否自动重新整理采集的文章,如果选择的话,会方便以后阅读一些,好,现在就让我们泡上一杯茶,等待结果吧。
|