网页文本采集大师 V3.1 使用说明
本软件可以采集很多网站上的文章,
而且操作非常简单,相信你通过以下几步的学习,就能很快掌握网上文章或小说的采集了。
1、普通采集方式
现在我们以采集新浪读书网上作者明晓溪的
《会有天使替我爱你》这一部小说为例,来说明软件的操作步骤:
第一步:查找你要采集文章的目录索引页
现在,我们先到新浪网找到该小说的目录页,地址如下:
http://vip.book.sina.com.cn/book/index_39023.html
将上面找到的地址复制到软件的文章目录页输入框后回车打开这个目录页。
如果是直接通过本软件打开新浪读书网,再找到这部小说目录的,就不用输入了。
第二步:查找小说或文章章节链接关键字,获取采集文章网址列表
现在我们从刚才打开的目录页中,找到“楔子”的链接地址(鼠标移到链接上,即可在软件状态栏看到,你也可以右键点击此链接,用复制快捷方式得到此链接),并查看其格式为:
http://vip.book.sina.com.cn/book/chapter_39023_21099.html
接着再往后找一个后面一些的地址,我们就看“尾声(3)”的地址,其链接地址为:
http://vip.book.sina.com.cn/book/chapter_39023_21211.html
现在我们比较上面两个链接地址,找到它们的公共部分,这就是我们需要的链接关键字,在这个目录页中,它是区别于是其它链接地址的:
http://vip.book.sina.com.cn/book/chapter_39023
我们将其输入到链接关键字输入框中 ,也可以用鼠标拖一个地址到链接关键字输入框中,再删除后面的非公共部分。
上面两步操作完后,就可点击软件右上角的1.获取列表按钮 获取小说或文章所有章节所在地址了。
第三步:查找正文起始关键字和结束关键字
在软件左侧网址列表中,点击第一个地址,在软件右侧打开该章节网页,在正文起始关键字和结束关键字为空的情况下,直接点击获取文章,检查刚获取的整个网页的文字,从中找出正文的起始关键字和结束关键字,这里我们可以看到,该小说的每一节 正文都是以“会有天使替我爱你 >”这一段文字开始的,而结束都是以“上一章作品目录”这几个字符结束的,因此,我们相应的在软件的正文起始关键字和结束关键字输入框中分别复制刚才找到的这两个关键字(词),然后再点击一下获取文章,看看是不是就是你所要的结果了 ,同时,也可测试一下其它章节,是否都获取成功,注意正文起始和结束关键字在该页面中的唯一性,如果不唯一,获取正文可能不正确。
第四步:确定文章采集后的保存目录
这一步比较简单,你只要在软件左下侧找到一个你要保存的目录,或者直接点击目录浏览框右键菜单,新建一个目录也可 ,在这里,你可以先在网页浏览框中选定小说名称字符串,后再点击新建目录菜单,此时就可默认使用小说名称作保存文件夹名称了。
第五步:确定文章的标题起始关键字和结束关键字
这一步其实也就是为了确定每个文件名的样式的,我们看到刚才获取的文章,第一行 基本就是该章节的标题,软件在用户未输入标题起始和结关键字的情况下,将会默认使用首行文字为文件名,因而在此,我们就不用输入标题采集关键字了,程序会自动识别的,你可以点击一下保存文章,试试效果的。
另外本软件对于以“http://dict.baidu.com/s?wd=赛”形式出现的采集网址,你如果不输入标题起始和结束关键字,程序将会自动以“赛.txt”为文件名进行保存。
还有,如果你在点击批量抓取按钮右键选择以定长序号为文件名保存的话,也可不用输入标题起始关键字和结束关键字。
注意正文起始关键字、结束关键字、标题起始关键字和结束关键字都并非必须输入项,要针对不同的网站,不同的情况选择是否输入。
第六步:开始批量抓取
待上面的步骤都准备好了,我们就可以开始采集了,采集时,你还可以选择是否自动重新整理采集的文章,如果选择的话, 程序会在采集后保存前对所采集的文章自动段落重排一次,对于有些网站的文章,段落重排后会方便阅读一些。
现在你就可以泡上一杯茶,稍等片刻,程序就会自动一章章、一节节为你采集保存好了。以后你就可以离线阅读或用U盘带到其它地方,也可放到MP4、手机上阅读了。
2、专业采集方式
第一步、第二步:文章列表的采集方式同普通采集方式,而且也还是要在普通采集方式下才能采集到。
第三步:查找正文起始关键字和结束关键字
在专业采集方式下,正文起始和结束关键字以及标题的起始和结束关键字的和普通采集方式有些不同,不是看网页确定关键字,而是要看网页源代码确定关键字,方法是,首先,选中软件选项 菜单最下边的专业采集模式菜单,或者按键盘上的F12快捷键也可,之后,你再打开网址列表中的任意一个列表,
第
四步:确定文章的标题起始关键字和结束关键字
提示:你如果仍操作不来的话,请点击软件文件菜单下的打开任务,用我原来采集的一个任务作为示例,你什么都不用输入,只要先点击一下获取列表,再点击一下批量采集就行了。
软件注册方法:
本软件为共享软件,如果你不注册的话,也可无限期的使用全部功能,但是在每次打开时会有一个注册提示,并且在采集文章时,你不能一次性采集50篇以上的文章,如果你要完全正常的使用本软件,并获得作者的技术支持的话,建议你注册购买本软件,注册费不贵,只要30元人民币,注册费支付方法:
1、通过邮政汇款:
收款人名-包学平
汇款地址-浙江省松阳县财政局综合科
邮政编码-323400
2、通过银行或邮政储蓄电汇:
建设银行-帐号6222 8014 9808 1000 375(推荐)
邮政储蓄-帐号60 3437 1102 1015 0187(推荐)
开 户 行-浙江省松阳县支行
3、到我的淘宝网店上购买:
地址-http://shop36881684.taobao.com
到淘宝网店翙买可享受先获得注册码,再付款的权力,保证安全放心。
4、到软行天下网上软件注册中心注册
地址-http://www.sharebank.com.cn/soft/soft_view.php?id=33323
网上注册中心支持更多的银行付款方式,软行天下网上软件注册中心是一家经营多年的国内最有实力的软件注册代理机构,非常值得信赖。
友情提示:无论你采用何处付款注册方式,请你千万都要在付款的同时告诉我你的联系方式和软件注册源码,有些付款方式是会在付款时要求你告知的,而有些是要求你通过其它方式比如发短信或发邮件等方式告诉我的,请你千万不要忘了。
更多说明
请看软件安装目录中的自述说明或到我们网站http://abc.sy520.com/的论坛上去查看。
版权所有(C)2008-2010 浙江文胜(升)软件工作室 包学平