¤ 阳光论坛 ¤ - 阅读帖子

请登录［¤ 阳光论坛 ¤］参与讨论

阳光宝宝

□ 主题：本站最新力作--网页文本采集大师发布了

□ 内容：

1楼

      网络信息时代，天天上网，经常会遇到喜欢的文章，或者是小说等，小则一两页，多则几十页，甚至上百页、上千页，这么多文字，要复制下载就显得非常的麻烦，本来要频繁的在记事本和网页浏览器上切换就已经够难过的了，现在还面临着要同时做这种枯燥的机械的动作几十次、几百次的问题，到底有没有更简单、高效、省力的办法呢？

       呵呵，算你找对地方了，我们开发的“网页文本采集大师”就是这么一款专门为你准备的工具软件。

       网页文本采集大师是一款专门用于批量采集、复制或者说是下载网络上的文章或者是小说，甚至是整个网站文字内容的工具，不管是静态的网站，还是动态的网站，只要有文字，它都能够获取，只要输入简单的几条信息，就可自动批量为你下载复制网络文章了，可谓是轻松快捷。

       除了抓取网上的文章，你还可以用它来抓取一些特殊的信息，比如抓取百度词典上的信息，或者你也可以用它抓取一些网页上的链接地址。

       另外本软件还具有很多其它的功能，比如文本段落重排、文本合并、文件批量改名等功能，非常实用，要知道时间就是生命，可以让电脑为你工作的事，你千万不要自己去做，快下载用用看吧，希望你会喜欢上她。

       软件下载地址：gwtsetup.exe
       软件大小：909KB

——

□ 争分夺秒背单词 → marble n.大理石

□ 发帖时间：2009-6-1｜1:05:02

|回复|返回|

阳光宝宝

□ 主题：回应:本站最新力作--网页文本采集大师发布了

□ 内容：

2楼

欢迎大家下载试用，并到本站发表意见和建议

——

□ 争分夺秒背单词 → Englishman n.英国男子

□ 发帖时间：2009-6-1｜1:05:56

|回复|返回|

阳光宝宝

□ 主题：回应:本站最新力作--网页文本采集大师发布了

□ 内容：

3楼

      网页文本采集大师软件简要使用说明

       假定我们要抓取新浪读书网上的“孩子，爸爸其实不想和妈妈离婚”这一部小说，如下图

      第一步：查找要采集的网页目录

       这里，我们就是要先到新浪网找到该小说的目录页，目录地址如下：

       http://vip.book.sina.com.cn/book/index_66681.html

      第二步：输入文章目录页地址

       复制上面的地址到软件的文章目录页输入框，然后回车，用软件打开该网页。

      第三步：查找链接关键字

       找到第一章第一节的链接地址，并查看其格式为：

       http://vip.book.sina.com.cn/book/chapter_66681_47253.html

       再往后找后面一些的地址，注意供VIP会员资格浏览的网页只能VIP会员才能阅读，这个我们的软件要下载这样的文章的话，也必须你是VIP会员才行，所以我们找前面一些的，这里以第十一章第十一节作为我们要抓取的最后一章，其链接地址为：

       http://vip.book.sina.com.cn/book/chapter_66681_49404.html

       现在我们比较上面两个链接地址，找到它们的公共部分：

       http://vip.book.sina.com.cn/book/chapter_66681_4

       于是将其输入到链接关键字输入框中。

      第四步：获取采集文章列表

       这步很简单，点击一下获取列表按钮就行了，点击后你将会在软件左侧的网址列表框中看到很多网址了

      第五步：输入正文起始和结束关键字

       在软件左侧网址中，选择第一个，点击，在软件右侧打开该网页，并删除软件正文起始关键字和结束关键字输入框中的文字，直接点击获取文章，检查获取整个网页文字的样子，从中找出正式的起始关键字和结束关键字，这里我们可以看到，该小说的每一节都是以“爸爸其实不想和妈妈离婚 >”这一段文字开始的，而结束都是以“上一章”这3个字符结束的，因此，我们相应的在软件的正文起始关键字和结束关键字输入框中分别复制刚才找到的这两个关键字(词)，然后再点击一下获取文章，看看是不是就是你所要的结果了。

      第六步：确定采集文章保存目录

       这一步比较简单，你只要在软件左下侧找到一个你要保存的目录，或者直接点击目录浏览框右键菜单，新建一个目录也可。

      第七步：确定文章的标题起始关键字和结束关键字

       这一步其实也就是为了确定每个文件名的样式的，我们看到刚才获取的文章，第一行就是“第一章离婚第一节”，其实第一行就可以当成文件标题了，因此在此，我们就不用输入标题采集关键字了，程序会自动识别的，你可以点击一下保存文章，试试效果的。

      第八步：开始批量抓取

       好，上面的步骤都准备好了，现在我们就可以开始采集了，采集时，你还可以选择是否自动重新整理采集的文章，如果选择的话，会方便以后阅读一些，好，现在就让我们泡上一杯茶，等待结果吧。

——

□ 争分夺秒背单词 → used vi.过去常常

□ 发帖时间：2009-6-1｜13:31:51

|回复|返回|

阳光宝宝

□ 主题：回应:本站最新力作--网页文本采集大师发布了

□ 内容：

4楼

如果你不知道如何获取目标网站文章目录，那么你了可以打开目录页，然后点击“抓取已打开浏览器页面链接”，稍等片刻，本软件就会自动获取已经打开的使用IE内核浏览器的所有浏览页面上的链接地址了，接着你再删除那些无效的链接，最后保存一下，用批量网址导入功能，即可快速批量采集你要采集的文章了。

——

□ 争分夺秒背单词 → seed n.种(子)，籽，萌芽

□ 发帖时间：2009-6-1｜17:31:28

|回复|返回|

阳光宝宝

□ 主题：回应:本站最新力作--网页文本采集大师发布了

□ 内容：

5楼

      爬爬书库抓取示例：

      比如要抓取该网站上的《伪娘》这部小说：

      第一步：先打开这个网站后，找到该书的目录索引页，将其地址复制到软件的文章目录页输入框，并回车：

      失效网址

——

□ 争分夺秒背单词 → raise vt.提出，发起，发出

□ 发帖时间：2009-6-5｜6:31:29

|回复|返回|

阳光宝宝

□ 主题：回应:本站最新力作--网页文本采集大师发布了

□ 内容：

6楼

      第二步：查找链接关键字

      打开该目录页后，你会发现这个网站的目录链接地址和其它一些普通小说网站的目录链接地址有些不一样，都显示为：

      javascript:gotozhj(10381)
      javascript:gotozhj(10382)
      javascript:gotozhj(10383)
      .......
      javascript:gotozhj(14689)

      这也没关系，我们只要取其关键的公共部分，即：
      javascript:gotozhj(

      输入到软件链接关键字输入框即可，点击获取列表按钮，获取该书目录链接了。

      获取后的网址链接列表也依然是：

      javascript:gotozhj(10381)
      javascript:gotozhj(10382)
      javascript:gotozhj(10383)
      .......
      javascript:gotozhj(14689)

——

□ 争分夺秒背单词 → friendly a.友好的，友谊的

□ 发帖时间：2009-6-5｜6:35:24

|回复|返回|

阳光宝宝

□ 主题：回应:本站最新力作--网页文本采集大师发布了

□ 内容：

7楼

      第三步：查找正文起始和结束关键字

      打开该书任何一个章节，你会发现它们的正文开始部分都有正文两个字，这就是正文起始关键字了，而正文结束部分则都是以(方向键几个字符前为止的，所以结束关键字就是：(方向键了，因此我们在正文起始关键字和结束关键字处分别输入正文、(方向键，接着点击获取文章按钮试一下效果，可见完全正确，这步也就轻松完成了。

——

□ 争分夺秒背单词 → retain vt.保持，保留，保有

□ 发帖时间：2009-6-5｜6:39:58

|回复|返回|

阳光宝宝

□ 主题：回应:本站最新力作--网页文本采集大师发布了

□ 内容：

8楼

      第四步：查找标题(或文件保存名称)起始关键字和结束关键字

      看一下刚刚上步获取的文章，发现每篇第一行都是第*章 *****，即：

      第一章伪娘的爱
      第二章伪娘的心
      .....
      第九十章因缘恩仇

      这就最好了，软件可以智能的将第一行作为文件标题和文件名了，不用再设置起始关键字和结束关键字，不然你可以试着点一下保存文章，可以正常保存的。

      为了文章下载后更利于阅读，我们可以选择文本抓取后自动段落重排菜单选项，这样程序自动抓取后还会自动段落重排的。

——

□ 争分夺秒背单词 → forbid vt.禁止，不许；阻止

□ 发帖时间：2009-6-5｜6:45:24

|回复|返回|

阳光宝宝

□ 主题：回应:本站最新力作--网页文本采集大师发布了

□ 内容：

9楼

      第五步：开始批量抓取文章

      批量抓取文章程序完全自动，你可以泡杯茶稍等片刻，呵呵

      等待文章全部下载完毕后，我们发现文章文件名都是以：

      第一章 ****
      第二章 ****
      .....

      这样取得，这样在文件夹中显示时就不是按先后顺序排序了，如果是按阿拉伯数字排序的就好了，呵呵，这也难不倒我，我们可以用软件内置的批量改名功能一键搞定，只要看看最大的章节，这里是九十章，于是，我们选择文件夹列表右键菜单中的中文字数字改为小写数字，然后输入90，确定后就一下子全改过来了，这样这部小说就算抓取成功了。

——

□ 争分夺秒背单词 → flap vt.&n.拍打 vi.拍动

□ 发帖时间：2009-6-5｜6:50:34

|回复|返回|

阳光宝宝