¤ 阳光论坛 ¤ - 阅读帖子

请登录［¤ 阳光论坛 ¤］参与讨论

阳光宝宝

□ 主题：网文采集大师采集新浪博客案例

□ 内容：

1楼

      新浪博客中有很多精美文章，有的人想采集下来收藏了，或者有的博主想采集下来保存到自己电脑中，今天就在此都大家用网文采集大师来采集：

      比如采集网址：

      http://blog.sina.com.cn/s/articlelist_1777939053_0_1.html

——

□ 争分夺秒背单词 → turbine n.叶轮机，汽轮机

□ 发帖时间：2019-4-9｜9:05:23

|回复|返回|

阳光宝宝

□ 主题：回应:网文采集大师采集新浪博客案例

□ 内容：

2楼

      第一步，我们得先提取博主的文章目录链接，我们可以先复制不同位置的三个链接，这个博主文章发的多，光目录都有62页，我们尽量在不同页中复制这种链接，放在一起检查一下：

      http://blog.sina.com.cn/s/blog_69f9326d0102ycv7.html
      http://blog.sina.com.cn/s/blog_69f9326d0102ycrq.html
      http://blog.sina.com.cn/s/blog_69f9326d0102xqns.html

      从中我们不难发现，他的所有文章的链接，前面一部分都是：

      http://blog.sina.com.cn/s/blog_69f9326d0102

      好，我们就以链接中的这段字符作为关键字，在软件网址输入框右侧的过滤关键字中输入：

      http://blog.sina.com.cn/s/blog_69f9326d0102*.html

      这里的*是通配符，可以代表1到多个任意字符，后面的.html是博文链接的扩展名，您不输入也可以，但是我们取关键字，就一定要取如数学中的多个数的最大公约数。

      设置了过滤关键字，接下来再设置下一页链接关键字，看一下，链接页面的下一页链接就是下一页，我们直接在此输入框输入下一页即可，输入完，再点击执行命令，在弹出菜单中点击提取目录链接即可，程序就会开始自动连续不断去提取文章链接了，直到62页链接全部提取完毕。

——

□ 争分夺秒背单词 → improve vt.使更好 vi.改善

□ 发帖时间：2019-4-9｜9:21:15

|回复|返回|

阳光宝宝

□ 主题：回应:网文采集大师采集新浪博客案例

□ 内容：

3楼

      第二步：接下来，我们就要开始正式采集这些链接对应的正文了。

      点击所提取的链接的不同位置中的两到三个，点击左侧目录链接列表中的一个后，再点击地址栏后回车，查看博文的正文的开始及结束位置，经过比较，我们可以用“转载▼”作为正文起始位置关键字，用“分享：”作结束位置关键字，试过几次发现都可正常获取。


      注意这种分割关键字的选取，也是要尽量照顾所有链接对应的文章，对于同一个列表中的页面要有通用性，也就是每页都要有的，如果有的页面没有，那么在提取时，就有可能提取不到文字，就像拉网捕鱼一样，网开始要撒得大，然后再慢慢收缩，如果一开始就撒得太小了，就可能捕不到鱼了。

      另外对于有的文章，我们还可选取“段落重排”、“去除干扰码”、“特殊删除”等选项，减少后期排版编辑的工作量。

——

□ 争分夺秒背单词 → mouse n.鼠，耗子

□ 发帖时间：2019-4-9｜9:45:09

|回复|返回|

阳光宝宝

□ 主题：回应:网文采集大师采集新浪博客案例

□ 内容：

4楼

      第三步：确定文章保存的文件名的命名方式

      我们看每个博文在软件标题栏显示的标题，可以看到每个标题后面都跟了“_朱力方_新浪博客”，所以我们在保存文章按钮前一个输入框中输入“_"，保存文章前第二个输入框不用输入文字，输入完后可以点击保存文章试一下，看到软件左下角的文件浏览区已经有一篇文章了，注意，软件采集的文章都在左侧设置的对应的目录中，文件夹和文件列表框右键都有快捷菜单的。

      最后，我们再点击执行命令按钮，在弹出菜单中选择”批量单页采集“就可一边喝茶去了。

——

□ 争分夺秒背单词 → boot n.靴子，长统靴

□ 发帖时间：2019-4-9｜9:53:00

|回复|返回|

阳光宝宝