请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 网文采集大师采集新浪博客案例
 □ 内容: 1楼

      新浪博客中有很多精美文章,有的人想采集下来收藏了,或者有的博主想采集下来保存到自己电脑中,今天就在此都大家用网文采集大师来采集: 
       
      比如采集网址: 
       
      http://blog.sina.com.cn/s/articlelist_1777939053_0_1.html 
       
      
——
      
争分夺秒背单词 → momentary  a.瞬息间的,片刻的
 □ 发帖时间:2019-4-9|9:05:23 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师采集新浪博客案例
 □ 内容: 2楼

      第一步,我们得先提取博主的文章目录链接,我们可以先复制不同位置的三个链接,这个博主文章发的多,光目录都有62页,我们尽量在不同页中复制这种链接,放在一起检查一下: 
       
      http://blog.sina.com.cn/s/blog_69f9326d0102ycv7.html 
      http://blog.sina.com.cn/s/blog_69f9326d0102ycrq.html 
      http://blog.sina.com.cn/s/blog_69f9326d0102xqns.html 
       
      从中我们不难发现,他的所有文章的链接,前面一部分都是: 
       
      http://blog.sina.com.cn/s/blog_69f9326d0102 
       
      好,我们就以链接中的这段字符作为关键字,在软件网址输入框右侧的过滤关键字中输入: 
       
      http://blog.sina.com.cn/s/blog_69f9326d0102*.html 
       
      这里的*是通配符,可以代表1到多个任意字符,后面的.html是博文链接的扩展名,您不输入也可以,但是我们取关键字,就一定要取如数学中的多个数的最大公约数。 
       
      设置了过滤关键字,接下来再设置下一页链接关键字,看一下,链接页面的下一页链接就是下一页,我们直接在此输入框输入下一页即可,输入完,再点击执行命令,在弹出菜单中点击提取目录链接即可,程序就会开始自动连续不断去提取文章链接了,直到62页链接全部提取完毕。 
       
      
——
      
争分夺秒背单词 → butter  n.黄油;奶油
 □ 发帖时间:2019-4-9|9:21:15 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师采集新浪博客案例
 □ 内容: 3楼

      第二步:接下来,我们就要开始正式采集这些链接对应的正文了。 
       
      点击所提取的链接的不同位置中的两到三个,点击左侧目录链接列表中的一个后,再点击地址栏后回车,查看博文的正文的开始及结束位置,经过比较,我们可以用“转载▼”作为正文起始位置关键字,用“分享:”作结束位置关键字,试过几次发现都可正常获取。 
       
       
      注意这种分割关键字的选取,也是要尽量照顾所有链接对应的文章,对于同一个列表中的页面要有通用性,也就是每页都要有的,如果有的页面没有,那么在提取时,就有可能提取不到文字,就像拉网捕鱼一样,网开始要撒得大,然后再慢慢收缩,如果一开始就撒得太小了,就可能捕不到鱼了。 
       
      另外对于有的文章,我们还可选取“段落重排”、“去除干扰码”、“特殊删除”等选项,减少后期排版编辑的工作量。 
       
      
——
      
争分夺秒背单词 → overlook  vt.眺望;看漏;放任
 □ 发帖时间:2019-4-9|9:45:09 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师采集新浪博客案例
 □ 内容: 4楼

      第三步:确定文章保存的文件名的命名方式 
       
      我们看每个博文在软件标题栏显示的标题,可以看到每个标题后面都跟了“_朱力方_新浪博客”,所以我们在保存文章按钮前一个输入框中输入“_",保存文章前第二个输入框不用输入文字,输入完后可以点击保存文章试一下,看到软件左下角的文件浏览区已经有一篇文章了,注意,软件采集的文章都在左侧设置的对应的目录中,文件夹和文件列表框右键都有快捷菜单的。 
       
      最后,我们再点击执行命令按钮,在弹出菜单中选择”批量单页采集“就可一边喝茶去了。
——
      
争分夺秒背单词 → director  n.指导者;理事;导演
 □ 发帖时间:2019-4-9|9:53:00 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师采集新浪博客案例
 □ 内容: 5楼

      用户也可以以下网址中文章的采集为目的试试看如何批量采集: 
       
      http://opinion.people.com.cn/n1/2019/1231/c1003-31529229.html
——
      
争分夺秒背单词 → reveal  vt.告诉,揭示,泄露
 □ 发帖时间:2020-1-5|17:42:13 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师采集新浪博客案例
 □ 内容: 6楼

      你先输入上面的网址到软件地址栏回车打开目录页,  
      再在过滤关键字中输入:  
       
      http://opinion.people.com.cn/n1/201?/*/*.html 
       
      再在下一页链接名称中输入“下一页”,再点执行命令中的“提取目录链接”
——
      
争分夺秒背单词 → tower  n.塔 vi.屹立,高耸
 □ 发帖时间:2020-1-5|17:44:11 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师采集新浪博客案例
 □ 内容: 7楼

      提取链接后,再点击第一条链接,双击回车打开
——
      
争分夺秒背单词 → distract  vt.分散(心思);打扰
 □ 发帖时间:2020-1-5|17:45:53 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师采集新浪博客案例
 □ 内容: 8楼

      设置正文起止关键字为:人民网》观点 和(责编:
——
      
争分夺秒背单词 → misunderstand  vt.误解,误会,曲解
 □ 发帖时间:2020-1-5|17:46:52 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师采集新浪博客案例
 □ 内容: 9楼

      设置标题起止关键字为:人民日报人民时评: 和 -- 未读  
      再点击执行命令中的批量单面采集就行了
——
      
争分夺秒背单词 → elapse  vi.(时间)过去,消逝
 □ 发帖时间:2020-1-5|17:47:11 |回复|返回|

 页次:1/1页 每页10  本主题贴数8 分页: 1


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn