请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 11楼

      第五步:设定网页自动翻页方式 
       
      经过检查,这个网页可以点击评论底部的小三角形◢进行翻页,除此之外,网址中没有页码数,也没有可以输入页码转到按钮,看来只能从此三角形入手了,我们可以复制此三角形再到FRONTPAGE软件中粘贴后,看到此部分源码,也可以点击网页右键,查看源码,可以看到它是一个链接,类名是nextpage,所以我在那里输入了这个nextpage。 
       
      
——
      
争分夺秒背单词 → brittle  a.脆的;易损坏的
 □ 发帖时间:2019-3-22|16:18:21 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 12楼

      第六步 经过上面的设置后,可以点击软件翻页试试,是不是能够让网页翻页,经过测试,是可以了,接下去,一般情况下,选择自动连续,就可点击软件的提取按钮,自动连续提取了,但是此网站,好象让它自动翻页比较慢,我们还是用定时自动翻页更好,因此,我们可以点击软件底部第一格状态栏设置间隔时间为5000毫秒,再点击选项设置菜单下的禁止加载图像,让网页加载速度快一些,并选择定时采集按钮,至此,就可以点击提取按钮,让软件自动采集了 
       
       
       
      
——
      
争分夺秒背单词 → automobile  n.汽车,机动车
 □ 发帖时间:2019-3-22|16:27:37 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 13楼

      采集结果如下: 
      
——
      
争分夺秒背单词 → headlong  a.&ad.头向前的(地)
 □ 发帖时间:2019-3-22|16:29:36 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 14楼

      本软件今天再次升级到3.16版本,本次升级主要修改更新功能 
      如下: 
       
      1、修改界面一些冲突的快捷键; 
      2、增加网址列表的一些操作功能,包括对选定网址的删除、全 
      部清除等; 
      3、增加批量增加日期网址功能; 
      4、增加网址列表右键快捷菜单。 
      点击此链接下载软件18MB
——
      
争分夺秒背单词 → retain  vt.保持,保留,保有
 □ 发帖时间:2019-4-1|23:22:54 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 15楼

      采集案例3 
       
      采集新浪博客某博主名下的所有文章 
       
      网址:http://blog.sina.com.cn/s/articlelist_1280110097_0_1.html 
       
      看到目录页都有55页,每页有50条记录 
       
      
——
      
争分夺秒背单词 → block  n.阻塞;障碍物;炮闩
 □ 发帖时间:2019-4-9|16:00:24 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 16楼

      然后我们检查一下这些文章链接,随机抽取出三条,复制如下: 
       
      http://blog.sina.com.cn/s/blog_4c4cee110102yjmq.html 
      http://blog.sina.com.cn/s/blog_4c4cee110101rwni.html 
      http://blog.sina.com.cn/s/blog_4c4cee110101nn93.html 
       
      可以看到,每条链接前面有一段是相同的,即: 
       
      http://blog.sina.com.cn/s/blog_4c4cee11010 
       
      所以,我们就以这段链接作为关键字,先提取55页链接 
       
      先在软件翻页方式选项设置面板中的根据链接或按钮关键字翻页选项下的输入框中输入“下一页”,再选择“根据网址列表打开下页”,选择后,再点击“提取链接”按钮,在弹出的对话框中输入: 
       
      http://blog.sina.com.cn/s/blog_4c4cee11010*.html 
       
       
       
      程序就会连续不断的将55页的链接全部提取出来,显示在网址列表中了。 
       
      以下就是刚才提取出来的链接: 
       
       
       
      
——
      
争分夺秒背单词 → measurement  n.(量得的)尺寸,大小
 □ 发帖时间:2019-4-9|16:16:03 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 17楼

      接下来我们就是要设置如何采集正文了,先随机点选左侧网址列表中的一条列表,再点击打开按钮或按回车打开链接对应的网页,再把正文从上到下选起来,此时软件网页浏览区下的TAG列表区就会显示选定文字对应的TAG信息了,如果没有的话,也可以直接点击软件顶部的“获取TAG列表”按钮,然后再从此网页的所有TAG中找到包含正文的那条TAG,也就是ID是“sina_keyword_ad_area2”的那条TAG,再双击此TAG列表行,软件左侧的项目设置中,随即会切换为当前选定的TAG信息,如果不用对文字进行取舍,在字段名右侧输入框中输入一个你自己取得名字,比如“正文”,然后再点击添加按钮即可。 
       
       
       
      设置好后,可以点击软件顶部的提取按钮测试一下,正常的,然后再随机点几个链接,打开后再测试提取一下,如果网页中还有想要提取的信息,比如文章标题,我们也同样再添加进项目列表中。
——
      
争分夺秒背单词 → person  n.人;人身;本人
 □ 发帖时间:2019-4-9|16:58:20 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 18楼

      项目设置好,全部选中,接下来,再设置保存文件名,在保存按钮前修改保存的路径及文件名,文件名扩展名要用.txt,文件名设好了,再选择网址列表中的第一条,再选择自动连续选项,再点击提取按钮,程序就会连续不断把所有博文采集下来了 
       
      
——
      
争分夺秒背单词 → ticket  n.(交通违章)罚款传票
 □ 发帖时间:2019-4-9|17:04:11 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 19楼

      这个软件使用的关键,就是一要抓住或者说找出要采集的对象,一般情况下,一个页面有多条类似结构内容的,只要设置一条就 
      行,反正同一个页面只要设置一条,设好要采集对象的TAG项目了,如果要让程序自动翻页就要找出翻页的方式,再者就是保存 
      的时候文件扩展名是CSV就存为表格,扩展名是TXT就存为文本文件。
——
      
争分夺秒背单词 → logical  a.逻辑的;符合逻辑的
 □ 发帖时间:2019-4-12|21:55:46 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 20楼

      案例4: 
       
      采集论坛连载小说 
       
      以采集论坛: 
       
      http://bbs.zgsynews.com/forum.php?  
      mod=viewthread&tid=219&extra=page%3D87
 
       
      上的连载小说为例: 
       
      首先打开软件,输入网址点击打开,如果是复制了网址,可以直接用鼠标中键点击软件打开按钮 
       
      打开后先获取TAG列表 
       
      
——
      
争分夺秒背单词 → art  n.艺术,美术;技术
 □ 发帖时间:2019-4-12|22:07:08 |回复|返回|

 页次:2/5页 每页10  本主题贴数45 分页: 1 2 3 4 5


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn