请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 1楼

      采集网址:http://sz.esf.fang.com/agenthome-a089/-i31-j310/ 上的经纪人和联系方式 
       
      第一步:输入网址回车打开网页 
      
——
      
争分夺秒背单词 → progressive  a.进步的;向前进的
 □ 发帖时间:2018-12-29|23:22:35 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 2楼

      第二步:获取网页TAG列表,点击软件顶部的获得TAG列表按钮即可 
      
——
      
争分夺秒背单词 → campaign  n.战役;运动
 □ 发帖时间:2018-12-29|23:26:55 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 3楼

      第三步:设置采集项目 
       
      从已经获得的TAG列表中查找第一项项目信息,即网页上第一个经纪人卓琳的TAG列表,通过比对,SourceIndex为“547”和“548”的两项,其ClassName一个为“ttop”,一个为“f18 gray3”,它们的innerText都是“卓琳”,在此我们选择用“548”的,双击此列表项,在软件中会将其信息自动填入软件的项目设置区相关输入框或选择框中,我们只要在字段名中输入“姓名”即可,然后再点击添加。 
       
      依此类推,我们再增加联系电话和所属公司 
      
——
      
争分夺秒背单词 → paint  vt.画;油漆 vi.绘画
 □ 发帖时间:2018-12-29|23:37:42 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 4楼

      第四步:抓取测试 
       
      经过以上步骤项目提取参数的设置,我们可以马上点击软件顶部的“提取”按钮测试一下了,结果显示的信息正是我们要的: 
       
      
——
      
争分夺秒背单词 → disgust  n.厌恶,憎恶
 □ 发帖时间:2018-12-29|23:40:26 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 5楼

      第五步:设置自动翻页方式 
       
      经过上面的设置,我们已经能够顺利的完成当前页数据的采集了,但我们要的可是这个类别的45页网页中的所有经纪人的信息,因此就要设置让软件能自动翻页提取这些经纪人的资料,我们将网页往下拉,一直能看到底部能看到翻页方式的地方,发现网页上有“下一页”按钮,这就好办了,我们只要使用软件默认的“根据链接或按钮关键字翻页”方式就行了,然后可以点击“翻页”按钮测试一下,发现也可以让网页正常翻页,那就好了,我们再选择“自动连续”选项,就可点击“提取”按钮,让软件自动连续批量采集这些经纪人的信息了。 
      
——
      
争分夺秒背单词 → product  n.产品,产物;(乘)积
 □ 发帖时间:2018-12-29|23:46:54 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 6楼

      以下就是我们最终采集的结果 
       
       
       
      怎么样,挺方便吧,完了,我们还可保存方案,以便下次采集或采集此网站的其它经纪人的信息哦
——
      
争分夺秒背单词 → difference  n.差别;差;分歧
 □ 发帖时间:2018-12-29|23:51:10 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 7楼

      采集案例2: 
      采集网址:http://ticket.lvmama.com/scenic-159926?losc=332207&ict=i 中的800多条评价 
       
      第一步:打开软件,输入网址打开网页 
       
      
——
      
争分夺秒背单词 → influence  n.影响;势力 vt.影响
 □ 发帖时间:2019-3-22|15:21:00 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 8楼

      第二步,转到要采集内容的地方,先选定要采集的部分,这样软件下面的TAG信息列表区就自动会显示这一片区域的TAG列表了,当然了,你也可以直接点击软件顶部的获取TAG列表按钮,不过那样,你要从大量的TAG列表中找到你要的信息不容易。 
       
      注意本软件如果要采集一个页面上的10条、20条记录,结构相同的话,只要设置一条记录的项目信息就行了 
      
——
      
争分夺秒背单词 → propaganda  n.宣传;宣传机构
 □ 发帖时间:2019-3-22|15:30:38 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 9楼

      第三步:双击列表中的TAG信息,左侧项目设置面板中就会自动修改为此TAG信息,如果文字不用截取,我们可以直接设置字段名,这里就是评价,如果要截取的话,软件还有很多截取功能的,从左侧下拉列表中选中后,输入相应的条件参数即可。 
       
       
       
       
      输入字段名后再点击添加
——
      
争分夺秒背单词 → consumption  n.消费(量),灭绝
 □ 发帖时间:2019-3-22|15:38:54 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 10楼

      第四步:当前页面信息抓取测试,只要点击抓取按钮就行了,此时,我们可以看到,我们要的信息已经完整抓取下来了,如下图: 
       
      
——
      
争分夺秒背单词 → pile  n.堆 vt.堆叠,累积
 □ 发帖时间:2019-3-22|15:44:38 |回复|返回|

 页次:1/5页 每页10  本主题贴数45 分页: 1 2 3 4 5


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn