请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 21楼

      从中我们可以找出每个回复贴都在TD中,而且此TD的classname是t_f,双击此TAG,在软件左下角字段名中输入自己取的一个名字,这里填小 
      说即可,因为是同一页中的多个相同的TAG,程序只要求你设置一个就行了,剩下同类的TAG它会自己查找的,设置好,我们可以先测试一下抓取一 
      页内容是否正常,经过抓取是正常的,然后再设置自动翻页方式为根据链接或按钮关键字翻页,并输入翻页关键字“下一页”,之后可以点击翻页按钮 
      测试一下,也是可以的,然后再设置保存的文件名为TXT格式的,就可选择自动连续,最后再点击提取按钮,软件就会自动将一页页的连载小说全部 
      抓取下来了。 
       
      这个示例软件目录中也是有预留测试方案的,欢迎自行测试。 
      
——
      
争分夺秒背单词 → view  n.看;视力;风景
 □ 发帖时间:2019-4-12|22:10:51 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 22楼

      注意,有些时候设置TAG,只要选择网页上的那条信息,TAG列表中就有了,不用点击软件顶部的获取TAG信息,那个获取出来 
      太多,太难找。 
      
——
      
争分夺秒背单词 → emphasis  n.强调,重点,重要性
 □ 发帖时间:2019-4-12|22:30:30 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 23楼

      如果对项目中要取的信息的截取参数的设置,如果是取对象左侧的或右侧的字符,参数输入在参数输入框右侧的第一个,取两字符 
      串间的字串的情况下才要输入两个参数。 
       
      特征值要先找是否有id,没有的话就找name,name也没有再找classname,classname还没有,只能截取字符串了 
       
      一个TAG如果没有特征值,就寻上一级,上一级仍没特征值就继续上一级 
       
      有一时候找的上一级里面包含多个字段,那只能截取分割了
——
      
争分夺秒背单词 → lever  n.杆,杠杆;控制杆
 □ 发帖时间:2019-4-12|23:00:17 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 24楼

      采集案例5: 
       
      采集http://ynzwfw.yn.gov.cn/网上的服务清单 
      此清单并不是真实的表格,因此不能用我的另一款软件网页表格数据采集器,现在就用网页项目信息采集器来采集,请看步骤: 
       
      第一步:打开软件,输入网址,打开网页 
       
      
——
      
争分夺秒背单词 → practicable  a.能实行的;适用的
 □ 发帖时间:2019-7-15|17:54:14 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 25楼

      第二步:获得要采集项目的TAG元素列表。 
       
       点击获取TAG列表,也就是网页元素列表,注意点击获得TAG列表,获得的是整个页面的,这样显示的元素信息会比较多,要从中找出所要的元素比较难一些,我们可以只选择网页上要采集的部分进行列示,本软件的特点是,你要设置的采集内容,一个页面上有多条结构一样的,只要设置一条就行了,比如本页面,你只要设置第一条就行了,我们可以先点一下“供电营业许可审批”这串文字的供字前,再按住键盘上的SHIFT键,不放,拖住鼠标到当前行末尾2017-05-25右侧,之后软件的元素列表区就有这些元素的列表了。 
       
      
——
      
争分夺秒背单词 → revolutionary  a.革命的 n.革命者
 □ 发帖时间:2019-7-15|17:55:29 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 26楼

      第三步:分别设置要采集的项目 
       
       按顺序从TAG元素列表中找出需要的元素,找到后双击,使元素信息显示在软件左侧的项目信息设置面板中,再根据需要设置采集文字的截取方式或替换方式,再设置字段名称,点击添加即可加入采集项目列表,已经加入采集项目列表的项目,可双击,在项目设置面板中显示,修改后用鼠标右键点添加完成修改。 
       另外,你也可以直接按住键盘上的ALT键,再点击网页上的项目,快速将网页元素信息添加到项目设置面板中进行设置。 
       待所有项目设置完,可打勾要采集的项目,点击提取测试是否有效。 
       
      
——
      
争分夺秒背单词 → scarcely  ad.仅仅;几乎不
 □ 发帖时间:2019-7-15|17:57:08 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 27楼

      第四步:设置自动翻页方式 
        
       根据页面情况设置,有的网页上有下一页链接或按钮,有的网址中的页码数,有的可以在网页上输入页数转到下一页,有的网站要提取所有网址后根据网址列表翻页。 
       本页面有一个LI标记,在页面上显示为一个三角形,它的类名是next,可以用此进行翻页。 
       
      
——
      
争分夺秒背单词 → purse  n.钱包,小钱袋,手袋
 □ 发帖时间:2019-7-15|17:57:51 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 28楼

      第五步:设置保存的路径及文件名 
       
       本软件如果设置保存的文件名扩展名是txt的,则保存的文件为文本格式,适合采集文章小说,如果扩展名设置为csv,则采集的是电子表格格式。 
       本页面的数据,我们设置采集为电子表格格式。 
      设置是否用定时采集 
       
      
——
      
争分夺秒背单词 → pendulum  n.(钟等的)摆
 □ 发帖时间:2019-7-15|17:58:36 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 29楼

      第六步:设置是否定时采集,开始采集 
       
       有的网页,直接在软件中选择自动连续后,点击提取就可连续不断自动提取了,有的网页,要设置定时采集,本页面就属于后者,我们先设置定时间隔为3000毫秒,这个也要看情况的,设置后再选择自动连续并选择定时采集菜单即可。
——
      
争分夺秒背单词 → train  vt.培养 n.列车;队列
 □ 发帖时间:2019-7-15|17:58:52 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 30楼

      网页项目信息采集器软件已经升级了,最新3.21版本,欢迎下载试用,下载地址: 
      点击下载
——
      
争分夺秒背单词 → council  n.理事会,委员会
 □ 发帖时间:2019-8-1|11:00:14 |回复|返回|

 页次:3/5页 每页10  本主题贴数45 分页: 1 2 3 4 5


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn