请登录[¤ 阳光论坛 ¤]参与讨论


18683506380
5

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 31楼

      怎么下载啊
争分夺秒背单词 → inferior  a.下等的;劣等的
 □ 发帖时间:2019-10-14|10:34:08 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 32楼

      请点击这里下载
——
      
争分夺秒背单词 → honour  n.光荣;尊敬,敬意
 □ 发帖时间:2019-11-5|9:31:29 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 33楼

      最新更新: 
      1、针对TAG元素筛选困难问题,新增了组合条件筛选功能:使用最新版本的,在获取了TAG列表后,选择一条你从中获取信息的列表行,再点击网页元素菜单-》按指定条件筛选-》组合条件筛选,即会弹出一个小窗口,如下图: 
       
      默认的值是你主窗口网页无素列表中选定行的值,点击确定后将会把所有设定值的元素筛选出来,你可以反选后删除其余的,留下这些需要的元素。 
       
      2、增加网页元素分类统计模式,也是网页元素菜单下,选中此项菜单后,再点击获取TAG列表,将会给出一个各种TAG各种值的分类统计结果,你也可以根据此结果去设置项目。 
       
      3、增加从不规则信息中提取手机号的功能,下面举例说明:
——
      
争分夺秒背单词 → maid  n.女佣,女仆;少女
 □ 发帖时间:2019-11-5|9:56:44 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 34楼

      采集案例6: 
       
      采集化龙巷厂房出租方联系电话 
       
      第一步,在软件地址栏输入上面的地址: 
       
      http://so.hualongxiang.com/?keyword=厂房出租 
       
      输入后回车或点击打开按钮打开网页
——
      
争分夺秒背单词 → swell  vi.膨胀;隆起;增长
 □ 发帖时间:2019-11-5|10:16:25 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 35楼

      第二步,点击获得TAG列表按钮,从中查找具有你要的信息的列表项,查找的原则就是找具有你要的信息的文字串,而且越具体越好,当然还是要有id name classname三个特征值中的一项,而且最好是在整个网页中,与其它项有差别的,同一类则无关,找这个记录确实比较难找,得有一个熟悉的过程,如下图: 
       
      
——
      
争分夺秒背单词 → mechanically  ad.机械地
 □ 发帖时间:2019-11-5|10:26:18 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 36楼

      找这个TAG的原则就是越具体越好,就像地址,你直接说你来自中国,那要找你就太困难了,你要说你是来自中国的浙江丽水的某个县某个镇那再找就相对比较简单了,因此,我们分析上面的171、177和178都具有 朝阳桥附近有厂房出租二楼.......先生联系电话:13701598699/18118399566这串话,而且都有自己的特征,但我们还是选择178项比较好,选择了,就双击它,使相关信息转到左下角的项目设置面板中,如下图所示: 
       
      
——
      
争分夺秒背单词 → inference  n.推论;推断的结果
 □ 发帖时间:2019-11-5|10:53:42 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 37楼

      接着,我们选择截取下拉列表中的“手机号码”项,并删除下面参数输入框中所有文字,修改字段输入框中的内容为自己喜欢的文字,比如手机号码、联系方式或电话都可,再点击添加,如下图: 
       
       
       
      注意如果要修改右边的列表项信息,只要双击项目,左边的项目设置框就会出现右边列表中的信息了,修改后再用鼠标右键点击添加按钮就行了。
——
      
争分夺秒背单词 → appreciation  n.欣赏;鉴别;感激
 □ 发帖时间:2019-11-5|10:55:14 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 38楼

      添加了项目之后,我们可以选择当前添加的项目,点击提取按钮,看看是不是能提取到你要的信息,一个网页中有N条同样结构的记录,我们只要设置一条记录TAG项目信息就行了,软件会把所有相同结构的值都提取了的。
——
      
争分夺秒背单词 → granite  a.花岗岩,花岗石
 □ 发帖时间:2019-11-5|11:18:57 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 39楼

      接着,我们要再设置如果让程序能自动连续翻页提取。 
       
      网页下面有下一页的链接,程序已经自动识别出并默认选择使用根据链接或按钮关键字翻页了,此时,你只要设置好保存的文件名,再选择自动连续,并点击提取按钮,就可让程序自动连续提取并追加保存了。 
      
——
      
争分夺秒背单词 → comprehend  vt.了解,理解,领会
 □ 发帖时间:2019-11-5|11:19:55 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:最新网页项目信息采集大师3.0版本 批量采集 抓取 复制网页信息示例
 □ 内容: 40楼

      另外这个网址中也有页码数,其实我们还可以根据网址中的页码数翻页: 
       
      只要把网址中的页码数修改为括号加星号,再选择根据网址中的页码数翻页选项,修改起始终止页数,再点击翻页按钮测试一下,如果可以的话,就可让程序自动翻页抓取了 
       
       
       
      ..... 
       
      因为不是每条记录都有电话号码,因此数据是不连续的
——
      
争分夺秒背单词 → aerial  a.空气的;航空的
 □ 发帖时间:2019-11-5|11:24:08 |回复|返回|

 页次:4/5页 每页10  本主题贴数45 分页: 1 2 3 4 5


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn