请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 网页表格数据采集器 采集案例
 □ 内容: 1楼

      案例1:采集http://data.eastmoney.com/rzrq/detail/603000.html页面的 人民网(603000)融资融券交易明细 表格数据 
       
      步骤: 
      1)、在软件中输入或粘贴入上面的网址,回车打开网页 
       
      2)、点击抓取测试,检测到该页只有1个表格,标题就是: 
      “序号 交易日期 融资余额(元) 融资买入额(元) 融资偿还额(元) 融券余额(元) 融券卖出量(股) 融券偿还量(股) ” 
       
      3)、点击左侧表格列表中的这个表格,程序会自动将标题的前3项输入到软件“表格第一行前部分内容”输入框中,当然,你也可以点击表格第一行前部分内容标签,使其变为“所有表格中所处的序号”,在右侧输入序号1,或点击表格列表,让程序自动提取序号到右侧输入框中。 
       
      4)、现在来确定翻页方式,这个表格一共有8页,可是居然没有下一页链接,但我们检查页面下面第2页第3页链接地址,发现链接中似乎有页码数: 
      http://data.eastmoney.com/rzrq/detail/603000,1.html 
       http://data.eastmoney.com/rzrq/detail/603000,2.html 
       http://data.eastmoney.com/rzrq/detail/603000,3.html 
      ... 
      那我们就把一个地址直接改成没打开过的页数,放到浏览器中测试一下: 
      http://data.eastmoney.com/rzrq/detail/603000,8.html  
      发现打开后的表格页面是一样的,那就好办了 
      我们就使用“根据网址中的页数打开”,再在右侧关键字输入框中分别输入1到8,再修改网址为:http://data.eastmoney.com/rzrq/detail/603000,(*).html 
       
      5)、选择自动定时采集,再点击一下抓取表格,程序就开始抓取了,8页内容并不多,程序一下子就抓取结束了。
——
      
争分夺秒背单词 → will  aux.v.将要,会;愿
 □ 发帖时间:2014-8-27|20:31:57 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网页表格数据采集器 采集案例
 □ 内容: 2楼

      案例2 使用“自选页码选单到下页”自动翻页采集案例 
       
      采集九/江/医疗/保/险/系/统 
       
      步骤: 
       
      1)、在软件中输入或粘贴入网址,回车打开网页 
       
      2)、点击抓取测试,检测到该页有8个表格,我们要抓取的是第8个表格,标题是: 
      药品编码 药品名称 收费类别 处方药标志 收费项目 等级 是否医保项目 单位标准 价格 自付比例 剂型 
       
      3)、在这里我们使用序号来识别表格比较好,点击标签“表格第一行前部分内容”两次,切换到序号识别方式再点击下面第8个表格,在“所有表格中所处的序号”右侧的识别关 
      键字输入框中,程序自动输入了8。 
       
      4)、再来确定翻页方式,其实这个网翻页方式还是很好找的,程序在检测后已经发现有“下一页”链接了,我们可以直接使用“根据链接或按钮关键字打开下页”让程序自动翻 
      页,同时,我们可以看到,网址http://www.*.com/queryDrugN.action?xmmc=&pagination.currentPage=1中还有包含页码数的信息-currentPage=1,当我们将 
      其变为currentPage=2,同样可以打开下页,如果要根据链接中的页数打开下页的话,只要选择这一项,再在右侧起始终止页码数输入框中输入1到679页就可以了。 
       
      不过,在这个网页上,我们还看到了下拉列表框选择下页的功能,那么,我们就使用“自选页码选单到下页”功能试试看能不能连续自动翻页采集。通过查看网页源码(点击页 
      面右键菜单中的“查看源文件”,查找"select“标记,我们可以发现下面有如下一段内容: 
       
       
      <select name="select4" style="font-family:''宋体''; font- 
      size:12px" onChange="changePage()" id="page">  
       <option value=1 selected>第1页</option> 
       <option value=2>第2页</option> 
       <option value=3>第3页</option> 
       .... 
       <option value=677>第677页</option> 
       <option value=678>第678页</option> 
       <option value=679>第679页</option> 
      </select> 
      
 
       
      从这里,我们可以看到select标记的name是select4,因此,我们就把这个select4复制到软件的“自选页码选单到下页”右侧的关键字输入框中,并选中这个选项。 
       
      5、选择自动定时采集,再点击一下抓取表格,程序就开始抓取了,679页的内容,用本程序就这样轻松给抓下来了。
——
      
争分夺秒背单词 → strap  n.带子 vt.捆扎
 □ 发帖时间:2014-8-27|20:56:54 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网页表格数据采集器 采集案例
 □ 内容: 3楼

      案例3 另一种根据网址中的页码数打开下页 
       
      采集的网址:http://www.okooo.com/danchang/shuju/peilv/140706/ 
       
      1)、照例输入网址,回车打开网页 
       
      2)、抓取测试,程序识别出这个网页上有16个相同标题(公司名 初始指数 赔付率转换 最新指数 赔付率转换  
       最新凯利指数 最新凯利差平方(‰) 赔率统计)的表格。 
       
      3)、确定表格识别方式。 
      我们现在先不管每个表格顶部的表格名称,而是想办法采集所有的这些表格,那么我们就点击“表格第一行前部分内容”,使其变为“表格每行共有部分内容”,再点击任意一个表 
      格,右侧输入框中就会自动输入关键字:公司名初始指数。 
       
      4)、现在我们来确定程序自动翻页方式,在网页中,虽然有“下一页”的链接,可是通过查看链接,却是JS链接,经过测试程序不能使用”下一页“链接自动翻页,好在每个下一页 
      链接都是形如"javascript:JsGoTo(2)” ,其中括号中的就是页码数,那么我们就把这个链接复制到程序地址栏中,然后改为:javascript:JsGoTo((*)),再在起始终止页码数 
      输入框中输入1到10,再选择”根据网址中的页码数打开下页“选项。 
       
      5)、选择自动定时采集,再点击一下抓取表格,程序就开始抓取了,好在10页内容并不多,程序一下子就抓取结束了。 
       
      和此例相同的网页如以下地址方法也一样: 
       
      http://www.icbase.com/ClassList1.aspx?Class1Id=2 
       
      http://www.cdfgj.gov.cn/SCXX/ShowNew.aspx 
       
      翻页地址:javascript:__doPostBack('ID_ucShowNew$gridView','Page$(*)') 
       
      有兴趣的朋友可以自己去尝试摸索,该怎么设置 
       
      
——
      
争分夺秒背单词 → war  n.战争;冲突,斗争
 □ 发帖时间:2014-8-27|21:23:57 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网页表格数据采集器 采集案例
 □ 内容: 4楼

      案例4 使用图片作为下一页链接按钮的情况 
       
      案例网址:http://www.jiaweiyi.com/70599/Web/Inventory.aspx 
       
      1)、输入网址回车打开网页,并切换到中文语言界面 
       
      2)、抓取测试,检测到需要的表格,标题: 
      型号,型号,品牌,封装,批号,数量,单价 
       
      3)、确定表格识别方式,我们使用序号来识别表格,切换到序号识别方式,点击要采集的表格,程序自动输入了关键字:39 
       
      4)、确定自动翻页方式,在本例中,其实网址中也包含页码数的信息,如第4页网址: 
      http://www.jiaweiyi.com/70599/Web/Inventory.aspx?&&vPage=4,其中就包含页码数4,本来也可以根据网址中的页码数打开下页自动翻页,但我们现在要使用网页 
      中的下一页链接来翻页,看下一页链接(或按钮)是图片格式的三角形,我们点击图片右键,从弹出菜单中我们选择属性进行查看,看到了图片的网址和名称: 
       
       
      http://www.jiaweiyi.com/70599/Image/pro_073.gif 
       
      那么,我们只要复制这个图片的网址后的一部分,或者只要图片名称,pro_073.gif,输入到“根据链接或按钮关键字打开下页”选项右侧的关键字输入框中就可以了。 
       
      5)、选择自动定时采集,再点击一下抓取表格,程序就开始抓取了,本站这个页面有2545,页数比较多,如果是手工复制粘贴,工作量可想而知,不过,用本程序也很快就能 
      完工。 
      
——
      
争分夺秒背单词 → distance  n.距离,间距;远处
 □ 发帖时间:2014-8-27|21:52:41 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网页表格数据采集器 采集案例
 □ 内容: 5楼

      案例4: 自动生成批量带日期网址然后进行批量表格的采集 
       
      今天一客户旺旺咨询能否采集以下网址打开后显示的“让球胜平负”表格和“半全场”这两个页的数据,时间是从2009年12月11日开始,我告诉他按如下方式可以采集: 
       
      案例网址:http://zx.500.com/jczq/kaijiang.php?playid=1&d=2009-12-11 
       
      1)、输入网址回车打开网页,等网页打开完毕,点击抓取测试 
       
      很明显可以检测到需要的表格,不过这个页面没有下一页按钮,也没有预置的网址列表可以采集,网址中也没有页码数字,不过却有一日期显示,因此,我们可以用软件中的“根据网址列表打开下 
      页”选项进行采集,不过网址列表要用软件内置的自动生成批量的带日期网址功能先生成后再采集。 
       
      2)、选择“根据网址列表打开下页”选项,在新显示的左上角的空白列表框右键单击,弹出快捷菜单,选择“生成带日期网址列表”,然后根据提示一步步输入信息,即在第一个弹出窗口中输入: 
      http://zx.500.com/jczq/kaijiang.php?playid=1&d=(*) 
      接着再输入起始日期和终止时间,以及日期格式,软件即自动生成一批网址了。 
       
      3)、点击第一个生成的网址,确定表格识别方式为序号识别方式,再点击排在第二行的表格列表项“2--赛事编号,赛事类型,比赛时间...” 
       
      4、经过以上设置,再点击抓取表格,程序就开始连续批量采集我们要的表格了。 
       
      采集过程如下图: 
       
      
——
      
争分夺秒背单词 → complicate  vt.使复杂;使陷入
 □ 发帖时间:2019-3-17|16:13:40 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网页表格数据采集器 采集案例
 □ 内容: 6楼

      操作过程动画 
      
——
      
争分夺秒背单词 → acquire  vt.取得;获得;学到
 □ 发帖时间:2019-4-10|15:26:35 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网页表格数据采集器 采集案例
 □ 内容: 7楼

      安全5:通过使用EXCEL表批量生成网址进行采集 
      今天一客户咨询如何采集以下网址的表格数据: 
       
      打开该网址,发现页面上没有下一页链接和按钮,只一前后页的链 
      接,可是链接不是以1为单位增加的,而是以20为单位增加的,软件 
      目前不支持这个单位的自动连续,所以,我们可以借助EXCEL或 
      WPS中的序列化功能,自动生成网址列表。 
       
      保存为文本文件,再打开软件,点击根据网址列表打开下页,待软件 
      左上角出现网址列表框后,再点击右键,在弹出菜单中选择导入本地 
      文件,选择刚才EXCEL保存的文件,即可继续采集了。 
       
      
——
      
争分夺秒背单词 → popularity  n.通俗性;普及,流行
 □ 发帖时间:2023-6-15|10:17:36 |回复|返回|

 页次:1/1页 每页10  本主题贴数6 分页: 1


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn