请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 网页表格数据采集器 采集案例
 □ 内容:

      案例1:采集http://data.eastmoney.com/rzrq/detail/603000.html页面的 人民网(603000)融资融券交易明细 表格数据 
       
      步骤: 
      1)、在软件中输入或粘贴入上面的网址,回车打开网页 
       
      2)、点击抓取测试,检测到该页只有1个表格,标题就是: 
      “序号 交易日期 融资余额(元) 融资买入额(元) 融资偿还额(元) 融券余额(元) 融券卖出量(股) 融券偿还量(股) ” 
       
      3)、点击左侧表格列表中的这个表格,程序会自动将标题的前3项输入到软件“表格第一行前部分内容”输入框中,当然,你也可以点击表格第一行前部分内容标签,使其变为“所有表格中所处的序号”,在右侧输入序号1,或点击表格列表,让程序自动提取序号到右侧输入框中。 
       
      4)、现在来确定翻页方式,这个表格一共有8页,可是居然没有下一页链接,但我们检查页面下面第2页第3页链接地址,发现链接中似乎有页码数: 
      http://data.eastmoney.com/rzrq/detail/603000,1.html 
       http://data.eastmoney.com/rzrq/detail/603000,2.html 
       http://data.eastmoney.com/rzrq/detail/603000,3.html 
      ... 
      那我们就把一个地址直接改成没打开过的页数,放到浏览器中测试一下: 
      http://data.eastmoney.com/rzrq/detail/603000,8.html  
      发现打开后的表格页面是一样的,那就好办了 
      我们就使用“根据网址中的页数打开”,再在右侧关键字输入框中分别输入1到8,再修改网址为:http://data.eastmoney.com/rzrq/detail/603000,(*).html 
       
      5)、选择自动定时采集,再点击一下抓取表格,程序就开始抓取了,8页内容并不多,程序一下子就抓取结束了。

——
      
——

  发帖时间:2014-8-27|20:31:57 |返回|

 页次:1/1页 每页10  本精华主题跟贴数0 分页: 1

Go Top


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我要

Copyright by(C)2003-2015 http://abc.sy578.cn