案例1:采集http://data.eastmoney.com/rzrq/detail/603000.html页面的 人民网(603000)融资融券交易明细 表格数据 步骤: 1)、在软件中输入或粘贴入上面的网址,回车打开网页 2)、点击抓取测试,检测到该页只有1个表格,标题就是: “序号 交易日期 融资余额(元) 融资买入额(元) 融资偿还额(元) 融券余额(元) 融券卖出量(股) 融券偿还量(股) ” 3)、点击左侧表格列表中的这个表格,程序会自动将标题的前3项输入到软件“表格第一行前部分内容”输入框中,当然,你也可以点击表格第一行前部分内容标签,使其变为“所有表格中所处的序号”,在右侧输入序号1,或点击表格列表,让程序自动提取序号到右侧输入框中。 4)、现在来确定翻页方式,这个表格一共有8页,可是居然没有下一页链接,但我们检查页面下面第2页第3页链接地址,发现链接中似乎有页码数: http://data.eastmoney.com/rzrq/detail/603000,1.html http://data.eastmoney.com/rzrq/detail/603000,2.html http://data.eastmoney.com/rzrq/detail/603000,3.html ... 那我们就把一个地址直接改成没打开过的页数,放到浏览器中测试一下: http://data.eastmoney.com/rzrq/detail/603000,8.html 发现打开后的表格页面是一样的,那就好办了 我们就使用“根据网址中的页数打开”,再在右侧关键字输入框中分别输入1到8,再修改网址为:http://data.eastmoney.com/rzrq/detail/603000,(*).html 5)、选择自动定时采集,再点击一下抓取表格,程序就开始抓取了,8页内容并不多,程序一下子就抓取结束了。
|