请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 网文采集大师正在加紧升级完善中,期待大家的意见和建议
 □ 内容: 1楼

      网文采集大师正在加紧升级完善中,期待大家的意见和建议 
       
      目前已经升级更新的功能主要有; 
      1、增加了连续多页目录、文章的采集功能,因此新版本将同时支持论坛主题的采集。 
      2、增加了图片的批量采集和浏览功能 
      3、增加了文件的批量下载功能。 
      4、增加了文件名的多种获取方式。 
      5、增加了网页表格数据的批量采集功能。 
      细节上的一些改进升级: 
      6、网址菜单中增加了全选、反选、取消功能。 
      7、浏览菜单中增加了当前网页指定字符串的高亮显示功能和打开INTERNET选项控制面板的功能。 
      8、文本菜单中增加了查找和查找下一个功能,增加了插入当前浏览网页上所有显示的文字和浏览网页主源码功能,以及增加批量删除包含某字符的行的功能。 
      9、增加了对部分网页弹出对话框、广告、图片等的屏蔽功能。 
      10、根据功能的改进,对界面也作了一些修改。 
       
      
——
      
争分夺秒背单词 → similar  a.相似的,类似的
 □ 发帖时间:2012-11-22|0:18:47 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师正在加紧升级完善中,期待大家的意见和建议
 □ 内容: 2楼

      新版本操作功能简要说明 
       
      新版本把所有批量采集的命令都集中在执行命令按钮上,右侧的获取文章和保存文章按钮只做单页采集或测试用 
       
      去除网页干扰码只是针对部分网站的部分干扰码有效,因为干扰码样式繁杂,个人技术有限,程序不可能完全处理的了 
      段落重排应该不难理解,选择去除网页干扰码和段落重排选项会影响采集速度。 
       
      文件名命名方式选项中的以诒为文件不难理解,采集后文章会以1.txt、2.txt、3.txt保存 
      取网址是指可以取网址中的部分字符为文件名,网页标题,一般打开网页后会在浏览器或在本软件的标题栏显示网页的标题,正文则是在采集到的文章的前面部分提取,这些都依赖于右侧的起止关键字,请设置后先保存一下看是否能够成功,再批量采集。 
       
      执行命令按钮点击后弹出的各项菜单操作说明如下: 
      1、提取目录链接 
       就是采集目录链接页中的所有符合左侧过滤关键字的链接,如果目录页只是单页的,比如一般小说网的小说目录只有一页,那么请不要在下一页链接名称中输入下一页链接名称,如果是有多页的目录,比如有的新闻网的最新文章,可能目录页有3页或者5页,甚至更多页,那么你如果要采集多页的就输入下一页链接的名称,而左侧的地址则输入要采集的第一个页面的地址,关键字则是不同于页面上其它链接的链接地址前缀或者其中的某段字符,这个过滤关键字新版本支持通配符*和?了,提取成功的目录链接最好再检查一下,也许其中还是会包含不需要的链接地址的,请选择后再使用右键的删除菜单。 
       
      2、批量单页采集 
       就是对所有左侧的文章或小说链接页中的需要的文字进行采集,这些文字一般只有一页的,采集成功会打勾,如果采集结束还提示有没采集成功的,请检查正文起止关键字或文件名关键字,或者也有可能此链接不对,请检查再删除已经采集的再继续采集,批量单页采集时请不要输入下一页链接名称。 
       
      3、批量多页采集 
       就是可以批量采集有链接目录的多页面文章,这个多页也可以是单页的,有的新闻网上的文章,有时会分成多页,可利用本软件进行采集,采集时要输入下一页链接名称,这个功能可以用来采集多个论坛主题了。 
       
      4、专业采集网文 
       和批量单页采集类似,都是针对有目录的链接进行采集的,不过正文起止关键字要从网页源码中获取,程序也是从网页源码中采集文字的,难度稍高,建议懂得一些HTML代码知识的用户使用。 
       
      5、逐页采集网文 
       有很多小说网中的小说,前后章节在页面中都有下一章、下一回、下一页的链接的,这类文章用本软件采集的话,只要知道要开始采集的页面的地址,再输入下一页链接的名称,设置好正文起止关键字就可批量类人读小说一样一页一页自动采集了。 
       
      6、逐页采集表格 
       可以像逐采集网文一样逐页将网页上的表格数据抓取下来,并保存原来表格的形式,目前只对二维表有效,复杂格式的表格程序采集有难度。 
       
      7、批量采集图片 
       可以批量将网页上的图片下载下来,比如论坛中的图片、新浪图集中的图片等,注意正文起止关键字中是输入图片的宽度和高度像素的下限的,比如输入600和400就表示只采集大于600*400像素的图片。 
       
      8、批量下载文件 
       可以批量下载目录列表中的网络文件,技术有限,本软件并不是多线程的,要使用的话,建议只下载小文件哦。
——
      
争分夺秒背单词 → annually  ad.年年,每年
 □ 发帖时间:2013-4-8|11:23:19 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师正在加紧升级完善中,期待大家的意见和建议
 □ 内容: 3楼

      新版本界面图: 
      
——
      
争分夺秒背单词 → testify  v.证明,证实,作证
 □ 发帖时间:2014-2-24|20:08:12 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:网文采集大师正在加紧升级完善中,期待大家的意见和建议
 □ 内容: 4楼

      上图是在采集http://v.book.ifeng.com/book/ts/1966/135007.htm页面的文章,此网页禁止复制,但对本软件无效
——
      
争分夺秒背单词 → despite  prep.不管,不顾
 □ 发帖时间:2014-2-24|20:17:25 |回复|返回|

 页次:1/1页 每页10  本主题贴数3 分页: 1


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn