请登录[¤ 阳光论坛 ¤]参与讨论


阳光宝宝
90

 □ 主题: 回应:本站最新力作--网页文本采集大师 发布了
 □ 内容: 11楼

      百度汉语字典的解释的抓取示例 
       
      首先你要找到一个字库列表,如下格式: 
       
      吖 
      阿 
      啊 
      锕 
      嗄 
      哎 
      哀 
      唉 
      埃 
      ... 
       
      然后你要想办法在每行汉字前加上如下字符串: 
       
      http://dict.baidu.com/s?wd= 
       
      使每行变为: 
       
      http://dict.baidu.com/s?wd=吖 
      http://dict.baidu.com/s?wd=阿 
      http://dict.baidu.com/s?wd=啊 
      ... 
       
      之后再保存为一个文本文件或直接复制到软件的文本编辑框,导入软件的网址列表。 
       
      接着你打开第一个链接看看,将正文起始关键字设为: 
       
      把百度设为首页 
       
      把结束关键字设为: 
       
      隐藏更多释义或者2009 
       
      标题起始关键字和结束关键字就不要去设置了,试一下,是不是可以正常获取,然后再点击批量采集就行了,好,现在就看你的字库有多大了,我曾经从百度下载过6763个常用汉字的解释,保存在电脑里就是6763个以每个汉字为名的文本文件。
——
      
争分夺秒背单词 → hall  n.门厅;过道;会堂
 □ 发帖时间:2009-6-7|9:19:30 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:本站最新力作--网页文本采集大师 发布了
 □ 内容: 12楼

      如果你遇到无法复制的网页,请打开本软件,将对方的地址复制到本软件地址栏后回车,然后再点击获取文章即可获取,另外如果你使用的是IE类浏览器,比如IE、世界之窗、腾讯TT、马桶等,在这些浏览器未关闭的情况下,打开本软件,将自动获取当前你浏览的页面地址到本软件地址栏中,此时你直接回车就可打开复制了。 
       
       另外你在安装完本软件后,打开上述IE类浏览器,复制一段文字,再呼出右键快捷菜单,还将会看到“文本采集(J)”菜单,此时,你只要点击此菜单,系统自动会激活本软件,并自动将你选定的文字复制到软件中,启动软件后,你仍可以随时执行上述文字采集操作。 
       
       本软件的文采功能可以说是多种多样的,可以是自动监视剪切板,自动粘贴,也可以使用拖放篮拖放后采集,还可以在你用上述IE类浏览器浏览网页时,点击本软件的获取已打开浏览器浏览的网页文字进行采集,这些都是除了批量采集外的采集功能,你平时喜欢哪种就可用哪种。
——
      
争分夺秒背单词 → experimentally  ad.实验上,实验性地
 □ 发帖时间:2009-6-7|20:39:25 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:本站最新力作--网页文本采集大师 发布了
 □ 内容: 13楼

      如你对此软件有什么问题或建议,请移驾“轻松文本”版块发表!
——
      
争分夺秒背单词 → each  pron.各,各自 a.各
 □ 发帖时间:2009-7-16|22:29:11 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:本站最新力作--网页文本采集大师 发布了
 □ 内容: 14楼

      使用熟练之后,你会发现本软件还有很多相关用处的,希望你能发现他。
——
      
争分夺秒背单词 → guidance  n.引导,指导,领导
 □ 发帖时间:2009-7-17|23:01:24 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:本站最新力作--网页文本采集大师 发布了
 □ 内容: 15楼

      示例:批量下载LRC歌词 
       
      1、首先请用软件打开歌词下载网站地址: 
       
      http://lrc.bzmtv.com/lrc_list/top_1.htm 
       
      2、查找歌词链接列表关键字 
       
      通过查看分析,可知关键字使用: 
       
      http://lrc.bzmtv.com/lrc/ 
       
      即可 
       
      3、点击抓取列表,抓过一页后,再点击网页上的下一页按钮,这个网站有20页的歌词链接列表,每页有300多首歌曲的,你可以一直点下一页、下一页,直到最后一页,这样就抓取了6000多个歌词链接列表项了。 
       
      4、再点击第一个链接列表中的链接地址,先不要输入正文起始关键字和结束关键字,点击采集正文,可以看到:我们想要的LRC歌词的起始关键字为:上传LRC歌词 
      结束关键字为:下载保存歌词 
       
      5、再看看要将这个LRC歌词保存成什么文件名,经过第一个示例链接的采集,可看到的歌词首行的格式为: 
      [ti:今生最爱] 
      所以我们设定标题起始关键字为:[ti: 
      结束关键字为:] 
       
      5、现在再新建一个目录,就可点击批量采集开始下载这些LRC歌词了。 
       
      6、下载时保存的文件名都是:*****.txt,我们再用软件的批量改名功能将txt->LRC即可。
——
      
争分夺秒背单词 → castle  n.城堡;巨大建筑物
 □ 发帖时间:2009-8-12|10:18:57 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:本站最新力作--网页文本采集大师 发布了
 □ 内容: 16楼

      本软件今天再次升级了,软件只有在不断的使用中才会发现问题,今天对软件进行了一些功能的扩充和完善,并修复几了个BUG。
——
      
争分夺秒背单词 → merit  vt.值得vi.应受赏(罚)
 □ 发帖时间:2009-8-20|0:09:08 |回复|返回|



我要算命
5

 □ 主题: 回应:本站最新力作--网页文本采集大师 发布了
 □ 内容: 17楼

      真的不错啊!我试用了一下.其中关键的网址抓取功能最佳.而且我发现了可以用快车批量(成千上万)下载网址,然后导入本软件左上角框中即可.
——
      我想通过QQ直接向作者联系购买软件事宜!
争分夺秒背单词 → better  a.较好的 ad.更好地
 □ 发帖时间:2009-12-12|15:33:24 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:本站最新力作--网页文本采集大师 发布了
 □ 内容: 18楼

      谢谢我要算命的关注和支持
——
      
争分夺秒背单词 → pudding  n.布丁
 □ 发帖时间:2009-12-13|9:22:20 |回复|返回|



阳光宝宝
90

 □ 主题: 回应:本站最新力作--网页文本采集大师 发布了
 □ 内容: 19楼

      该软件近期正在升级完善中,欢迎大家提意见或建议
——
      
争分夺秒背单词 → robot  n.机器人;自动机
 □ 发帖时间:2010-5-17|11:21:21 |回复|返回|

 页次:2/2页 每页10  本主题贴数18 分页: 1 2


你还没有登录论坛,所以不能发表你的意见。你可以选择:

1、我已注册,我要

2、我还没注册,我要

3、太麻烦了,我还是

Go Top

Copyright by(C)2003-2015 http://abc.sy578.cn