前两天测试采集器,一共采集了近4000篇新闻,来回导入测试大概9000篇,大家可以看看这个篇文章的编号,快要到10000了吧,

上星期六晚上最初只想搞一个收集一些最新新闻,可以换点IP流量,在网上找了很久,有不少的采集器,以前有“百度小偷”、“天空小偷”类似的程序,所以想找一个可以采集最新新闻的工具。百度Google的很久,下了几款工具来测试,都不是很满意,要么是软件要收费,要么是功能不怎么样的,居然弄到3点过,然后郁闷地去睡觉了,第二天早上(10点过才起床)起来马上开工,自己搞个吧,于是乎“网易163新闻采集器”就这样产生了,为什么没有取名为“163新闻小偷”呢,因为我讨厌现实中“小偷”,听起来很不爽,所以直接取名“采集器”

花了差不多两个小时吧,分析网页,拆分网页,然后是合并内容,搞定一个版面后,写其它版面的采集就非常容易了。还是比较满意,可以准确地采集新闻的内容,包括标题和网址(来源用,做人还是厚道一点,转载其它站的内容时,注明出处),三个步骤,轻松导入到网站,打开软件,就等着数据流来袭吧,哈哈哈。。。

首先采集内容,然后输出XML文件,最后导入到网站,偶用的Sablog程序,作者小A做了一个导入数据功能,直接导入XML文件就可以了,这个功能不错哦,一下子就可以导入上百条内容,然后了导入上千上万条内容也是支持的。程序有定时采集,自动过滤功能,导出内容功能。你可以设定一个间隔时间,让程序自动定时去采集指定页面的内容,自动过滤相同的内容,当发现采集的内容相同时,自动跳过。最后就是导出功能了,软件已经集成了XML导出功能,可直接用于Sablog,数据库支持ACC和MSSQL,如果你是其它网站,直接把新闻导入到数据库就OK,目前已经有网易滚动新闻,国际新闻,国内新闻,娱乐新闻,Cnbeta新闻(本站互联网新闻均采集于cnbeta),Crsky软件新闻,腾讯QQ娱乐新闻自动采集器。

闲话少说,发个截图吧,等偶把程序整理一下,到时放到网站上给大家使用,随便说一下,最近偶喜欢喜欢搞机器人程序,如果有朋友需要机器人程序的话,可以跟我联系,网页机器人,应用程序机器都可以做哈,好了,睡觉去咯。。。。

 

 


of1fpwkmj)k$~7e90lf50lw.jpg

s`uq8$sf]@jo@m3qkl(bozh.jpg

最后修改:2009 年 08 月 16 日
一分也是爱