偶做了一个新闻采集的小程序,可以导出RSS文件,配合SA的导入功能,可以一下子导入采集的新闻,目前已经做好163滚动新闻,国际新闻,国内新闻,娱乐新闻,crsky软件,Cnbeta新闻进行自动采集。今天首次发布163滚动新闻采集器。
本软件为绿色免费软件,解压后即可以使用!版权所有,盗版不究!
开发平台:
Delphi7 + WindowsXP SP2
测试平台:
WindowsXP SP2 / Windows2000 Server / Windows 2003
(其它平台未测试,只要是Windows系统应该都兼容的)
功能简介:
自动采集新闻标题,网站URL地址,新闻详细内容,新闻description部分自动过滤HTML代码,自动采集完整的新闻详细内容。
定时采集,自动过滤重复的新闻,导出RSS XML文件,
日志管理,数据支持ACC数据库和MSSQL数据库(也可以用于其它网站的导入功能)
使用说明:
点击采集新闻,软件是单线程进行采集(不会用多线程,呵呵,不要丢砖谢谢),等待采集完成以后,导出文件即可,输出的文件是XML文件,可直接导入到Sablog博客中,(注意:如果你的博客是UTF-8编码格式的话,请用转换工具如EditPlus打开导出的XML文件,另存为UTF-8格式即可),另外当新闻导出后,数据库会自动记录新闻为“已导出”状态,如果点“全部初始化”,会将数据库中所有已经采集的新闻置为“未导出”状态,可以再次导出所有新闻。
为配合Sablog导入,偶简单修改过Admin\database.php 请大家下载后,先备份原文件,再覆盖database.php 文件即可。
如果是导入到其它系统的话,请使用data\data.mdb文件导入即可,net163_news 为新闻表,net163_log 为日志表
20 条评论
如果网站未更新的话,采集就是0的.
采集正常了,但怎么导入都是乱.码的?已经打开XML文件存为utf8也不行,存为gb2312也时乱码。
怎么今天采集不到了?采集都是0
[quote=﹎sκyˊ☆]怎样修改?[/quote]
把database.php文件第210行,代码如下:
[quote=--]
$mycontent ="文章来源: <a href=".$rss['link']." target=_blank>".$rss['link']."
";[/quote]
删除或者注释就可以了.
怎样修改?
[quote=goodman]如果能分类采集不同频道就好了,比如汽车,经济等,大杂烩的数据没什么意义。[/quote]
还有国际新闻,国内新闻,娱乐新闻都有的,因为采集的规则不一样.我分成了几个软件.
如果能分类采集不同频道就好了,比如汽车,经济等,大杂烩的数据没什么意义。
quote=﹎sκyˊ☆
文章来源: http://news.163.com/07/0917/17/3OK2K1CG000120GU.html
上面屏蔽掉[/quote]
请修改database.php 就可以了.
(本文来源:中国新闻网 )
文章来源: http://news.163.com/07/0917/17/3OK2K1CG000120GU.html
上面屏蔽掉
如果这个小程序对大家有用的话,请支持我一下,给顶起,谢谢!