当前位置:PHPCMS首页 >> 采集教程 >> 文章采集( 示例 )

文章采集( 示例 )

2007-07-27 12:32:32  来源:互联网
采集相关报道
 

打开http://book.phpip.com/more.php?class_id=2   下载此例规则

我们开始采集武侠小说栏目的文章

在这个页面当中,有作品名称和最后章节都有链接地址。

添加任务:

首先分析:

作品名:http://book.phpip.com/zuopin.php?book_id=20115

最后章节:http://book.phpip.com/yuedu.php?book_id=20115&chapter_id=371896

我们发现在最后章节中含有chapter_id

文章网址筛选 中添加

此页面具有分页

我们点击下一页,然后再点击上一页。发现地址变为

第一页:http://book.phpip.com/more.php?navigator_page=1&class_id=2

第二页:http://book.phpip.com/more.php?navigator_page=2&class_id=2

不同的地方已经出来。

我们任意打开一篇文章:

http://book.phpip.com/yuedu.php?book_id=29781&chapter_id=372679

开始找寻内容规则:

查看源码

我们先找标题:所选部分前面的要是唯一的。

内容:

 

保存。

开始测试...

我们发现采集的名称都是乱码。

我们看源文件最上面的编码方式

是utf-8编码的站点。

我们进入规则高级设置

继续测试

测试成功。

开始采集网址--发布内容---批量生成。

责任编辑:jackie
0
顶一下
0
踩一下
【 加入收藏 】 【 本文链接 】 【 邮件推荐 】 【 打印本页 】
 >> Google提供的广告
 >> 图说天下
 >> 文字广告内容
1826网络直销平台 免费下载Firefox拒绝病毒的浏览器 四平风采影视 专业美工设计,网页模板定制,公司网站制作。

关注热点 >> 

• 火车采集器使用教程

--  火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛...

• 新闻采集( 示例 )

-- 采集文章需要先获取文章的地址,通常我们打开的是栏目列表页面 下...

• 文章采集( 示例 )

-- 打开http://book.phpip.com/more.php?class_id=2 下载此例规则 ...