免费采集规则活动之：跟我学新云采集入门

2022-07-15 80酷酷网 80kuku.com

免费采集规则活动之：跟我学新云采集入门

白天要整理点东西，没有时间帮论坛里的一位朋友写采集规则，刚在QQ上教他，不知道他学的怎么样。

其实采集规则并不难，只要你能看懂一点HTML就行了。下面把教学内容发出来和大家分享一下。

新手站长朋友把后台打开，我们也一起操作一遍吧！

首先进入新云管理系统后台，在“文章中心”找到“文章采集管理"这一项，选择顶部的”添加采集项目“

这次采集我们以http://news.sina.com.cn/health/yy/index.html新浪健康栏目作为目标站。

下面开始写这个规则：

项目名称：健康

目标站点URL：http://news.sina.com.cn/health/yy/index.html

所属分类：选择你所要添加到的栏目。

所属专题：假如你设置了专题，也可以选择。

远程列表URL：http://news.sina.com.cn/health/yy/index.html

其他的不用管，点下一步，我们来看列表文件的采集代码：

在目标页面空白处点右键，点”查看源文件”调出列表页面的源代码，我们根据列表页面很容易看出，文章列表的开始部分就在

<div align=left class=title14>，假如这个还不是很清楚的话，我们可以加上，那么完整的别表开始代码就可

以写成：
<div align=left class=title14>


再来看获取列表结束代码：

</div>

获取连接开始代码：
<li><a href=

获取连接结束代码：
TARGET=_blank>

下一步，我们来看文章页面的规则。在写的过程中要注意“代码的唯一性”。

http://news.sina.com.cn/w/h/2007-04-10/115712742951.shtml

点开内容页面，同样的方法调出内容的“源文件”。

获取文章标题开始代码：<title>

获取文章标题结束代码：_新闻中心_新浪网</title>

获取文章内容开始代码：



  <div class="artibody" id="artibody">

获取文章内容结束代码：


  <div align="center">

指定演示URL：  http://news.sina.com.cn/w/h/2007-04-10/115712742951.shtml

下一步点演示，看看有能不能看到预览的采集效果页面。如果可以，那么恭喜你已经成功了。

我们再点采集，出现下面的信息：

文章标题：曰本科学家研发出新疫苗称有望治愈老年痴呆症
文章作者：佚名
文章来源：不详
采集时间：2007-4-11 0:01:04
目标地址：http://news.sina.com.cn/w/h/2007-04-10/103112742342.shtml
恭喜您！采集成功

教学到此结束，欢迎大家关注免费采集规则活动！
站长自习室 http://www.zixishi.net  草根站长QQ群：8530681