Tsys OkHtm.com修改版数据采集方法

采集功能 [1]分类管理 a 添加一个频道 b 频道(点击进入栏目管理) c 添加新栏目 [2] 项目管理 a 添加新项目 项目名称: 填写采集的项目名称,便于自己以后管理 所属频道: 请选择采集的频道 所属栏目: 请选择所属于的栏目 所属专题: 不属于任何专题 网站名称: 自己用来采集的对象网站名称 网站网址: 自己用来采集的对象的地址 网站登录: 不需要登录 设置参数 登录参数: 需要登录才能访问的请设置登录参数(不支持验证码登录) 提交地址:点击 登录 按钮后用来验证用户名、密码的文件网

作者: 来源: 时间: 17-11-23 15:17:44

采集功能

[1]分类管理

a 添加一个频道



b 频道(点击进入栏目管理)



c 添加新栏目




[2] 项目管理

a 添加新项目



项目名称: 填写采集的项目名称,便于自己以后管理
所属频道: 请选择采集的频道
所属栏目: 请选择所属于的栏目
所属专题: 不属于任何专题
网站名称: 自己用来采集的对象网站名称
网站网址: 自己用来采集的对象的地址
网站登录: 不需要登录 设置参数
登录参数: 需要登录才能访问的请设置登录参数(不支持验证码登录)
提交地址:点击 登录 按钮后用来验证用户名、密码的文件网址,如动力3.62的


Quote 列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。

列表索引页面:

你要开始采集的列表页。

列表开始/结束标记:

平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。
比如这是某一列表页面的主要部分代码:
<table width="98%" border="0" cellspacing="0" cellpadding="3">
<tr>
<td align="left" valign="top"><br>
<a href="http://www.popasp.com/News.asp?id=1" target=_blank>新闻标题</a><br>
<a href="http://www.popasp.com/News.asp?id=2" target=_blank>新闻标题</a><br>
....省略
<a href="http://www.popasp.com/News.asp?id=50" target=_blank>新闻标题</a>
</td>
</tr>
</table>
    红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。

列表索引分页:

   (1)设置标签
列表索引页的部分代码如下:
<td height="24" align="center" bgcolor="#F6f7f8"> 1 <A HREF="http://www.popasp.com/index_2.html">2</A> <A HREF="http://www.popasp.com/index_3.html">3</A> <A HREF="http://www.popasp.com/index_4.html">3</A><a href="http://www.popasp.com/index_2.html">下一页</a>
<a href="http://www.popasp.com/index_4.html">尾页</a> </td>
红色部分为分页开始/结束标记,只要这两个代码确定,不是不就可以确定“下一页”了?,剩下的交给程序来处理,有的填写:<A HREF="http://www.popasp.com/和">2</A>,这就错了,怎么错了自己想想。

   索引分页重定向:参考链接设置

(2)批量生成
   如有些列表是这种形式:
   第一页



d 列 表 新 闻 链 接 测 试



e 正 文 设 置



f 采 样 测 试



g 属 性 设 置



设置一些采集的选项,注意

采集选项: 立即发布 保存图片 倒序采集 外部链接 中 保存图片不要勾选.

h 点"完成".采集设置完毕

[3] 数据采集

在这里可以看到自己刚设置好的项目, 采集模式:快速模式 稳定模式 筛选模式 采集测试 正文预览这几种自己琢磨了,不多描述 .结果都差不多.

然后开始漫长的采集过程.服务器速度和网速有关系.

[4] 数据审核

数据审核中,有"全选" "部分选择" "全部" 这几种模式,点标题可以查看采集的文章(带图片) .也可以删除数据

[5] 数据导出

是把数据从采集库中导入到cms数据表中,默认的是审核完的文章才可以导出,如果导出过的话会显示"已导出"反之亦然.

数据导出时有几个选项需要注意:



有三种导出模式: 部分选择,全部选择,整个栏目导出.但是不管那种模式都要选择 ·请输出的[资源类别]方向 或者[资源特性],这些是与系统中你建立的资源分类相挂勾的,选择导出到哪个分类.

导出完毕.

资源管理-->常规资源 中可以看到你刚才采集到的文章,默认为已经审核过.

然后可以选择生成或者编辑.
11
22
33
隐藏区块

会员注册

本功能为预留功能,暂不支持注册 ^_^

Login

社交帐号登陆

使用以下任意帐号可登陆本站

Close section
Close

联系我们

关于5UCMS 您有任何需求 均可以留言给我们