DeDeCMS织梦的采集
教程
人力资源管理pdf成真迷上我教程下载西门子数控教程protel99se入门教程fi6130z安装使用教程
,超级详细
步骤/方法
1. 1
第一步、我们打开织梦后台点击采集——采集节点管理——增加新节点
2. 2
第二步、这里我们以采集普通文章为例,我们选择普通文章,然后确定
3. 3
第三步、进入了采集的设置页面,填写节点名称,就是给这个新节点取个名字,这里你可以任意填写。
4. 4
第四步、打开你想要采集的文章列
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
页。(这里我们以这个网站为例http://www.nanmafan.com/xunyicao/打开这个页面,右键——查看源文件找到目标页面编码,就在charset后面)
5. 5
第五步、填写页面的基本信息,填完后如图
6. 6
第六步、填写列表网址获取规则看看文章列表第一页的地址。
http://www.nanmafan.com/xunyicao/list_49_1.html
对比第二页的地址http://www.nanmafan.com/xunyicao/list_49_2.html
我们发现了他们除了49_后面的数字不一样,其他的都一样,所以我们可以这样写
http://www.nanmafan.com/xunyicao/list_49_(*).html
就是把1换成了(*)因为这里只有2页,所以我们就填从1到2每页递增当然是1了,2-1...是等于1吧
这里我们就填写完了
可能大家采集的有些列表没有规则,那就只有手工指定列表网址了,如图
每行写一个页面地址
7. 7
第七步、填写文章网址匹配规则了,回到文章列表页
右键查看源文件找到区域开始的HTML,就是找文章列表开始的标志。
我们很容易的找到了如图中的“新闻列表”。从这里开始,后面就是文章列表里
我们再找文章列表结束的HTML
就是这个了,一个很容易找到的标志
如果链接中含有图片:
不处理采集为缩略图这里根据自己的需要选择
8. 8
第八步、对区域网址进行再次筛选:
(使用正则表达式)必须包含:(优先级高于后者)
不能包含:打开源文件,我们可以很清楚的看到,文章链接都是以.html结束的所以,我们在必须包含后面填.html如果遇到有些列表很麻烦,还可以填写后面的不能包含
点击保存设置进入下一步,可以看到我们获得的文章网址
看到这些就是对的了,我们保存信息进入下一步设置
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
字段获取规则
我们看看文章有没有分页,随便进入一篇文章看看。。我们看到这里的文章没有分页
所以这里的我们就默认了
我们现在来找文章标题等等随便进入一篇文章,右键查看源文件
看看这些
依照源码填写
9. 9
第九步、填写文章内容的开始,结束和上面的一样,找到开始和结束标志.
开始部分如图
结束部分如图
最后填写如图
10. 10
第十步、你想过滤文章中的什么内容就到过滤规则里写吧,比如要过滤文章中的图片,
选择常用规则,如图
再勾选IMG,如图
然后确定
这样我们就把正文中的图片过滤了
11. 11
第十一步、设置完毕后点保存设置并预览,如图
这样一个采集规则就写好了,很简单吧有些网站很难写,可要多下点功夫了哦
我们点保存并开始采集——开始采集网页一会的功夫就采集完了
看看我们采集到的文章
12. 12
最后、导出数据
首 先选择要导入到的栏目,按“请选择”那里即可在弹出的窗口中选择你需要导入的栏目发布选项这里一般默认即可,除非你不想马上发布。每批导入默认是30条, 这里修改与否都无所谓,附带选项一般选“排除重复标题”,至于自动生成HTML那个选项建议先别生成,因为我们还要去批量提取摘要和关键字。
文章标题
匹配规则:
[内容]
过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}
Dedecms标记入门(新手必读的模板教程)
Dedecms新版本(V5系列)模板标记非常灵活,对于很多新人是一个头疼的问题,天涯今天就来和大家谈谈这些标记,为以后大家修改、制作模板打下扎实基础。
首先我们去官方的《模板制作帮助文档》查看这些标记的简介,如何来看帮助文档呢,下面天涯就来简单的说一下,我们拿最常用的Arclist标记来做说明。
帮助文档中都有【功能说明】【适用范围】【基本语法】【属性说明】这些部分组成,
【功能说明】用于解释模板标记使用功能,建议新手都把这些标记功能看看,大致做一个了解。
【适用范围】 由于Dedecms模板大致分为首页、频道、列表、内容以及其他附加模板组成,使用范围指出这些标记在哪些模板中起作用。模板文件夹中(以Dedecms 默认模板为例,即{cmspath}\templets\default)大家可以仔细分析下,模版中很多都是以下列这些名字出现 index.htm,index_X.htm(封面模板),list_X.htm(列表模板),article_X.htm(内容模板),你可以对照标记 的适用范围,查看这些标签在哪个模板中能起到作用。
【基本语法】用于介绍模板基本使用方法,在使用时候可以拿来根据自己的需要进行响应的修改。
【属性说明】这些属性,决定你调用的内容,决定Dedecms解析这些标记的形式,属性非常重要。
以上这些介绍主要是让大多数新手学会看帮助文件,模板修改使用的大多数问题都是因为自己不去看这些帮助文件导致的,希望广大Dedecms新人引以为戒。
下面就来简单说下Dedecms模板的分类,搞过ASP的人应该知道,动态网页基本上就是对变量、数组(数据库)的操作,然后通过语句输出为HTML,dedecms的这些标记也是起到同样的效果。
下面根据起到的不同效果对模板进行如下分类:
一.变量操作型 这里的变量不同于对编程中那个复杂的变量,新人不懂,我这里所指出的变量是Dedecms调用局部内容进行输出的一些标记,这里有: 【Flink (friendlink)标记】【Page 标记】【Pagelist 标记】【Pagebreak 标记】【Prenext 标记】【Pagetitle 标记】【Myad 标记】【Vote 标记】以及还有系统不常用的(其实天涯经常使用),例如global 标记、include 标记、mytag标记、position 标记,这些标记大家可以看出,都是输出来为一部分内容,并不可以重复,这个标记在解析时候生成的只是一块不重复的内容。
二.数组操作型 这里的数组当然在模板标记中,指的是循环输出一些内容的标记,例如N行文章、N个软件、N个会员信息等等,Dedecms这些标记有:【Arclist 标记】【Field 标记】【Channel 标记】 【Type 标记】【Autochannel 标记】【Mynews 标记】【LOOP 标记】【Channelartlist 标记】【List 标记】【Ask 标记】【Sql 标记】【Group 标记】【Groupthread 标记】【booklist 标记】【catalog 标记】【chapter 标记】【contentlist 标记】当然也有foreach这种“罕见”的标记,这些标记使用时,通过属性设置,能循环输出一些列内容,很多重复的东西,往往只要一个标记就搞定,不信可以开个模板仔细观察观察。
有了这个分类以后,在修改、制作模板时候相信会得心应手了,天涯在修改、制作模板中经常使用的标记有sql、include、loop(貌似现在被sql取代了)、mytag这些标记,因为这些标记很“自由”,当然新人可以在模板制作修改中尝试使用这些灵活自由的标记。
本篇接下来简单讲一下数组操作性标记的原理以及他的使用方法。
我们在Dedecms模板中经常看到下面这样的例子:
{dede:arclist row=4 titlelen=20 orderby=pubdate typeid=58}
[field:pubdate function=strftime('%m-%d',@me)/][field:textlink/]
{/dede:arclist}
这里我们使用了arclist标记,通过属性我们可以得到下列相关信息:
row=4 调用4行这样的数据
titlelen=20 取标题的前20个字符(2个字符为一个中文字符)
orderby=pubdate 排列顺序为按照发布时间排列,当然你也可以选择其他,帮助有详细说明。
typeid=58 调用栏目id为58栏目的文章
标记都是通过 {dede:arclist}这个开始,{/dede:arclist}结束,这个和html有的相像,所以做dedecms模板,最好熟练下html的相关知识。
开始、结束标记中含有[field:textlink/]这样的标记,新手需要记住的是[field:textlink/]只可能存在于{dede:XXX}{/dede:XXX}之间,绝对不肯能拿出来单独使用!
其他数组操作性标记都是同样的原理,只是将繁琐的从数据库调用的东西简化为dedecms标记,dedecms在解析时候读取标记然后进行查询、输出等一些后续操作。新手注意的是,熟练掌握什么是频道页、列表页、内容页,以及调用内容关系和范围,根据自己的页面需要,使用不同的标记达到效果,这是新手在不断实践的基础下才能掌握的。
时间也不早了,天涯的标记入门就写到这里,希望刚刚入门织梦,以及对织梦有一定了解的新人仔细阅读下本篇,相信对你们制作网站会很有帮助,天涯希望使用织 梦的人能把自己网站越建越好,多为用户想想,提高自身素质,记住,既然选择了做站长,就要比普通网民有更高的素质(技术、道德...),呵呵扯远了,预祝 大家学习进步,心想事成。