首页 技术学习正文

PTCMS 采集规则的常用正则表达式

糖果 技术学习 2020-01-10 646 0

[subnovelid] // floor(小说ID/1000)  这里可以这样使用 book/[subnovelid]_[novelid]/  意思/book/12_12555/  过滤掉12_

[novelid] //小说ID

[页码] //列表采集页码

[空白] //空白 包含换行和空格

[内容] //等同于 .+? 匹配之间的任何字符

[数字] // 等同于 \d+ 匹配0-9数字组合

常用正则,以下的自己百度下

.+?    全部任意字符   

\d+   

\w+      

\s           

\r\n     表示回车换行



* 重复零次或更多次

+ 表达意思重复一次或更多次

d:匹配数字

w:匹配字母或数字或下划线或汉字

s:匹配任意的空白符


(.*?)    加括号表示要收录的内容,不带括号则表示通配路径


选项设置:

添加新书

章节目录乱序处理


列表页地址:目标站的首页或者列表页

信息页地址:[subnovelid]_[novelid] 或 [novelid]

目录页地址:[subnovelid]_[novelid] 或 [novelid]


小说名称:[内容] 或 (.+?) 或 (.*?)

小说书号:"/\d+_(\d+)/" 或 "/\d*_(\d*)/" 或 "(\d*)/"

以下设置差不多:数字用d,中文字可以用[内容] 或 (.+?) 或 (.*?)

小说内容:<div id="content">((.|\n)+?)</div> 这个可以去掉一些空格


评论