- 新闻源属性
1.1 源名称
特定源名称,描述该源,比如新浪新闻。
1.2 源唯一标识
特定源ID:primary key
1.3 源URL
新闻源网站:如news.163.com
1.4 源抓取的新闻分类
比如该源下为科技类新闻、体育新闻等。
1.5 源站点类型
用于确定爬取方法,可包括以下类别:JSON站点、XML站点、MOBILE站点、PC站点
1.6 源抓取权重
确定爬取的频率
1.7 源下url白名单
源下URL白名单对该源下抓取的新闻url进行过滤
1.8 源下url黑名单
源下URL黑名单对该源下抓取的新闻url进行过滤
1.9 自定义属性(json) - 新闻源输出数据:新闻属性
2.1 新闻ID标识一条新闻
2.2 具体新闻的URL
2.3 重定向后的URL
2.4 新闻标题
2.5 新闻描述、概述
2.6 新闻发布时间
2.7 新闻图片连接URL
2.8 抓取时间
2.9 url page内容
2.10 新闻来自的新闻源ID
2.11 自定义属性(json)