-
Notifications
You must be signed in to change notification settings - Fork 0
/
spider.yaml
37 lines (30 loc) · 1.29 KB
/
spider.yaml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# coding:utf-8
time_out: 200 # 设置抓取和存储一个用户资料超时时间
min_crawl_interal: 8 # 页面请求最小间隔
max_crawl_interal: 11 # 页面请求最大间隔
excp_interal: 5*60 # 请求异常的时候睡眠的时间
# TODO 除了可以指定抓取页数以外,也可以不指定抓取页数,就默认抓取全部
max_search_page: 30 # 搜索最多抓多少页
max_home_page: 35 # 主页微博最多抓取页数
max_comment_page: 2000 # 每条微博最大抓取的评论页数(注意不是评论数)
max_repost_page: 2000 # 转发信息最多抓取多少页
max_retries: 5 # 抓取失败重试次数
yundama_username: '' # 云打码用户名,如果登录账号全是在常用地登录,则不需要填写
yundama_passwd: '' # 云打码密码
db:
host: 192.168.0.151
port: 3306
user: ****
password: ****
db_name: weibo
db_type: mysql
# 保存登录的cookies
redis:
host: 192.168.0.151
port: 6379
password: ****
cookies: 1 # cookie存取
urls: 3 # 抓取过的url
broker: 5 # celery的broker
backend: 6 # celery的backend
id_name: 8 # user_id和对应的name,这个是为转发微博分析而存在的