长期维护,欢迎issue,帮助完善代码
- 可爬取热帖和全部,在
def get_data()
中设置url
- 需要使用IP代理池,推荐一个简单易用的代理:快代理
- Excel(csv)和MongoDB两种写入方式
- retry机制,失败直接在之前的page和num上进行重新爬取,注:一个page 有80条帖子[80个num]
- 股票代码,起始页码,终止页码,如果使用Excel(csv)方式写入,请设置
“MongoDB=False”
demo = guba_comments('601985', pages_start=1321, pages_end=1480, MongoDB=True)
proxies = {'http': 'http://y889.kdltps.com:15818', 'https': 'http://y889.kdltps.com:15818'}