国科大移动互联网技术第三章爬虫和nlp部分四次作业
- 淘宝网站登录
使用:requests和cookies - 使用scrapy自动登录学校信息门户网站
(1)判断是否有验证码,如果有验证码可需要获取验证码,然后登录
(2) 登入成功后,获取该网页下的各个条目的名称(如课程网站等等),已经连接。 - 使用Scrapy爬取Ucas网站教学科研的新闻
要求爬取:新闻的标题、链接和日期,实现多页爬取
分别使用:基本爬虫和自动爬虫
-
改进例子程序:4-5-使用集合的交并计算相似性-2.py
要求:通过标点符号将文章分成多个句子,然后再使用该例子程序的方法。 -
根据Ucas网站的内容,查找和关键字(比如“国科大、课题组,研究、计算机学院”)最接近的网页,输出网页的题目和链接。