xiaoyu2018 / HW-MobileInternetTechnology Public

Notifications You must be signed in to change notification settings
Fork 0
Star 3

中国科学院大学（国科大）移动互联网技术第三章爬虫和nlp部分四次作业

3 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
1		1
2		2
3		3
4		4
LICENSE		LICENSE
README.md		README.md

Repository files navigation

MobileInternetTechnology

国科大移动互联网技术第三章爬虫和nlp部分四次作业

作业一

URILIB+正则表达式 Ucas网站邮箱、电话号码的爬取
从人民网上抓取最新栏目中的文章：要求完成的：文章的标题、链接和来源
Jd网站手机图片的爬取

作业二

从学校信息门户网站网站上抓取：学校概况、组织机构等名称，包括该名称下的目录名称。
人民邮电出版社推荐书下载
要求抓取：每个学科下的推荐书，书名以及价格
使用： requests
结果保存到数据库中

作业三

淘宝网站登录
使用：requests和cookies
使用scrapy自动登录学校信息门户网站
（1）判断是否有验证码，如果有验证码可需要获取验证码，然后登录
（2) 登入成功后，获取该网页下的各个条目的名称（如课程网站等等），已经连接。
使用Scrapy爬取Ucas网站教学科研的新闻
要求爬取：新闻的标题、链接和日期，实现多页爬取
分别使用：基本爬虫和自动爬虫

作业四

改进例子程序：4-5-使用集合的交并计算相似性-2.py
要求：通过标点符号将文章分成多个句子，然后再使用该例子程序的方法。
根据Ucas网站的内容，查找和关键字（比如“国科大、课题组，研究、计算机学院”）最接近的网页，输出网页的题目和链接。

About

中国科学院大学（国科大）移动互联网技术第三章爬虫和nlp部分四次作业

nlp crawler ucas ucas-course

Report repository

Languages

Python 100.0%