本项目是数据的EDA探索,针对自行车共享数据集2015_trip_data
进行探索性数据分析。这个数据集的特征如下表所示:
特征名称 | 说明 |
---|---|
trip_id | 为每个行程分配的唯一ID |
starttime | 在PST中,行程开始的日期和时间 |
stoptime | 在PST中,行程结束的日期和时间 |
bikeid | 每辆自行车的ID |
tripduration | 以秒为单位的行程时间 |
from_station_name | 行程起始站名 |
to_station_name | 行程终止站名 |
from_station_id | 行程起始站ID |
to_station_id | 行程终止站ID |
usertype | 数据可以是以下任意一种:短期通行证持有者或会员 |
gender | 骑手性别 |
birthyear | 骑手出生年份 |
分别观察了数据集的数据分布、时间序列成分、度量测度中心、离群样本、相关性、t-分布、中心极限定理等。
本项目是数据的回归预测,针对混凝土抗压强度数据集Concrete_Data
进行样本的混凝土抗压强度预测。这个数据集的特征如下表所示:
特征名称 | 说明 |
---|---|
cement_component | 水泥(组分1)(千克/立方米混合物) |
furnace_slag | 高炉矿渣(组分2)(千克/立方米混合物) |
flay_ash | 粉煤灰(组分3)(千克/立方米混合物) |
water_component | 水(组分4)(千克/立方米混合物) |
superplasticizer | 减水剂(组分5)(千克/立方米混合物) |
coarse_aggregate | 粗骨料(组分6)(千克/立方米混合物) |
fine_aggregate | 细骨料(组分7)(千克/立方米混合物) |
age | 龄期(天) |
concrete_strength | 混凝土抗压强度(MPa,兆帕) |
先对特征之间,特征与label之间的一致性进行观察,然后选取一致性较高的特征进行分析,基于R^2指标,分别用线性回归/岭回归/Lasso回归/ElasticNet/梯度boosting回归/支持向量机对数据集做单变量与多变量的回归预测分析。
本项目是针对股票作时间序列分析与预测,针对数据集为雪人2017年全年的数据集。这个数据集的特征如下表所示:
特征名称 | 说明 |
---|---|
date | 日期 |
open | 开盘价 |
high | 最高价 |
close | 收盘价 |
low | 最低价 |
volume | 成交量 |
price_change | 价格变动 |
p_change | 涨跌幅 |
ma5 | 5日均价 |
ma10 | 5日均价 |
ma5 | 10日均价 |
ma20 | 20日均价 |
v_ma5 | 5日均量 |
v_ma10 | 10日均量 |
v_ma20 | 20日均量 |
首先进行特征探索,利用Dickey-Fuller检验
评估时间序列的平稳性,然后通过对数以及差分运算使时间序列平稳。通过Durbin Watson统计
计算时间序列的自相关性。最后利用ARIMA
进行时间序列建模分析,最终的MSE: 0.2393
本项目是数据的聚类分析,针对2014年AAAI收到的所有论文数据集[UCI] AAAI-14 Accepted Papers - Papers
进行样本的聚类分析。这个数据集的特征如下表所示:
特征名称 | 说明 |
---|---|
title | 论文标题 |
authors | 论文作者 |
groups | 作者选定的高级关键词 |
keywords | 作者生成的关键词 |
topics | 作者选择的低级关键词 |
abstracts | 论文摘要 |
首先进行特征转换,将数据集按照作者选定的高级关键词进行展开,然后分别用k-means、高斯混合模型、贝叶斯高斯混合模型对数据集进行聚类分析。并对聚类结果采用词云的方式进行可视化分析。最终得到贝叶斯高斯混合模型的聚类效果最好,将数据集聚为3簇时,轮廓系数最大。
本项目是数据的二分类分析,针对俄亥俄州诊所患者出现与否数据集No-show-Issue-Comma-300k
进行样本的分类预测。这个数据集的特征如下表所示:
特征名称 | 说明 |
---|---|
年龄(Age) | 患者的年龄 |
性别(Gender) | 患者的性别 |
预约登记(AppointmentRegistration) | 向患者发出预约的日期 |
预约数据(ApointmentData) | 向患者发出的预约就诊日期 |
一周中具体的某日(DayOfTheWeek) | 向患者发出的预约就诊日 |
状态(Status) | 患者就诊与否 |
糖尿病(Diabetes) | 是否患有糖尿病 |
酗酒(Alcoolism) | 患者是否受到酒精的影响 |
高血压(HiperTension) | 患者是否有高血压 |
残疾(Handcap) | 患者是否残疾 |
吸烟(Smokes) | 患者是否吸烟 |
资助(Scholarship) | 患者是否受到福利机构的资助 |
结核(Tuberculosis) | 患者是否患有结核 |
短信提醒(Sms_Reminder) | 是否向患者发送预约短信提醒 |
等待时间(AwaitingTime) | 等待时间=预约登记-预约数据 |
首先进行特征探究,观察里面的连续变量,布尔值变量以及字符串变量,并绘制不同变量的分布图。然后对变量中的离群值以及明显错误数据进行清洗,探究各变量与状态变量之间的关系。最后分别用决策树,SGD,随机森林以及梯度Boosting对数据集做二分类预测,得到梯度Boosting在ROC_AUC指标下效果最好。