Skip to content

wzy6642/Machine-Learning-Case-Studies

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Machine-Learning-Case

trip

本项目是数据的EDA探索,针对自行车共享数据集2015_trip_data进行探索性数据分析。这个数据集的特征如下表所示:

特征名称 说明
trip_id 为每个行程分配的唯一ID
starttime 在PST中,行程开始的日期和时间
stoptime 在PST中,行程结束的日期和时间
bikeid 每辆自行车的ID
tripduration 以秒为单位的行程时间
from_station_name 行程起始站名
to_station_name 行程终止站名
from_station_id 行程起始站ID
to_station_id 行程终止站ID
usertype 数据可以是以下任意一种:短期通行证持有者或会员
gender 骑手性别
birthyear 骑手出生年份

分别观察了数据集的数据分布、时间序列成分、度量测度中心、离群样本、相关性、t-分布、中心极限定理等。

Concrete

本项目是数据的回归预测,针对混凝土抗压强度数据集Concrete_Data进行样本的混凝土抗压强度预测。这个数据集的特征如下表所示:

特征名称 说明
cement_component 水泥(组分1)(千克/立方米混合物)
furnace_slag 高炉矿渣(组分2)(千克/立方米混合物)
flay_ash 粉煤灰(组分3)(千克/立方米混合物)
water_component 水(组分4)(千克/立方米混合物)
superplasticizer 减水剂(组分5)(千克/立方米混合物)
coarse_aggregate 粗骨料(组分6)(千克/立方米混合物)
fine_aggregate 细骨料(组分7)(千克/立方米混合物)
age 龄期(天)
concrete_strength 混凝土抗压强度(MPa,兆帕)

先对特征之间,特征与label之间的一致性进行观察,然后选取一致性较高的特征进行分析,基于R^2指标,分别用线性回归/岭回归/Lasso回归/ElasticNet/梯度boosting回归/支持向量机对数据集做单变量与多变量的回归预测分析。

Yahoo

本项目是针对股票作时间序列分析与预测,针对数据集为雪人2017年全年的数据集。这个数据集的特征如下表所示:

特征名称 说明
date 日期
open 开盘价
high 最高价
close 收盘价
low 最低价
volume 成交量
price_change 价格变动
p_change 涨跌幅
ma5 5日均价
ma10 5日均价
ma5 10日均价
ma20 20日均价
v_ma5 5日均量
v_ma10 10日均量
v_ma20 20日均量

首先进行特征探索,利用Dickey-Fuller检验评估时间序列的平稳性,然后通过对数以及差分运算使时间序列平稳。通过Durbin Watson统计计算时间序列的自相关性。最后利用ARIMA进行时间序列建模分析,最终的MSE: 0.2393

AAAI

本项目是数据的聚类分析,针对2014年AAAI收到的所有论文数据集[UCI] AAAI-14 Accepted Papers - Papers进行样本的聚类分析。这个数据集的特征如下表所示:

特征名称 说明
title 论文标题
authors 论文作者
groups 作者选定的高级关键词
keywords 作者生成的关键词
topics 作者选择的低级关键词
abstracts 论文摘要

首先进行特征转换,将数据集按照作者选定的高级关键词进行展开,然后分别用k-means、高斯混合模型、贝叶斯高斯混合模型对数据集进行聚类分析。并对聚类结果采用词云的方式进行可视化分析。最终得到贝叶斯高斯混合模型的聚类效果最好,将数据集聚为3簇时,轮廓系数最大。

noshowappointments

本项目是数据的二分类分析,针对俄亥俄州诊所患者出现与否数据集No-show-Issue-Comma-300k进行样本的分类预测。这个数据集的特征如下表所示:

特征名称 说明
年龄(Age) 患者的年龄
性别(Gender) 患者的性别
预约登记(AppointmentRegistration) 向患者发出预约的日期
预约数据(ApointmentData) 向患者发出的预约就诊日期
一周中具体的某日(DayOfTheWeek) 向患者发出的预约就诊日
状态(Status) 患者就诊与否
糖尿病(Diabetes) 是否患有糖尿病
酗酒(Alcoolism) 患者是否受到酒精的影响
高血压(HiperTension) 患者是否有高血压
残疾(Handcap) 患者是否残疾
吸烟(Smokes) 患者是否吸烟
资助(Scholarship) 患者是否受到福利机构的资助
结核(Tuberculosis) 患者是否患有结核
短信提醒(Sms_Reminder) 是否向患者发送预约短信提醒
等待时间(AwaitingTime) 等待时间=预约登记-预约数据

首先进行特征探究,观察里面的连续变量,布尔值变量以及字符串变量,并绘制不同变量的分布图。然后对变量中的离群值以及明显错误数据进行清洗,探究各变量与状态变量之间的关系。最后分别用决策树,SGD,随机森林以及梯度Boosting对数据集做二分类预测,得到梯度Boosting在ROC_AUC指标下效果最好。

About

机器学习项目

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published