-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy pathtidyverse_ggplot2_aes2.Rmd
476 lines (290 loc) · 13.2 KB
/
tidyverse_ggplot2_aes2.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
# (PART) 画图 {-}
# 数据可视化 {#tidyverse-ggplot2-aes}
我们介绍R语言最强大的可视化,看看都有哪些炫酷的操作。
```{r ggplot2-aes2-1, message = FALSE, warning = FALSE}
library(tidyverse) # install.packages("tidyverse")
library(patchwork) # install.packages("patchwork")
```
## 什么是数据可视化
### 图形属性(视觉元素)
我们在图中画一个点,那么这个**点**就有(形状,大小,颜色,位置,透明度)等属性,
这些属性就是**图形属性**(有时也称之为图形元素或者视觉元素),下图 \@ref(fig:common-aesthetics)列出了常用的图形属性。
```{r common-aesthetics, out.width = '98%', echo = FALSE, fig.cap= "常用的图形元素"}
knitr::include_graphics("./images/common-aesthetics.png")
```
点和线常用的图形属性
| geom | x | y | size | color | shape | linetype | alpha | fill | group |
|:-----:|:-:|:-:|:----:|:-----:|:-----:|:--------:|:-----:|:----:|:-----:|
| point | √ | √ | √ | √ | √ | √ | √ | √ | √ |
| line | √ | √ | √ | √ | | √ | √ | | √ |
R有最初的基本绘图, 这是从S语言继承过来的, 还有一些功能更易用、更强大的绘图系统, 如lattice、ggplot2。 基本绘图使用简单(如barplot画条形图), 灵活性强, 但是为了做出满意的图形需要比较多的调整,重要的是颜值低!!! 所以推荐ggplot2画图。
## 宏包ggplot2
ggplot2是RStudio首席科学家Hadley Wickham在2005年读博士期间的作品。很多人学习R语言,就是因为ggplot2宏包。目前,
ggplot2已经发展成为最受欢迎的R宏包,没有之一。
### ggplot2 的图形语法
ggplot2有一套优雅的绘图语法,包名中“gg”是grammar of graphics的简称。
Hadley Wickham将这套可视化语法诠释为:
> 一张统计图形就是从**数据**到几何形状(geometric object,缩写geom)所包含的**图形属性**(aesthetic attribute,缩写aes)的一种映射。
通俗解释:就是我们的**数据**通过图形的**视觉元素**表示出来。比如**点的位置**,如果坐标x值越大,水平方向离原点的位置就越远,数值越小,水平方向离原点的位置就越近。
**数值的大小变成了视觉能感知的东西**。
```{r ggplot2-aes2-5, out.width = '100%', echo = FALSE, fig.cap = "数值到图形属性的映射过程"}
knitr::include_graphics("images/mapping.png")
```
同理,我们希望用**点的大小**代表这个位置上的某个变量(比如,降雨量,产品销量等等),那么变量的数值越小,点的半径就小一点,数值越大,点就可以大一点;或者变量的数值大,点的颜色就深一点,数值小,点的颜色就浅一点。即,数值到图形属性的**映射**过程。映射是一个数学词汇,这里您可以理解为**一一对应**。
### 怎么写代码
`ggplot()`函数包括9个部件:
- **数据 (data)** (数据框)
- **映射 (mapping)**
- **几何形状 (geom)**
- 统计变换 (stats)
- 标度 (scale)
- 坐标系 (coord)
- 分面 (facet)
- 主题 (theme)
- 存储和输出 (output)
其中前三个是必需的。语法模板
```{r, eval = FALSE}
ggplot(data = <DATA>) +
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))
```
此外,图形中还可能包含数据的统计变换(statistical transformation,缩写stats),最后绘制在某个特定的坐标系(coordinate
system,缩写coord)中,而分面(facet)则可以用来生成数据不同子集的图形。
先来点小菜。先看一个简单的案例(1880-2014年温度变化和二氧化碳排放量)
```{r, warning = FALSE, message = FALSE}
library(tidyverse)
d <- read_csv(here::here("demo_data", "temp_carbon.csv"))
d %>% head(5)
```
注:如果用read.csv读取文件,返回一个通常的数据框data.frame
```{r, eval = FALSE}
library(ggplot2)
ggplot(___) +
geom_point(
mapping = aes(x = ___, y = ___)
)
```
我们只需要在相应位置填入数据框,和数据框的变量,就可以画图
```{r}
ggplot(data = d) +
geom_point(mapping = aes(x = year, y = carbon_emissions)) +
xlab("Year") +
ylab("Carbon emissions (metric tons)") +
ggtitle("Annual global carbon emissions, 1880-2014")
```
是不是很简单?
## 映射
我们这里用科考人员收集的企鹅体征[数据](https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-07-28/penguins.csv)来演示。
```{r ggplot2-aes2-11, message = FALSE, warning = FALSE}
library(tidyverse)
penguins <- read_csv(here::here("demo_data", "penguins.csv")) %>%
janitor::clean_names() %>%
drop_na()
penguins %>%
head()
```
我们会用到penguins数据集其中的四个变量
```{r ggplot2-aes2-13, eval=FALSE}
penguins %>%
select(species, sex, bill_length_mm, bill_depth_mm) %>%
head(4)
```
### 嘴巴越长,嘴巴也会越厚?
这里提出一个问题,嘴巴越长,嘴巴也会越厚?
```{r ggplot2-aes2-12, out.width = '86%', echo = FALSE}
knitr::include_graphics("images/culmen_depth.png")
```
为考察嘴峰长度(bill_length_mm)与嘴峰深度(bill_depth_mm)之间的关联,先绘制这两个变量的散点图,
```{r ggplot2-aes2-14, out.width = '85%', echo = FALSE}
knitr::include_graphics("images/a-3new.png")
```
- `ggplot()` 初始化绘图,相当于打开了一张纸,准备画画。
- `ggplot(data = penguins)` 表示使用penguins这个**数据框**来画图。
- `+`表示添加图层。
- `geom_point()`表示绘制散点图。
- `aes()`表示数值和视觉属性之间的映射。
`aes(x = bill_length_mm, y = bill_depth_mm)`,意思是变量bill_length_mm作为(映射为)**x轴方向的位置**,变量bill_depth_mm作为(映射为)**y轴方向的位置**。
- `aes()`除了位置上映射,还可以实现色彩、形状或透明度等视觉属性的映射。
运行脚本后生成图片:
```{r ggplot2-aes2-15, echo=FALSE}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm))
```
刚才看到的是位置上的映射,`ggplot()`还包含了颜色、形状以及透明度等图形属性的映射,
比如我们在`aes()`里增加一个颜色映射` color = species`, 这样做就是希望,**不同的企鹅类型**, 用**不同的颜色**来表现。这里,企鹅类型有三组,那么就用三种不同的颜色来表示
```{r ggplot2-aes2-16}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm, color = species))
```
此图绘制不同类型的企鹅,嘴峰长度与嘴峰深度散点图,并用颜色来实现了分组。
大家试试下面代码呢,
```{r ggplot2-aes2-17, eval = FALSE}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm, size = species))
```
```{r ggplot2-aes2-18, eval = FALSE}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm, shape = species))
```
```{r ggplot2-aes2-19, eval = FALSE}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm, alpha = species))
```
也可更多映射
```{r}
ggplot(penguins) +
geom_point(
aes(x = bill_length_mm, y = bill_depth_mm, color = species, alpha = sex)
)
```
为什么图中是这样的颜色呢?那是因为`ggplot()`内部有一套默认的设置
```{r ggplot2-aes2-20, out.width = '85%', echo = FALSE}
knitr::include_graphics("images/a-14.png")
```
不喜欢默认的颜色,可以自己定义喔。请往下看
## 映射 vs.设置
想把图中的点指定为某一种颜色,可以使用设置语句,比如
```{r ggplot2-aes2-21}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm), color = "blue")
```
大家也可以试试下面
```{r ggplot2-aes2-22, eval = FALSE}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm), size = 5)
```
```{r ggplot2-aes2-23, eval = FALSE}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm), shape = 2)
```
```{r ggplot2-aes2-24, eval = FALSE}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm), alpha = 0.5)
```
### 提问
```{r ggplot2-aes2-25, out.width = '100%', echo = FALSE}
knitr::include_graphics("images/a-21new.png")
```
思考下左图中`aes(color = "blue")`为什么会变成了红色的点?
```{r ggplot2-aes2-26, eval=FALSE, include=FALSE}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm, color = "blue"))
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm), color = "blue")
```
## 几何形状
`geom_point()` 可以画散点图,也可以使用`geom_smooth()`绘制平滑曲线,
```{r ggplot2-aes2-27}
ggplot(penguins) +
geom_smooth(aes(x = bill_length_mm, y = bill_depth_mm))
```
## 图层叠加
```{r}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm)) +
geom_smooth(aes(x = bill_length_mm, y = bill_depth_mm))
```
很强大,但相同的代码让我写两遍,我不高兴。要在偷懒的路上追求简约
```{r}
ggplot(penguins, aes(x = bill_length_mm, y = bill_depth_mm)) +
geom_point() +
geom_smooth()
```
以上两段代码出来的图为什么是一样?背后的含义有什么不同?接着往下看
## Global vs. Local
```{r ggplot2-aes2-31}
ggplot(penguins, aes(x = bill_length_mm, y = bill_depth_mm, color = species)) +
geom_point()
```
```{r ggplot2-aes2-32}
ggplot(penguins) +
geom_point(aes(x = bill_length_mm, y = bill_depth_mm, color = species))
```
大家可以看到,以上两段代码出来的图是一样。但背后的含义却不同。
- 映射关系`aes(x = bill_length_mm, y = bill_depth_mm)` 写在`ggplot()`里, 为**全局声明**。那么,当`geom_point()`画图时,发现缺少图形所需要的映射关系(点的位置、点的大小、点的颜色等等),就会从`ggplot()`全局变量中继承映射关系。
- 如果映射关系`aes(x = bill_length_mm, y = bill_depth_mm)` 写在几何形状`geom_point()`里, 那么此处的映射关系就为**局部声明**, 那么`geom_point()`绘图时,发现所需要的映射关系已经存在,就不会继承全局变量的映射关系。
看下面这个例子,
```{r ggplot2-aes2-35, eval=FALSE, warning=FALSE, message=FALSE}
ggplot(penguins, aes(x = bill_length_mm, y = bill_depth_mm)) +
geom_point(aes(color = species)) +
geom_smooth()
```
这里的 `geom_point()` 和 `geom_smooth()` 都会从全局变量中继承位置映射关系。
再看下面这个例子,
```{r ggplot2-aes2-36}
ggplot(penguins,aes(x = bill_length_mm, y = bill_depth_mm, color = species)) +
geom_point(aes(color = sex))
```
局部变量中的映射关系
`aes(color = )`已经存在,因此不会从全局变量中继承,沿用当前的映射关系。
### 图层之间没有继承关系
```{r}
ggplot(penguins, aes(x = bill_length_mm, y = bill_depth_mm)) +
geom_point(aes(color = species)) +
geom_smooth(method = "lm")
```
```{r}
ggplot(penguins, aes(x = bill_length_mm, y = bill_depth_mm, color = species)) +
geom_point() +
geom_smooth(method = "lm", aes(color = sex))
```
## 保存图片
可以使用`ggsave()`函数,将图片保存为所需要的格式,如".pdf", ".png"等,
还可以指定图片的高度和宽度,默认`units`是英寸,也可以使用"cm", or "mm".
```{r, eval=FALSE}
gg <- penguins %>%
ggplot(aes(x = bill_length_mm, y = bill_depth_mm)) +
geom_smooth(method = lm) +
geom_point(aes(color = species)) +
ggtitle("This is my first plot")
ggsave(
plot = gg,
filename = "my_plot.pdf",
width = 8,
height = 6,
dpi = 300
)
# 推荐下面的方式
cowplot::save_plot(filename="my_plot.pdf", plot=gg, base_width = 7, base_height = 5)
```
## 画图时要注意因子变量
画图时所有的变量都会转化为因子变量,因此确保因子变量的因子顺序就非常重要。
```{r}
ggplot(penguins, aes(y = species)) +
geom_bar()
penguins$species <- factor(penguins$species, levels = c("Adelie","Gentoo","Chinstrap"))
ggplot(penguins, aes(y = species)) +
geom_bar()
```
## 画多个子图
使用facet_wrap函数,可以按照某一个变量的取值个数来画多个子图
## 课堂作业
补充代码,要求在一张图中画出
- 企鹅嘴巴长度和嘴巴厚度的散点图
- 不同企鹅种类用不同的颜色
- 整体的线性拟合
- 不同种类分别线性拟合
```{r ggplot2-aes2-40, eval = FALSE}
ggplot(penguins, aes(x = ___, y = ___)) +
geom_point() +
geom_smooth() +
geom_smooth()
```
## 小结
```{r, out.width = '100%', echo = FALSE, fig.cap= "Evolution of a layered plot"}
knitr::include_graphics("images/evolution_of_layered_plot.png")
```
## 延伸阅读
在第 \@ref(tidyverse-ggplot2-geom) 章到第 \@ref(tidyverse-ggplot2-customize) 章会再讲ggplot2
- 一个点有位置、颜色、大小、形状外,还有哪些属性?如果画线条,应该有哪些视觉属性?
- 打开 <https://ggplot2tor.com/aesthetics>
- 输入 geom_point 或者 geom_line 试试
- <https://osf.io/bj83f/>
- <https://ggplot2.tidyverse.org/>
```{r ggplot2-aes2-41, echo = F}
# remove the objects
# rm(list=ls())
rm(corrs, d, dat, data, means, penguins, N, p, p1, p2, p3, Sigma)
```
```{r ggplot2-aes2-42, echo = F, message = F, warning = F, results = "hide"}
pacman::p_unload(pacman::p_loaded(), character.only = TRUE)
```