-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path402-Punktschätzung.qmd
1903 lines (1727 loc) · 95.1 KB
/
402-Punktschätzung.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# Punktschätzung {#sec-punktschaetzung}
\normalsize
In diesem Kapitel gehen wir immer im Sinne der in @sec-grundbegriffe-frequentistischer-inferenz
eingeführten Begrifflichkeiten immer von einem parametrischem Produktmodell
\begin{equation}
\mathcal{M} := \{\mathcal{Y},\mathcal{A}, \{\mathbb{P}_\theta| \theta \in \Theta\}\}
\end{equation}
mit $n$-dimensionalen Stichprobenraum (z.B. $\mathcal{Y} := \mathbb{R}^n$),
$d$-dimensionalen Parameteraum $\Theta \subset \mathbb{R}^d$ und gegebener WMF
oder WDF $p_\theta$ für alle $\theta \in \Theta$ aus. $\upsilon := (\upsilon_1,...,\upsilon_n)$
bezeichnet die zu $\mathcal{M}$ gehörende Stichprobe unabhängig und identisch
verteilter Zufallsvariablen, es gilt also durchgängig
\begin{equation}
\upsilon_1,...,\upsilon_n \sim \mathbb{P}_\theta.
\end{equation}
Wesen und Ziel der hier behandelten *Punkt*schätzung ist es, basierend auf der
Stichprobe einen möglichst guten Tipp für eine interessierende Kennzahl der
Verteilung $\mathbb{P}_\theta$ einer Stichprobenvariable anzugeben. Dabei ist der Tipp von
der gleichen mathematischen Wesensart wie die entsprechende Kennzahl, also zum Beispiel
ein skalarer Wert für einen skalaren Parameter. Dies ist nicht die einzige Möglichkeit
der Schätzung, mit den Konfidenzintervallen werden wir in @sec-konfidenzintervalle
eine Möglichkeit der Schätzung von skalaren Werten durch Intervalle kennenlernen
und die Bayesianische Inferenz nutzt zur Schätzung von skalaren Werten in aller
Regel Wahrscheinlichkeitsverteilungen. Die zu schätzenden Kennzahlen von
$\mathbb{P}_\theta$ sind oft schlicht die wahren, aber unbekannten, Parameter selbst.
Wir widmen uns diesem Fall ausführlich in @sec-maximum-likelihood-schätzung. Allerdings
sind viele grundlegende Resultate der Frequentistischen Punktschätzung auch dann valide,
wenn es sich bei zu schätzenden Kennzahlen nicht um die Parameter selbst, sondern,
bei parameterischen Produktmodellen, Funktionen von ihnen handelt, wie zum Beispiel
die Schätzung des Erwartungswerts, der Varianz, oder der Standardabweichung von
$\mathbb{P}_\theta$. Beginnen wollen wir allerdings mit der *Parameterschätzung*. Um den
wahren, aber unbekannten, Parametert eines parametrischen Produktmodells oder
auch allgemein eines Frequentistischen Inferenzmodells zu schätzen, nutzt man
in der Frequentistischen Inferenz sogenannte *Parameterpunktschätzer*.
:::{#def-parameterpunktschätzer}
$\mathcal{M} := (\mathcal{Y}, \mathcal{A}, \{\mathbb{P}_\theta|\theta \in \Theta\})$
sei ein Frequentistisches Inferenzmodell, $(\Theta,\mathcal{S})$ sei ein Messraum und
$\hat{\theta} : \mathcal{Y} \to \Theta$ sei eine Abbildung. Dann nennt man
$\hat{\theta}$ einen *Parameterpunktschätzer* für $\theta$.
:::
Parameterpunktschätzer werden meist auch einfach als *Parameterschätzer* bezeichnet.
Im Sinne von @def-schätzer sind Parameterpunktschätzer Schätzer mit $\tau := \mbox{id}_\Theta$. Parameterpunktschätzer sind also Funktionen von Daten und nehmen Zahlwerte
im Parameterraum an. Als als Funktionen von Zufallsvariablen sind Parameterschätzer
natürlich auch Zufallsvariablen. Oft wird dabei notationell nicht zwischen $\hat{\theta}$
als Zufallsvariable und $\hat{\theta}(y)$ als Wert dieser Zufallsvariable unterschieden.
@def-parameterpunktschätzer macht offenbar keine Angabe darüber, wie ein
Parameterpunktschätzer zu konstruieren ist oder inwieweit er dann ein sinnvoller
Schätzer sein mag. Im Folgenden werden wir mit der *Maximum-Likelihood Schätzung*
zunächst ein allgemeines Prinzip diskutieren, das es erlaubt, für ein gegebenenes
Frequentistisches Inferenzmodell Parameterschätzer zu bestimmen, die, wie wir an späterer
Stelle sehen werden, garantiert bestimmte wünschenswerte Eigenschaften haben (@sec-eigenschaften-von-maximum-likelihood-schaetzern). Dabei beziehen sich diese
Eigenschaften allgemein auf sein qualitatives Verteilungsverhalten bei
festen Stichprobenumfang bzw. im Grenzübergang zu einem unendlich großen Stichprobenumfang.
Wir führen diese Eigenschaften allgemein und insbesondere auch in der Schätzung
auf andere Kennzahlen von $\mathbb{P}_\theta$ in @sec-schaetzereigenschaften-bei-endlichen-stichproben
und @sec-asymptotische-schaetzereigenschaften ein.
## Maximum-Likelihood Schätzung {#sec-maximum-likelihood-schätzung}
Die Grundidee der Maximum-Likelihood Schätzung ist es, als Tipp
für einen wahren, aber unbekannten, Parameterwert denjenigen Parameterwert zu wählen,
für den die Wahrscheinlichkeit der beobachteten Daten maximal ist. Dafür ist es
zunächst nötig, die Wahrscheinlichkeit beobachteter Daten eines Frequentistischen
Inferenzmodells als Funktion des betreffenden Parameters zu betrachten. Dies
ermöglichen und formalisieren die *Likelihood-Funktion* und ihr Logarithmus,
die *Log-Likelihood-Funktion*. Wir definieren diese Begriffe hier für
parametrische Produktmodelle.
:::{#def-likelihood-funktion-und-log-likelihood-funktion}
## Likelihood-Funktion und Log-Likelihood-Funktion
$\mathcal{M}$ sei ein parametrisches Produktmodell mit WMF oder WDF $p_\theta$.
Dann ist die *Likelihood-Funktion* definiert als
\begin{equation}
L : \Theta \to [0,\infty[, \theta \mapsto L(\theta) := \prod_{i=1}^n p_\theta(y_i)
\end{equation}
und die *Log-Likelihood-Funktion* ist definiert als
\begin{equation}
\ell_n : \Theta \to \mathbb{R}, \theta \mapsto \ell(\theta) := \ln L(\theta).
\end{equation}
:::
Die Likelihood-Funktion ist also eine Funktion des Parameters und ihre Funktionswerte
sind die Werte der gemeinsamen WMF bzw. WDF beobachteter Datenwerte $y_1,...,y_n$.
Generell gibt es keinen Grund anzunehmen, dass eine Likelihood-Funktion über dem
Parameterraum zu 1 integriert, die Likelihood-Funktion ist also im Allgemeinen
keine WMF oder WDF. Die Log-Likelihood Funktion ist schlicht die logarithmierte
Likelihood-Funktion. Ein nach dem Prinzip der Maximum-Likelihood Schätzung
gewonnener Parameterschätzer soll nun die Likelihood-Funktion bzw. die Log-Likelihood-Funktion
maximieren. Dies führt auf folgende Definition des Begriffs des *Maximum-Likelihood
Schätzers*.
:::{#def-maximum-likelihood-schaetzer}
## Maximum-Likelihood Schätzer
$\mathcal{M}$ sei ein parametrisches Produktmodell mit Parameter $\theta \in \Theta$.
Ein *Maximum-Likelihood Schätzer* von $\theta$
ist definiert als
\begin{equation}
\hat{\theta}^{\mbox{\tiny ML}} : \mathcal{Y} \to \Theta,
y \mapsto \hat{\theta}^{\mbox{\tiny ML}}(y)
:= \mbox{argmax}_{\theta \in \Theta} L(\theta)
= \mbox{argmax}_{\theta \in \Theta} \ell(\theta)
\end{equation}
:::
Man beachte bei @def-maximum-likelihood-schaetzer, dass eine Maximumstelle der
Log-Likelihood-Funktion der Maximumstelle der Likelihood-Funktion entspricht,
weil die Logarithmusfunktion eine monoton steigende Funktion ist. Das Arbeiten
mit der Log-Likelihood-Funktion ist allerdings oft einfacher als das direkte Arbeiten
mit der Likelihood-Funktion, zum Beispiel, wenn in der WMF oder WDF des Modells
Exponentialfunktionen auftauchen. Weiterhin beachte man bei @def-maximum-likelihood-schaetzer,
dass @def-likelihood-funktion-und-log-likelihood-funktion impliziert, dass
\begin{equation}
\hat{\theta}^{\mbox{\tiny ML}}(y)
= \mbox{argmax}_{\theta \in \Theta} \prod_{i=1}^n p_\theta(y_i)
= \mbox{argmax}_{\theta \in \Theta} \sum_{i=1}^n \ln p_\theta(y_i)
\end{equation}
was die Abhängigkeit eines Maximum-Likelihood Schätzers von den Daten verdeutlicht.
Mit @def-maximum-likelihood-schaetzer handelt es sich bei der Maximum-Likelihood
Schätzung also um das Problem, Extremalstellen einer Funktion zu bestimmen.
Für diese Extremalstellen stellt die Differentialrechnung bekanntlich notwendige
und hinreichende Bedingungen bereit (vgl. @sec-analytische-optimierung). In ihrer
Anwendung auf die Gewinnung von Maximum-Likelihood Schätzern begnügt man
sich zumeist aufgrund der funktionellen Form der betrachteten Funktionen
mit dem Erfülltsein der notwendigen Bedingung. Je nach Beschaffenheit der Log-likelihood
Funktion bieten sich dann Methoden entweder der analytischen Optimierung oder
der numerischen Optimierung an. In den folgenden klassischen Beispielen nutzen
wir einen analytischen Zugang anhand folgendem standardisierten Vorgehen:
(1) Formulierung der Log-Likelihood-Funktion.
(2) Bestimmung der ersten Ableitung der Log-Likelihood-Funktion und Nullsetzen.
(3) Auflösen nach potentiellen Maximumstellen.
In @thm-maximum-likelihood-schaetzer-des-bernoullimodells zeigen wir, dass der
Maximum-Likelihood Schätzer für den Parameter des Bernoullimodells aus
@def-bernoullimodell durch das entsprechende Stichprobenmittel gegeben ist und in @thm-maximum-likelihood-schaetzer-des-normalverteilungsmodells zeigen wir, dass die
Maximum-Likelihood Schätzer für den Erwartungswert- und Varianzparameter des
Normalverteilungsmodells aus @def-normalverteilungsmodell durch das Stichprobenmittel
und eine modifizierte Stichprobenvarianz, respektive, gegeben sind.
### Beispiele {-}
:::{#thm-maximum-likelihood-schaetzer-des-bernoullimodells}
## Maximum-Likelihood Schätzer des Bernoullimodells
$\mathcal{M}$ sei das Bernoullimodell, es gelte also $\upsilon_1,...,\upsilon_n \sim \mbox{Bern}(\mu)$.
Dann ist
\begin{equation}
\hat{\mu}^{\mbox{\tiny ML}} : \{0,1\}^n \to [0,1],
y \mapsto \hat{\mu}^{\mbox{\tiny ML}}(y):= \frac{1}{n}\sum_{i=1}^n y_i
\end{equation}
ein Maximum-Likelihood Schätzer von $\mu$
:::
:::{.proof}
Wir formulieren zunächst die Log-Likelihood-Funktion. Für die Likelihood-Funktion gilt
\begin{equation}
L : ]0,1[ \to ]0,1[,
\mu \mapsto L(\mu)
:= \prod_{i=1}^n \mu^{y_i}(1 - \mu)^{1-y_i}
= \mu^{\sum_{i=1}^n y_i}(1 - \mu)^{n - \sum_{i=1}^n y_i}.
\end{equation}
Logarithmieren ergibt
\begin{equation}
\ell : ]0,1[ \to \mathbb{R}, \mu \mapsto \ell(\mu)
= \ln \mu \sum_{i=1}^n y_i + \ln (1- \mu) \left(n - \sum_{i=1}^n y_i \right).
\end{equation}
Wir werten dann die Ableitung der Log-Likelihood-Funktion aus. Es gilt
\begin{align}
\begin{split}
\frac{d}{d\mu} \ell(\mu)
& = \frac{d}{d\mu}\left(\ln \mu \sum_{i=1}^n y_i + \ln (1- \mu) \left(n - \sum_{i=1}^n y_i \right)\right) \\
& = \frac{d}{d\mu} \ln \mu \sum_{i=1}^n y_i + \frac{d}{d\mu} \ln (1 - \mu) \left(n - \sum_{i=1}^n y_i \right) \\
& = \frac{1}{\mu}\sum_{i=1}^n y_i - \frac{1}{1-\mu} \left(n - \sum_{i=1}^n y_i \right).
\end{split}
\end{align}
Nullsetzen ergibt dann folgende \textit{Maximum-Likelihood-Gleichung} als notwendige Bedingung für
einen Maximum-Likelihood Schätzer im Bernoullimodell:
\begin{equation}
\frac{1}{\hat{\mu}^{\mbox{\tiny ML}}}\sum_{i=1}^n y_i - \frac{1}{1-\hat{\mu}^{\mbox{\tiny ML}}} \left(n - \sum_{i=1}^n y_i \right) = 0.
\end{equation}
Auflösen der Maximum-Likelihood-Gleichung nach $\hat{\mu}^{\mbox{\tiny ML}}$ ergibt dann
\begin{align}
\begin{split}
\frac{1}{\hat{\mu}^{\mbox{\tiny ML}}}\sum_{i=1}^n y_i - \frac{1}{1-\hat{\mu}^{\mbox{\tiny ML}}} \left(n - \sum_{i=1}^n y_i \right) & = 0 \\
\Leftrightarrow
\hat{\mu}^{\mbox{\tiny ML}}(1 - \hat{\mu}^{\mbox{\tiny ML}})\left(\frac{1}{\hat{\mu}^{\mbox{\tiny ML}}}\sum_{i=1}^n y_i - \frac{1}{1-\hat{\mu}^{\mbox{\tiny ML}}} \left(n - \sum_{i=1}^n y_i \right) \right) & = 0 \\
\Leftrightarrow
\sum_{i=1}^n y_i - \hat{\mu}^{\mbox{\tiny ML}} \sum_{i=1}^n y_i - n \hat{\mu}^{\mbox{\tiny ML}} + \hat{\mu}^{\mbox{\tiny ML}}\sum_{i=1}^n y_i & = 0 \\
\Leftrightarrow
n \hat{\mu}^{\mbox{\tiny ML}} & = \sum_{i=1}^n y_i \\
\Leftrightarrow
\hat{\mu}^{\mbox{\tiny ML}} & = \frac{1}{n} \sum_{i=1}^n y_i. \\
\end{split}
\end{align}
$\hat{\mu}^{\mbox{\tiny ML}} = \frac{1}{n}\sum_{i=1}^n y_i$ ist also ein Kandidat
für einen Maximum-Likelihood Schätzer von $\mu$. Dies könnte durch Betrachten
der zweiten Ableitung von $\ell$ verifiziert werden, worauf wir hier aber verzichten wollen.
:::
:::{#thm-maximum-likelihood-schaetzer-des-normalverteilungsmodells}
## Maximum-Likelihood Schätzer des Normalverteilungsmodells
$\mathcal{M}$ sei das Normalverteilungsmodell, es gelt also
$\upsilon_1,...,\upsilon_n \sim N\left(\mu,\sigma^2\right)$. Dann sind
\begin{equation}
\hat{\mu}^{\mbox{\tiny ML}} :
\mathbb{R}^n \to \mathbb{R}, y \mapsto \hat{\mu}^{\mbox{\tiny ML}}(y)
:= \frac{1}{n}\sum_{i=1}^n y_i
\end{equation}
und
\begin{equation}
\hat{\sigma}^{2^{\mbox{\tiny ML}}} :
\mathbb{R}^n \to \mathbb{R}_{\ge 0},
y \mapsto \hat{\sigma}^{2^{\mbox{\tiny ML}}}(y)
:= \frac{1}{n}\sum_{i=1}^n \left(y_i - \hat{\mu}^{\mbox{\tiny ML}}\right)^2.
\end{equation}
Maximum-Likelihood Schätzer für $\mu$ und $\sigma^2$, respektive.
:::
:::{.proof}
Wir formulieren zunächst die Log-Likelihood-Funktion. Für die Likelihood-Funktion
ergibt sich
\begin{align}
\begin{split}
L : \mathbb{R} \times \mathbb{R}_{>0} \to \mathbb{R}_{>0},
(\mu,\sigma^2) \mapsto L(\mu,\sigma^2)
:= & \prod_{i=1}^n \frac{1}{\sqrt{2\pi \sigma^2}}\exp\left(-\frac{1}{2\sigma^2}(y_i-\mu)^2\right) \\
= & \left(2 \pi \sigma^2\right)^{-\frac{n}{2}}\exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\mu)^2\right). \\
\end{split}
\end{align}
Logarithmieren ergibt dann
\begin{equation}
\ell : \mathbb{R} \times \mathbb{R}_{>0} \to \mathbb{R},
(\mu,\sigma^2) \mapsto \mathcal{\ell}_n(\mu,\sigma^2)
= -\frac{n}{2} \ln 2\pi - \frac{n}{2} \ln \sigma^2 -\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\mu)^2.
\end{equation}
Die Auswertung der partiellen Ableitungen der Log-Likelihood-Funktion ergeben dann
\begin{equation}
\frac{\partial}{\partial{\mu}} \ell(\mu,\sigma^2)
= - \frac{\partial}{\partial{\mu}} \frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\mu)^2
= - \frac{1}{2\sigma^2}\sum_{i=1}^n \frac{\partial}{\partial{\mu}} (y_i-\mu)^2
= \frac{1}{\sigma^2}\sum_{i=1}^n (y_i-\mu)
\end{equation}
und
\begin{align}
\begin{split}
\frac{\partial}{\partial\sigma^2} \ell(\mu,\sigma^2)
= - \frac{n}{2} \frac{\partial}{\partial\sigma^2} \ln \sigma^2 - \frac{\partial}{\partial\sigma^2} \frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\mu)^2
= - \frac{n}{2 \sigma^2} + \frac{1}{2\sigma^4}\sum_{i=1}^n(y_i-\mu)^2.
\end{split}
\end{align}
Das System der Maximum-Likelihood Gleichungen als Ausdruck der notwendigen Bedingungen
für Extremstellen der Log-Likelihood-Funktion hat in diesem Fall also die Form
\begin{equation}
\sum_{i=1}^n (y_i-\hat{\mu}^{\mbox{\tiny ML}}) = 0
\mbox{ und }
- \frac{n}{2 \hat{\sigma}^{2^{\mbox{\tiny ML}}}} + \frac{1}{2\hat{\sigma}^{4^{\mbox{\tiny ML}}}}\sum_{i=1}^n(y_i-\mu)^2 = 0.
\end{equation}
Lösen des Systems der Maximum-Likelihood Gleichungen ergibt dann zunächst
\begin{equation}
\sum_{i=1}^n (y_i-\hat{\mu}^{\mbox{\tiny ML}}) = 0
\Leftrightarrow \sum_{i=1}^n y_i = n\hat{\mu}^{\mbox{\tiny ML}}
\Leftrightarrow \hat{\mu}^{\mbox{\tiny ML}} = \frac{1}{n}\sum_{i=1}^n y_i.
\end{equation}
Damit ist
\begin{equation}
\hat{\mu}^{\mbox{\tiny ML}} = \frac{1}{n}\sum_{i=1}^n y_i
\end{equation}
ein potentieller Maximum-Likelihood Schätzer von $\mu$. Einsetzen dieses Schätzers
in die zweite Maximum-Likelihood Gleichung ergibt dann
\begin{align}
\begin{split}
- \frac{n}{2 \hat{\sigma}^{2^{\mbox{\tiny ML}}}} + \frac{1}{2\hat{\sigma}^{4^{\mbox{\tiny ML}}}}\sum_{i=1}^n(y_i-\hat{\mu}^{\mbox{\tiny ML}})^2 & = 0 \\
\Leftrightarrow
- n\hat{\sigma}^{2^{\mbox{\tiny ML}}} + \sum_{i=1}^n(y_i-\hat{\mu}^{\mbox{\tiny ML}})^2 & = 0 \\
\Leftrightarrow
\hat{\sigma}^{2^{\mbox{\tiny ML}}} & = \frac{1}{n} \sum_{i=1}^n(y_i-\hat{\mu}^{\mbox{\tiny ML}})^2.
\end{split}
\end{align}
Also ist
\begin{equation}
\hat{\sigma}^{2^{\mbox{\tiny ML}}} = \frac{1}{n}\sum_{i=1}^n\left(y_i-\hat{\mu}^{\mbox{\tiny ML}}\right)^2
\end{equation}
ein potentieller Maximum-Likelihood Schätzer von $\sigma^2$. Beide potentiellen
Maximum-Likelihood Schätzer können durch Betrachten der zweiten Ableitung von $\ell$
verifiziert werden, worauf wir hier verzichten wollen.
:::
Man beachte bei @thm-maximum-likelihood-schaetzer-des-normalverteilungsmodells,
dass $\hat{\mu}^{\mbox{\tiny ML}}$ mit dem Stichprobenmittel $\bar{\upsilon}$ identisch ist, aber
$\hat{\sigma}^{2^{\mbox{\tiny ML}}}$ nicht mit der Stichprobenvarianz $S^2$ übereinstimmt.
Im Gegensatz zur Stichprobenvarianz findet sich im Maximum-Likelihood Schätzer
von $\sigma^2$ der multiplikative Faktor $\frac{1}{n}$, nicht, wie in der Stichprobenvarianz,
der multiplikative Faktor $\frac{1}{n-1}$. Wir werden auf diesen Unterschied im Kontext
der Schätzereigenschaften zurückkommen.
### Anwendungsbeispiel {-}
Zum Abschluss dieses Abschnitts wollen wir @thm-maximum-likelihood-schaetzer-des-normalverteilungsmodells
im Kontext des Anwendungsbeispiels aus @sec-anwendungsbeispiel-frequentistische-inferenz betrachten.
Wir hatten dort den beobachteten `dBDI` Werten das Normalverteilungsmodell
\begin{equation}
\upsilon_1,...,\upsilon_n \sim N(\mu,\sigma^2)
\end{equation}
zugrundegelegt. Die Maximum-Likelihood Schätzer für die Parameter dieses Modells
lassen sich dann anhand von @thm-maximum-likelihood-schaetzer-des-normalverteilungsmodells
mithilfe der **R** Stichprobenmittel- und Stichprobenvarianzfunktionen `mean()` und `var()`
und unter Beachtung der Identität
\begin{equation}
\frac{n-1}{n}s^2
= \frac{n-1}{n}\cdot\frac{1}{n-1}\sum_{i=1}^n (y_i - \bar{y})^2
= \frac{1}{n}\sum_{i=1}^n \left(y_i - \hat{\mu}^{\mbox{\tiny ML}}\right)^2
= \hat{\sigma}^{2^{\mbox{\tiny ML}}}
\end{equation}
wie in folgendem **R** Code auswerten.
\tiny
```{r, echo = T}
D = read.csv("./_data/302-Punktschätzung.csv") # Datensatzeinlesen
y = D$dBDI # Datenauswahl
mu_hat = mean(y) # Maximum-Likelihood Schätzung des Erwartungswertparameters
n = length(y) # Anzahl der Datenpunkte
sigsqr_hat = ((n-1)/n)*var(y) # Maximum-Likelihood Schätzung des Varianzparameters
cat("mu_hat :", mu_hat,"\nsigsqr_hat :", sigsqr_hat) # Ausgabe
```
\normalsize
Basierend auf dem Prinzip der Maximum-Likelihood Schätzung und den vorliegenden $n = 12$ Datenpunkten sind also
\begin{equation}
\hat{\mu}^{\mbox{\tiny ML}} = 3.17
\mbox{ und }
\hat{\sigma}^{2^{\mbox{\tiny ML}}} = 12.6
\end{equation}
Tipps für die wahren, aber unbekannten, Parameter des Modells.
## Schätzereigenschaften bei endlichen Stichproben {#sec-schaetzereigenschaften-bei-endlichen-stichproben}
Allgemein betreffen Frequentistische Schätzereigenschaften die Verteilung
von Schätzern in Abhängigkeit der Verteilung der ihn zugrundeliegenden Daten. Weil Daten in der
Frequentistischen Inferenz zufällig sind, sind auch Schätzer zufällig. Speziell
werden beobachtete Datenwerte als Realisierungen von Zufallsvariablen interpretiert.
Schätzer als Funktionen von Zufallsvariablen sind damit auch Zufallsvariablen,
auch wenn sie natürlich bei Vorliegen eines konkreten Datensatzes nur einen
konkreten Wert annehmen. Wir unterscheiden zwischen *Schätzereigenschaften bei
endlichen Stichproben* und *Asymptotischen Schätzereigenschaften*. Erstere sind Inhalt
dieses Abschnittes und betreffen die Eigenschaften eines Schätzer für einen festen
Stichprobenumfang $n$, letztere sind Inhalt von @sec-asymptotische-schaetzereigenschaften
und betreffen die Eigenschaften eines Schätzers im Grenzfall $n \to \infty$ von großen
Stichprobenumfängen.
Es sei zunächst $(\Sigma,S)$ ein Messraum und $\hat{\tau} : \mathcal{Y} \to \Sigma$ ein
Schätzer von $\tau : \Theta \to \Sigma$ (vgl. @def-schätzer). In der Folge
betrachten wir neben Parameterschätzern der Form
\begin{equation}
\tau: \Theta \to \Sigma, \tau(\theta) := \theta
\end{equation}
auch wiederholt zunächst solche Schätzer, die bei parametrischen Produktmodellen
nur Funktionen der Parameter wie den Erwartungswert, die Varianz und die Standardabweichung
der Stichprobenvariablen schätzen. Da nach Annahme die Verteilungen der
Stichprobenvariablen $\upsilon_1,...,\upsilon_n$ identisch sind, handelt es sich dabei
um Schätzer der Form
\begin{align}
\begin{split}
\tau : \Theta \to \Sigma,\,
\theta \mapsto \tau(\theta)
\mbox{ mit }
\tau(\theta) := \mathbb{E}_\theta(\upsilon_1),
\tau(\theta) := \mathbb{V}_\theta(\upsilon_1), \mbox{ und }
\tau(\theta) := \mathbb{S}_\theta(\upsilon_1).
\end{split}
\end{align}
Speziell wollen wir in diesem Abschnitt vier Aspekte von Schätzereigenschaften
bei endlichen Stichproben beleuchten. In @sec-erwartungstreue beschäftigen wir
uns zunächst mit der *Erwartungstreue* eines Schätzers. Dabei heißt ein Schätzer
*erwartungstreu*, wenn sein Erwartungswert mit dem wahren, aber unbekannten, Wert
$\tau(\theta)$ für alle $\theta \in \Theta$ identisch ist. In @sec-varianz-und-standardfehler
führen wir mit den Begriffen der *Varianz* und des *Standardsfehlers* eines Schätzers
als Bezeichungen für die Varianz der Zufallsvariable $\hat{\tau}(\upsilon)$ und die
Standardabweichung der Zufallsvariable $\hat{\tau}(\upsilon)$ zwei Maße für die
Frequentistische Variabilität von Schätzern ein. Mit dem *mittlere quadratischen Fehler*
eines Schätzers $\hat{\tau}$ als Erwartungswert der quadrierten Abweichung von
$\hat{\tau}(\upsilon)$ von $\tau(\theta)$ führen wir dann in @sec-mittlerer-quadratischer-fehler
eine Schätzereigenschaft ein, die es erlaubt die Genauigkeit und die Variabilität
eines Schätzers im Sinne eines sogenannten *Bias-Variance-Tradeoffs* miteinander
in Beziehung zu setzen. Die in @sec-cramer-rao-ungleichung disktutierte
*Cramér-Rao-Ungleichung* schließlich gibt eine untere Schranke für die Varianz
erwartungstreuer Schätzer an. Ein erwartungstreuer Schätzer mit Varianz gleich
der in der Cramér-Rao-Ungleichung gegebenen unteren Schranke hat die kleinstmögliche
Varianz aller erwartungstreuen Schätzer und ist in diesem Sinne ein optimaler Schätzer.
### Erwartungstreue {#sec-erwartungstreue}
Der Begriff der Erwartungstreue eines Schätzers ergibt sich im Kontext des *Fehlers*
und des *systematischen Fehlers* eines Schätzers wie folgt.
:::{#def-fehler-systematischer-fehler-und-erwartungstreue}
## Fehler, Systematischer Fehler und Erwartungstreue
$\upsilon$ sei eine Stichprobe eines Frequentischen Inferenzmodells und $\hat{\tau}$
sei ein Schätzer für $\tau$.
* Der *Fehler* von $\hat{\tau}$ ist definiert als
\begin{equation}
\hat{\tau}(\upsilon) - \tau(\theta).
\end{equation}
* Der *systematische Fehler* (engl. *Bias*) von $\hat{\tau}$ ist definiert als
\begin{equation}
\mbox{B}(\hat{\tau} ) := \mathbb{E}_{\theta}(\hat{\tau} (\upsilon)) - \tau(\theta).
\end{equation}
* Der Schätzer $\hat{\tau}$ heißt *erwartungstreu* (engl. *unbiased*), wenn
\begin{equation}
\mbox{B}(\hat{\tau} ) = 0\Leftrightarrow
\mathbb{E}_{\theta}(\hat{\tau} (\upsilon)) = \tau(\theta) \mbox{ für alle } \theta \in \Theta \mbox{ und alle } n \in \mathbb{N}.
\end{equation}
Andernfalls heißt $\hat{\tau}$ *verzerrt (engl. biased)*.
:::
Man beachte, dass in @def-fehler-systematischer-fehler-und-erwartungstreue der
Fehler eines Schätzers von der spezifischen Realisation der Stichprobe $\upsilon$
abhängt. Der systematische Fehler dagegen ist der erwartete Fehler über
Stichprobenrealisationen und damit im Sinne eines Erwartungswerts von einer
spezifischen Realisation unabhängig. Für den speziellen Fall eines Parameterpunktschätzers
gilt nach @def-fehler-systematischer-fehler-und-erwartungstreue, dass er erwartungstreu ist,
wenn gilt, dass
\begin{equation}
\mathbb{E}_{\theta}(\hat{\theta}(\upsilon)) = \theta.
\end{equation}
Als erste Beispiele für erwartungstreue Schätzer betrachten wir in folgendem
Theorem das Stichprobenmittel und die Stichprobenvarianz als Schätzer für den
Erwartungswert und die Varianz einer Stichprobenvariable.
:::{#thm-erwartungstreue-von-stichprobenmittel-und-stichprobenvarianz}
## Erwartungstreue von Stichprobenmittel und Stichproenvarianz
$\upsilon := (\upsilon_1,...,\upsilon_n)$ sei die Stichprobe eines parametrischen Produktmodells.
Dann gelten
(1) Das Stichprobenmittel
\begin{equation}
\bar{\upsilon} := \frac{1}{n}\sum_{i=1}^n \upsilon_i
\end{equation}
ist ein erwartungstreuer Schätzer des Erwartungswerts $\mathbb{E}_\theta(\upsilon_1)$.
(2) Die Stichprobenvarianz
\begin{equation}
S^2 := \frac{1}{n-1}\sum_{i=1}^n (\upsilon_i - \bar{\upsilon})^2
\end{equation}
ist ein erwartungstreuer Schätzer der Varianz $\mathbb{V}_\theta(\upsilon_1)$.
:::
:::{.proof}
\noindent (1) Die Erwartungstreue des Stichprobenmittels ergibt mit den
Eigenschaften des Erwartungswerts (vgl. @thm-eigenschaften-des-erwartungswerts) aus
\begin{align}
\mathbb{E}_\theta(\bar{\upsilon})
= \mathbb{E}_\theta \left(\frac{1}{n}\sum_{i=1}^n \upsilon_i \right)
= \frac{1}{n}\sum_{i=1}^n \mathbb{E}_\theta\left( \upsilon_i \right)
= \frac{1}{n}\sum_{i=1}^n \mathbb{E}_\theta\left( \upsilon_1 \right)
= \frac{1}{n} n \mathbb{E}_\theta\left( \upsilon_1 \right)
= \mathbb{E}_\theta\left( \upsilon_1 \right).
\end{align}
\noindent (2) Um die Erwartungstreue der Stichprobenvarianz zu zeigen, halten
wir zunächst fest, dass mit den Eigenschaften der Varianz gilt, dass
(vgl. @thm-eigenschaften-der-varianz)
\begin{equation}
\mathbb{V}_\theta(\bar{\upsilon})
= \mathbb{V}_\theta\left(\frac{1}{n} \sum_{i=1}^n \upsilon_i \right)
= \frac{1}{n^2} \sum_{i=1}^n \mathbb{V}_\theta\left( \upsilon_i \right)
= \frac{1}{n^2} \sum_{i=1}^n \mathbb{V}_\theta\left( \upsilon_1 \right)
= \frac{1}{n^2} n \mathbb{V}_\theta\left( \upsilon_1 \right)
= \frac{\mathbb{V}_\theta\left( \upsilon_1 \right)}{n}.
\end{equation}
Weiterhin gilt für den Term der summierten quadratischen Abweichungen in der Stichprobenvarianz, dass
\begin{align}
\sum_{i=1}^n \left(\upsilon_i - \bar{\upsilon}\right)^2 = \sum_{i=1}^n (\upsilon_i - \mathbb{E}_\theta(\upsilon_1))^2 - n(\bar{\upsilon} - \mathbb{E}_\theta(\upsilon_1))^2,
\end{align}
weil
\begin{align}
\begin{split}
\sum_{i=1}^n \left(\upsilon_i - \bar{\upsilon}\right)^2
& = \sum_{i=1}^n \left(\upsilon_i - \mathbb{E}_\theta(\upsilon_1) - \bar{\upsilon} + \mathbb{E}_\theta(\upsilon_1) \right)^2 \\
& = \sum_{i=1}^n \left((\upsilon_i - \mathbb{E}_\theta(\upsilon_1)) - (\bar{\upsilon} - \mathbb{E}_\theta(\upsilon_1)) \right)^2 \\
& = \sum_{i=1}^n (\upsilon_i-\mathbb{E}_\theta(\upsilon_1))^2 - 2(\bar{\upsilon}-\mathbb{E}_\theta(\upsilon_1))\left(\sum_{i=1}^n(\upsilon_i-\mathbb{E}_\theta(\upsilon_1))\right) + \sum_{i=1}^n (\bar{\upsilon}-\mathbb{E}_\theta(\upsilon_1))^2 \\
& = \sum_{i=1}^n (\upsilon_i-\mathbb{E}_\theta(\upsilon_1))^2 - 2(\bar{\upsilon}-\mathbb{E}_\theta(\upsilon_1))\left(\sum_{i=1}^n\upsilon_i- n\mathbb{E}_\theta(\upsilon_1)\right) + n(\bar{\upsilon}-\mathbb{E}_\theta(\upsilon_1))^2 \\
& = \sum_{i=1}^n (\upsilon_i-\mathbb{E}_\theta(\upsilon_1))^2 - 2(\bar{\upsilon}-\mathbb{E}_\theta(\upsilon_1))\left(n\left(\frac{1}{n}\sum_{i=1}^n\upsilon_i\right)- n\mathbb{E}_\theta(\upsilon_1)\right) + n(\bar{\upsilon}-\mathbb{E}_\theta(\upsilon_1))^2 \\
& = \sum_{i=1}^n (\upsilon_i-\mathbb{E}_\theta(\upsilon_1))^2 - 2n(\bar{\upsilon}-\mathbb{E}_\theta(\upsilon_1))^2 + n(\bar{\upsilon}-\mathbb{E}_\theta(\upsilon_1))^2 \\
& = \sum_{i=1}^n (\upsilon_i - \mathbb{E}_\theta(\upsilon_1))^2 - n(\bar{\upsilon} - \mathbb{E}_\theta(\upsilon_1))^2.
\end{split}
\end{align}
Zusammen ergibt sich also
\begin{align}
\mathbb{E}_\theta\left((n-1)S^2\right)
& = \mathbb{E}_\theta\left(\sum_{i=1}^n \left(\upsilon_i - \bar{\upsilon}\right)^2 \right) \\
& = \mathbb{E}_\theta\left(\sum_{i=1}^n (\upsilon_i - \mathbb{E}_\theta(\upsilon_1))^2 - n(\bar{\upsilon} - \mathbb{E}_\theta(\upsilon_1))^2 \right) \\
& = \sum_{i=1}^n \mathbb{E}_\theta\left((\upsilon_i - \mathbb{E}_\theta(\upsilon_1))^2\right) - n \mathbb{E}_\theta\left((\bar{\upsilon} - \mathbb{E}_\theta(\upsilon_1))^2 \right) \\
& = n \mathbb{V}_\theta(\upsilon_1) - n \mathbb{V}_\theta(\bar{\upsilon}) \\
& = n \mathbb{V}_\theta(\upsilon_1) - n \frac{\mathbb{V}_\theta(\upsilon_1)}{n} \\
& = n \mathbb{V}_\theta(\upsilon_1) - \mathbb{V}_\theta(\upsilon_1) \\
& = (n - 1) \mathbb{V}_\theta(\upsilon_1).
\end{align}
Schließlich ergibt sich dann
\begin{equation}
\mathbb{E}_\theta\left(S^2\right)
= \mathbb{E}_\theta\left(\frac{1}{n-1}(n-1)S^2 \right)
= \frac{1}{n-1}\mathbb{E}_\theta\left((n-1)S^2 \right)
= \frac{1}{n-1}(n - 1) \mathbb{V}_\theta(\upsilon_1)
= \mathbb{V}_\theta(\upsilon_1)
\end{equation}
und damit die Erwartungstreue der Stichprobenvarianz als Schätzer der Varianz.
:::
Natürlich sind in @thm-erwartungstreue-von-stichprobenmittel-und-stichprobenvarianz
aufgrund der identischen Verteilung der Stichprobenvariablen eines parametrischen
Produktmodells das Stichprobenmittel und die Stichprobenvarianz auch erwartungstreue
Schätzer des Erwartungswertes und der Varianz einer beliebigen Stichprobenvariablen
$\upsilon_i$ mit $1 \le i \le n$. Man beachte, dass im Beweis der Erwartungstreue der
Stichprobenvarianz der Nenner $n-1$ in der Definition der Stichprobenvarianz eine
entscheidende Rolle spielt.
Obwohl die Stichprobenvarianz ein unverzerrter Schätzer der Varianz einer
Stichprobenvariable eines parametrischen Produktmodells ist, trifft dies auf
die Stichprobenstandardabweichung als Schätzer der Standardabweichung nicht zu.
Dies ist Inhalt des folgenden Theorems.
:::{#thm-verzerrtheit-der-stichprobenstandardabweichung}
## Verzerrtheit der Stichprobenstandardabweichung
$\upsilon = (\upsilon_1,...,\upsilon_n)$ sei die Stichprobe eines parametrischen Produktmodells.
Dann ist die Stichprobenstandard-
abweichung
\begin{equation}
S := \sqrt{S^2}
\end{equation}
ein verzerrter Schätzer der Standardabweichung $\mathbb{S}_\theta(\upsilon_1)$.
:::
:::{.proof}
Wir halten zunächst fest, dass $\sqrt{\cdot}$ eine strikt konkave Funktion und
$\sigma^2 > 0$ ist. Dann aber gilt mit der Jensenschen Ungleichung
$\mathbb{E}(f(\xi)) < f(\mathbb{E}(\xi))$ für strikt konkave Funktionen
(vgl. @thm-jensensche-ungleichung), dass
\begin{equation}
\mathbb{E}_\theta(S)
= \mathbb{E}_\theta\left(\sqrt{S^2}\right)
< \sqrt{\mathbb{E}_\theta(S^2)}
= \sqrt{\mathbb{V}_\theta(\upsilon_1)}
= \mathbb{S}_\theta(\upsilon_1).
\end{equation}
:::
Allgemein führen nichtlineare Transformationen von erwartungstreuen Schätzern
oft auf verzerrte Schätzer, was wir hier aber nicht weiter vertiefen wollen.
Folgender **R** Code demonstriert exemplarisch die Begriffe der Unverzerrtheit
und Verzerrtheit von Stichprobenmittel, Stichprobenvarianz und Stichprobenstandardabweichung
am Beispiel eines parametrischen Produktmodells mit Stichprobenverteilung
\begin{equation}
\upsilon_1,...,\upsilon_{12} \sim N(1.7,2)
\end{equation}
Dabei werden die Erwartungswerte der Schätzer anhand ihrer Stichprobenmittel über
viele Realisierungen von $\upsilon_1,...,\upsilon_{12}$ als Funktion der Anzahl an
Realsierungen (Simulationen) geschätzt.
\tiny
```{r, echo = T}
# Modellformulierung
set.seed(0) # Zufallszahlengenerator
mu = 1.7 # wahrer, aber unbekannter, Erwartungswertparameter
sigsqr = 2 # wahrer, aber unbekannter, Varianzparameter
n = 12 # Stichprobenumfang n
nsim = 5e4 # Anzahl der Simulationen
y_bar = rep(NaN,nsim) # Stichprobenmittelarray
s_sqr = rep(NaN,nsim) # Stichprobenvarianzarray
s = rep(NaN,nsim) # Stichprobenstandardabweichungarray
# Simulationsiterationen
for(sim in 1:nsim){
# Stichprobenrealisation von \upsilon_1,...,\upsilon_{12}
y = rnorm(n,mu,sqrt(sigsqr))
# Erwartungswert-, Varianz-, StandardabweichungSchätzer
y_bar[sim] = mean(y) # Stichprobenmittel
s_sqr[sim] = var(y) # Stichprobenvarianz
s[sim] = sd(y) # Stichprobenstandardabweichung
}
# Erwartungswertschaetzung
E_hat_y_bar = cumsum(y_bar)/(1:nsim) # \mathbb{E}(\bar{\upsilon}) Schaetzungen
E_hat_s_sqr = cumsum(s_sqr)/(1:nsim) # \mathbb{E}(S^2) Schaetzungen
E_hat_s = cumsum(s) /(1:nsim) # \mathbb{E}(S) Schaetzungen
```
\normalsize
@fig-erwartungstreue visualisiert die Ergebnisse obiger Simulation. Gezeigt sind
Schätzungen der Erwartungswerte von Stichprobenmittel, Stichprobenvarianz und
Stichprobenstandardabweichung als Funktion der Anzahl an Realisierungen der
Stichprobenvariablen $\upsilon_1,...,\upsilon_{12}$ sowie die wahren, aber unbekannten,
Werte des Erwartungswerts, der Varianz und der Standardabweichung der $\upsilon_i$ mit $1\le i \le 12$. Es fällt auf, dass diese Schätzungen bei geringer Realisierungsanzahl
variabler ausfallen. Ab einer Schätzung basierend auf etwa
10000 Realisierungen von $\upsilon_1,...,\upsilon_{12}$ entsprechen die Stichprobenmittel
von $\bar{\upsilon}$ und $S^2$ gemäß ihrer Erwartungstreue ihren wahren, aber unbekannten,
Werten. Die Stichprobenstandardabweichung dagegen zeigt gemäß ihrer Verzerrtheit
auch bei weiter ansteigenden Anzahlen von der Realsierungen von $\upsilon_1,...,\upsilon_{12}$
konstant eine zu niedrige Schätzung der wahren, aber unbekannten, Standardabweichung.
```{r, eval = F, echo = F}
# Visualisierung
library(latex2exp)
pdf("./_figures/302-erwartungstreue.pdf", width = 7, height = 5)
fig = par(
family = "sans",
bty = "l",
lwd = 1,
las = 1,
mgp = c(2,1,0),
xaxs = "i",
yaxs = "i",
font.main = 1,
cex = 1,
cex.main = 1)
matplot(
1:nsim,
matrix(c(E_hat_y_bar, E_hat_s_sqr, E_hat_s), ncol = 3), # geschätzte Erwartungswerte
col = c("gray10", "gray50", "gray80"),
type = "l",
lty = 1,
ylab = " ",
xlab = TeX("Anzahl an Realisierungen von $\\upsilonilon_1,...\\upsilonilon_{12}$"),
ylim = c(1.3,2.2))
abline(mu ,0, col = "gray10", lty = 3) # wahrer, aber unbekannter Wert von \mu
abline(sigsqr ,0, col = "gray50", lty = 3) # wahrer, aber unbekannter Wert von \sigma^2
abline(sqrt(sigsqr),0, col = "gray80", lty = 3) # wahrer, aber unbekannter Wert von \sigma
legend(
"top",
c(TeX("$\\hat{E}(\\bar{\\upsilonilon})$"),
TeX("$E(\\upsilonilon_i)$"),
TeX("$\\hat{E}(S^2)$"),
TeX("$V(\\upsilonilon_i)$"),
TeX("$\\hat{E}(S)$"),
TeX("$S(\\upsilonilon_i)$")),
cex = .9,
lty = c(1,3,1,3,1,3),
col = c("gray10", "gray10", "gray50", "gray50","gray80","gray80"),
lwd = 1,
bty = "n",
horiz = T)
dev.off()
```
![Simulation der Erwartungstreue von Stichprobenmittel und Stichprobenvarianz
als Schätzer des Erwartungswerts und der Varianz bei normalverteilten Stichprobenvariablen
und Simulation der Verzerrtheit der Stichprobenstandardabweichung als Schätzer der
Standardabweichung bei normalverteilten Stichprobenvariablen](./_figures/302-erwartungstreue){#fig-erwartungstreue fig-align="center"}
### Varianz und Standardfehler {#sec-varianz-und-standardfehler}
Im vorherigen Abschnitt haben wir den Erwartungswert eines Schätzers betrachtet.
In diesem Abschnitt betrachten wir seine Varianz und seine Standardabweichung und
führen die mit diesen assoziierten Begriffe ein. Wir nutzen folgende Definition.
:::{#def-varianz-und-standardfehler}
## Varianz und Standardfehler
$\upsilon = (\upsilon_1,...,\upsilon_n)$ sei die Stichprobe eines Frequentistischen Inferenzmodells
und $\hat{\tau}$ sei ein Schätzer von $\tau$.
* Die *Varianz* von $\hat{\tau}$ ist definiert als
\begin{equation}
\mathbb{V}_\theta(\hat{\tau} ) :=
\mathbb{E}_\theta
\left((\hat{\tau} (\upsilon) - \mathbb{E}_\theta(\hat{\tau} (\upsilon)))^2\right).
\end{equation}
* Der *Standardfehler* von $\hat{\tau}$ ist definiert als
\begin{equation}
\mbox{SE}(\hat{\tau} ) := \sqrt{\mathbb{V}_\theta(\hat{\tau})}.
\end{equation}
:::
Die Varianz eines Schätzers $\hat{\tau}$ ist also als die Varianz der
Zufallsvariable $\hat{\tau}(\upsilon)$ definiert. Der Standardfehler eines Schätzers
$\hat{\tau}$ ist als die Standardabweichung von $\hat{\tau}(\upsilon)$ definiert. Als
erstes Beispiel für einen Standardfehler betrachten wir den *Standardfehler des Stichprobenmittels*.
:::{#thm-standardfehler-des-stichprobenmittels}
## Standardfehler des Stichprobenmittels
$\upsilon = (\upsilon_1,...,\upsilon_n)$ sei die Stichprobe eines parametrischen
Produktmodells. Dann ist der \textit{Standardfehler des Stichprobenmittels} gegeben durch
\begin{equation}
\mbox{SE}(\bar{\upsilon}) = \frac{\mathbb{S}_\theta(\upsilon_1)}{\sqrt{n}}.
\end{equation}.
:::
:::{.proof}
Mit der Varianz des Stichprobenmittels ergibt sich
\begin{equation}
\mbox{SE}(\bar{\upsilon})
= \sqrt{\mathbb{V}_\theta(\bar{\upsilon})}
= \sqrt{\frac{\mathbb{V}_\theta(\upsilon_1)}{n}}
= \frac{\mathbb{S}_\theta(\upsilon_1)}{\sqrt{n}}.
\end{equation}
:::
Der Standardfehler des Mittelwerts beschreibt die Variabilität des Stichprobenmittels.
Da die Standardabweichung $\mathbb{S}_\theta(\upsilon_1)$ unbekannt ist, ist auch der
Standardfehler $\mbox{SE}(\bar{\upsilon})$ unbekannt, kann also nur geschätzt werden.
Mit der Stichprobenstandardabweichung als verzerrter Schätzer der Standardabweichung
$\mathbb{S}_\theta(\upsilon_1)$ ergibt sich ein ebenfalls verzerrter Schätzer für
den Standardfehler des Stichprobenmittels zu
\begin{equation}
\hat{\mbox{SE}}(\bar{\upsilon}) = \frac{S}{\sqrt{n}}.
\end{equation}
Als zweites Beispiel wollen wir den Standardfehler des Maximum-Likelihood Schätzers
für den Parameter eines Bernoulli-Modells betrachten.
:::{#thm-standardfehler-des-bernoulli-ml-parameters-schaetzers}
## Standardfehler des Maximum-Likelihood Schätzers des Bernoullimodellparameters
Es sei $\upsilon = (\upsilon_1,...,\upsilon_n)$ die Stichproben eines Bernoullimodells und
$\hat{\mu}^{\mbox{\tiny ML}}$ sei der Maximum-Likelihood Schätzer für den
Bernoullimodellparameter $\mu$. Dann ist der Standardfehler von
$\hat{\mu}^{\mbox{\tiny ML}}$ gegeben durch
\begin{equation}
\mbox{SE}\left(\hat{\mu}^{\mbox{\tiny ML}}\right) = \sqrt{\frac{\mu(1-\mu)}{n}}.
\end{equation}
:::
:::{.proof}
Es gilt
\begin{align}
\begin{split}
\mbox{SE}\left(\hat{\mu}^{\mbox{\tiny ML}}\right)
= \sqrt{\mathbb{V}_\mu\left(\hat{\mu}^{\mbox{\tiny ML}}\right)}
= \sqrt{\mathbb{V}_\mu\left(\frac{1}{n}\sum_{i=1}^n \upsilon_i \right)}
= \sqrt{\frac{1}{n^2}\sum_{i=1}^n \mathbb{V}_\mu(\upsilon_i)}
= \sqrt{\frac{n \mu(1-\mu)}{n^2}}
= \sqrt{\frac{\mu(1-\mu)}{n}},
\end{split}
\end{align}
wobei die dritte Gleichung mit der Unabhängigkeit der $\upsilon_i$ und die
vierte Gleichung mit der Varianz $\mathbb{V}_\mu(\upsilon_1) = \mathbb{V}_\mu(\upsilon_i) = \mu(1-\mu)$ der Stichprobenvariablen folgt.
:::
Wie im Falle des Standardfehlers des Stichprobenmittels ist auch der Standardfehler
des Maximum-Likelihood Schätzers des Bernoullimodellparameters ein wahrer, aber
unbekannter, Wert. Ein Schätzer für $\mbox{SE}\left(\hat{\mu}^{\mbox{\tiny ML}}\right)$
ergibt sich mit dem Maximum-Likelihood Schätzer für den Bernoullimodellparameter durch
\begin{equation}
\hat{\mbox{SE}}\left(\hat{\mu}^{\mbox{\tiny ML}}\right)
= \sqrt{\frac{\hat{\mu}^{\mbox{\tiny ML}}(1-\hat{\mu}^{\mbox{\tiny ML}})}{n}}.
\end{equation}
Folgender **R** Code simuliert die Verteilung des Maximum-Likelihood Schätzers
für den Parameter eines Bernoullimodells mit wahrem, aber unbekanntem,
Parameterwert $\mu := 0.4$ für die Stichprobenumfänge $n = 20, n = 100$ und $n = 200$.
@fig-sem visualisiert die resultierenden Verteilungen mithilfe von Histogrammen.
Die Variabilität der Schätzwerte, also die Breite der Histogrammverteilungen, hängt
dabei offenbar vom Stichprobenumfang ab und höhere Stichprobenumfänge resultieren
in einer geringeren Variabilität des Schätzers. Diesen Gedanken werden wir im
Abschnitt @sec-asymptotische-schaetzereigenschaften vertiefen.
\tiny
```{r, echo = T}
# Modellformulierung
mu = 0.4 # wahrer, aber unbekannter, Parameterwert
n_all = c(20,100,200) # Stichprobenumfänge n
ns = 1e4 # Anzahl der Simulationen
mu_hat = matrix(rep(NaN, length(n_all)*ns), nrow = length(n_all)) # Maximum-Likelihood Schätzearray
# Stichprobenumfängeiterationen
for(i in seq_along(n_all)){
# Simulationsiterationen
for(s in 1:ns){
y = rbinom(n_all[i],1,mu) # Stichprobenrealisation von y_1,...,y_n
mu_hat[i,s] = mean(y) # Stichprobenmittel
}
}
```
```{r, echo = F, eval = F}
# Visualisierung
library(latex2exp)
pdf(file = file.path("./_figures/302-sem.pdf"), width = 10, height = 3.3)
fig = par(
family = "sans",
bty = "l",
mfcol = c(1,3),
lwd = 1,
las = 1,
mgp = c(2,1,0),
xaxs = "i",
yaxs = "i",
font.main = 1,
cex = .9,
cex.main = 1.4)
for(i in seq_along(n_all)){
hist(
mu_hat[i,],
ylim = c(0,2.5e3),
xlim = c(0,1),
col = "gray90",
xlab = TeX("$\\hat{\\mu}^{ML}_{n}$"),
ylab = "",
main = sprintf("n = %d", n_all[i]))
}
dev.off()
```
![Simulation der Verteilung des Maximum-Likelihood Schätzers eines Bernoullimodells.
Die Variabilität des Schätzers hängt dabei offenbar vom Stichprobenumfang $n$ ab.](./_figures/302-sem){#fig-sem fig-align="center"}
\normalsize
### Mittlerer quadratischer Fehler {#sec-mittlerer-quadratischer-fehler}
Mit der Erwartungstreue und der Varianz eines Schätzers haben wir in den beiden
vorherigen Abschnitten zwei unabhängige Kriterien für die Güte von Schätzern kennengelernt.
Der in diesem Abschnitt eingeführte *Mittlere quadratische Fehler* eines
Schätzers ermöglicht eine integrierte Betrachtung der Genauigkeit (Erwatungstreue)
und Variabilität (Varianz) eines Schätzer im Sinne seiner sogenannten
*Bias-Varianz-Zerlegung*. Wir definieren den mittleren quadratischen Fehler
eines Schätzers zunächt wie folgt.
:::{#def-mittlerer-quadratischer-fehler}
## Mittlerer quadratischer Fehler
$\upsilon = (\upsilon_1,...,\upsilon_n)$ sei die Stichprobe eines parametrischen
Produktmodells und $\hat{\tau}$ ein Schätzer für $\tau$. Dann ist der
*mittlere quadratischer Fehler (engl. mean squared error)* von $\hat{\tau}$
definiert als
\begin{equation}
\mbox{MQF}(\hat{\tau})
:= \mathbb{E}_\theta\left((\hat{\tau}(\upsilon) - \tau(\theta))^2\right).
\end{equation}
:::
Der mittlere quadratische Fehler von $\hat{\tau}$ ist also die erwartete quadrierte
Abweichung von $\hat{\tau}(\upsilon)$ von $\tau(\theta)$. Man beachte, dass in Abgrenzung
dazu die Varianz von $\hat{\tau}$ die erwartete quadrierte Abweichung von
$\hat{\tau}$ von $\mathbb{E}_\theta(\hat{\tau}(\upsilon))$ ist. Dabei kann, wie in
@sec-erwartungstreue gesehen $\mathbb{E}_\theta(\hat{\tau}(\upsilon))$ mit $\tau(\theta)$
übereinstimmen, ein Schätzer also erwartungstreu sein, er muss es aber nicht. Nutzt man
den mittleren quadratischen Fehler als Gütekriterium für einen Schätzer, zum Beispiel
indem man versucht, einen Schätzer mit möglichst geringem mittleren quadratischen
Fehler zu konstruieren, so kann man dabei eventuelle leichte Abweichungen von
der Erwartungstreue zugunsten einer geringen Schätzervarianz in Kauf nehmen.
Für den mittleren quadratischen Fehler gilt nämlich folgendes Theorem.
:::{#thm-zerlegung-des-mittleren-quadratischen-fehlers}
## Zerlegung des mittleren quadratischen Fehlers
$\upsilon = (\upsilon_1,...,\upsilon_n)$ sei die Stichprobe eines parametrischen
Produktmodells, $\hat{\tau}$ sei ein Schätzer für $\tau$, und
$\mbox{MQF}(\hat{\tau})$ sei der mittlere quadratische Fehler von $\hat{\tau}$.
Dann gilt
\begin{equation}
\mbox{MQF}(\hat{\tau}) = \mbox{B}(\hat{\tau})^2 + \mathbb{V}_\theta(\hat{\tau}).
\end{equation}
:::
:::{.proof}
Zur Vereinfachung der Notation seien $\tau := \tau(\theta)$,
$\hat{\tau} := \hat{\tau}(\upsilon)$ und $\bar{\tau}_n := \mathbb{E}_\theta(\hat{\tau}(\upsilon))$.
Dann gilt:
\begin{align}
\begin{split}
\mathbb{E}_\theta\left((\hat{\tau} - \tau)^2\right)
& = \mathbb{E}_\theta\left((\hat{\tau} - \bar{\tau}_n + \bar{\tau}_n - \tau)^2\right) \\
& = \mathbb{E}_\theta
\left(
(\hat{\tau} - \bar{\tau}_n)^2 + 2(\hat{\tau} - \bar{\tau}_n)(\bar{\tau}_n - \tau) + (\bar{\tau}_n - \tau)^2
\right)
\\
& = \mathbb{E}_\theta\left((\hat{\tau} - \bar{\tau}_n)^2\right) + 2\mathbb{E}_\theta\left((\hat{\tau} - \bar{\tau}_n)(\bar{\tau}_n - \tau)\right) + \mathbb{E}_\theta\left((\bar{\tau}_n - \tau)^2\right) \\
& = \mathbb{E}_\theta\left((\hat{\tau} - \bar{\tau}_n)^2\right) + 2\mathbb{E}_\theta\left(
\hat{\tau}\bar{\tau}_n - \hat{\tau}\tau - \bar{\tau}_n\bar{\tau}_n + \bar{\tau}_n\tau
\right) + \mathbb{E}_\theta\left((\bar{\tau}_n - \tau)^2\right)
\\
& =
\mathbb{E}_\theta\left((\hat{\tau} - \bar{\tau}_n)^2\right) + 2\left(
\bar{\tau}_n\bar{\tau}_n - \bar{\tau}_n\tau
\right) + \mathbb{E}_\theta\left((\bar{\tau}_n - \tau)^2\right) \\
& =
\mathbb{E}_\theta\left((\hat{\tau} - \bar{\tau}_n)^2\right) + 0 + \mathbb{E}_\theta\left((\bar{\tau}_n - \tau)^2\right) \\
& =
\mathbb{E}_\theta\left((\bar{\tau}_n - \tau)^2\right) + \mathbb{E}_\theta\left((\hat{\tau} - \bar{\tau}_n)^2\right) \\
& =
\mathbb{E}_\theta\left((\mathbb{E}_\theta(\hat{\tau}) - \tau)^2\right) + \mathbb{E}_\theta\left((\hat{\tau} - \mathbb{E}_\theta(\hat{\tau}))^2\right) \\
& =
(\mathbb{E}_\theta(\hat{\tau}) - \tau)^2 + \mathbb{V}_\theta(\hat{\tau}) \\
& =
\mbox{B}(\hat{\tau})^2 + \mathbb{V}_\theta(\hat{\tau}).
\end{split}
\end{align}
:::
### Cramér-Rao-Ungleichung {#sec-cramer-rao-ungleichung}
Hat man mehrere erwartungstreue Schätzer vorliegen, so gilt, dass derjenige Schätzer
mit der kleinsten Varianz am verlässlichsten seinen Zweck erfüllt. Weil aber die
Stichprobenrealisierungen Frequentistischer Inferenzmodelle in aller Regel variabel sind,
kann auch die Variabilität erwartungstreuer Schätzer nicht beliebig klein sein. Die
*Cramér-Rao-Ungleichung* gibt eine untere Schranke für die Varianz
erwartungstreuer Schätzer an. Ein erwartungstreuer Schätzer mit Varianz gleich
dieser unteren Schranke hat damit die kleinstmögliche Varianz aller erwartungstreuer
Schätzer und ist - in diesem Sinne - ein optimaler Schätzer.
Die Cramér-Rao-Ungleichung basiert auf dem Begriff der sogenannten *Fisher-Information*,
welche wiederrum auf dem Begriff der *Scorefunktion* eines Frequentischen Inferenzmodells
beruht. Wir führen im Folgenden also zunächst diese beiden Begrifflichkeiten ein,
bevor die Cramér-Rao-Ungleichung formuliert und bewiesen werden soll.
Dabei gelten die vorgestellten Resultate allgemein nur unter einer
Reihe mathematischer Annahmen, den sogenannten *Fisher-Regularitätsbedingungen*.
Diese bestehen für ein Frequentistisches Inferenzmodell mit WMF oder WDF $p_\theta$
und Parameterraum $\Theta$ darin, dass angenommen wird, dass (1) $\Theta$ eine
offene Menge ist, der wahre, aber unbekannte, Parameterwert damit nicht an
einer Parameterraumgrenze liegen kann, (2) die Teilmenge von $\Theta$, auf der $p_\theta$
von Null verschiedene Werte annimmt, nicht von $\theta$ abhängt, (3) das Modell
selbst identifizierbar ist, dass also WMFen oder WDFen mit unterschiedliche Parameterwerten
unterschiedliche Funktionen sind und damit unterschiedliche Stichprobenverteilungen
implizieren, (4) die Likelihood-Funktion des Modells zweimal stetig differenzierbar
und (5) dass für die Likelihood-Funktion Integration und Differentiation vertauscht werden
dürfen. Wir setzen die Fisher-Regularitätsbedingungen also als erfüllt voraus und
wollen nur Modelle mit eindimensionalen Parameterräumen $\Theta \subseteq \mathbb{R}$
betrachten. Wir definieren zunächst die Begriffe der *Scorefunktion* und der
*Fisher-Information* wie folgt.
:::{#def-scorefunktion-und-fisher-information}
## Scorefunktion und Fisher-Information
$\upsilon = (\upsilon_1,...,\upsilon_n)$ sei die Stichprobe eines parametrischen
Produktmodells mit eindimensionalem Parameter $\theta \in \Theta \subseteq \mathbb{R}$
und $\ell$ sei die zugehörige Log-Likelihood-Funktion. Dann gelten:
* Die erste Ableitung von $\ell$ wird *Scorefunktion der Stichprobe*
genannt und wird mit
\begin{equation}
S(\theta) := \frac{d}{d\theta}\ell(\theta)
\end{equation}
bezeichnet. Für $n = 1$ schreiben wir $S(\theta) := S_1(\theta)$ und nennen
$S(\theta)$ *Scorefunktion einer Zufallsvariable*.
* Die negative zweite Ableitung von $\ell$ wird *Fisher-Information der Stichprobe*
genannt und mit
\begin{equation}
I(\theta) := -\frac{d^2}{d\theta^2}\ell(\theta)
\end{equation}
bezeichnet. Für $n = 1$ schreiben wir $I(\theta) := I_1(\theta)$ und
nennen $I(\theta)$ die *Fisher-Information einer Zufallsvariable*.
:::
Da Likelihood- und Log-Likelihood-Funktionen von der Realisierung einer Stichprobe
abhängen, sind sie vor dem Hintegrund eines Frequentistischen Inferenzmodells
zufällige Funktionen. Da die Fisher-Information als Funktion der Log-Likelihood-Funktion
damit auch eine Zufallsvariable ist, muss man zwischen den *beobachteten* und
den *erwarteten* Werten der Fisher-Information unterscheiden.
:::{#def-beobachtete-und-erwartete-fisher-information}
## Beobachtete und erwartete Fisher-Information
$\upsilon = (\upsilon_1,...,\upsilon_n)$ sei die Stichprobe eines parametrischen
Produktmodells mit eindimensionalem Parameter $\theta \in \Theta \subseteq \mathbb{R}$,
$\ell$ sei die zugehörige Log-Likelihood-Funktion und $\hat{\theta}^{\mbox{\tiny ML}}$
sei ein Maximum-Likelihood-Schätzer von $\theta$. Dann gelten:
* Die *beobachtete Fisher-Information der Stichprobe* ist definiert als
\begin{equation}
I\left(\hat{\theta}^{\mbox{\tiny ML}}\right)
:= -\frac{d^2}{d\theta^2}\ell\left(\hat{\theta}^{\mbox{\tiny ML}}\right),
\end{equation}
die beobachtete Fisher-Information der Stichprobe ist also die Fisher-Information
an der Stelle des Maximum-Likelihood-Schätzers $\hat{\theta}^{\mbox{\tiny ML}}$.
* Die *erwartete Fisher-Information der Stichprobe* ist definiert als
\begin{equation}
J(\theta) := \mathbb{E}_\theta(I(\theta)).
\end{equation}
Für $n = 1$ schreiben wir $J(\theta) := J_1(\theta)$ und nennen $J(\theta)$ die
\textit{erwartete Fisher-Information einer Zufallsvariable.}
:::
Bevor wir diese Begrifflichkeiten anhand des Bernoullimodells
(@thm-scorefunktion-und-fisher-informationen-des-bernoullimodells) und des
Normalverteilungsmodells
(@thm-scorefunktion-und-fisher-informationen-des-normalverteilungsmodells-bei-bekanntem-erwartungswertparameter
und
@thm-scorefunktion-und-fisher-informationen-des-normalverteilungsmodells-bei-bekanntem-varianzparameter)
verdeutlichen wollen, führen wir mit der *Additivität der Fisher-Information* bei
parametrischen Produktmodellen (@thm-additivität-der-fisher-information) und dem
Erwartungswert und der Varianz der Scorefunktion (@thm-erwartungswert-und-varianz-der-scorefunktion)
noch wichtige Eigenschaften der genannten Begriffe ein, die die folgende Diskussion
vereinfachen.
:::{#thm-additivität-der-fisher-information}
## Additivität der Fisher-Information
$\upsilon = (\upsilon_1,...,\upsilon_n)$ sei die Stichprobe eines parametrischen
Produktmodells mit Parameter $\theta \in \Theta \subseteq \mathbb{R}$,
$\ell$ sei die zugehörige Log-Likelihood-Funktion und $I(\theta)$ und