Quantitative Analysemethoden: Schätzung von Konfidenzintervallen. Konfidenzwahrscheinlichkeit und Konfidenzintervall Wie groß ist die Wahrscheinlichkeit des Konfidenzintervalls?

Oftmals muss der Gutachter den Immobilienmarkt des Segments analysieren, in dem sich das Bewertungsobjekt befindet. Wenn der Markt entwickelt ist, kann es schwierig sein, die gesamte Menge der präsentierten Objekte zu analysieren. Daher wird für die Analyse eine Stichprobe von Objekten verwendet. Diese Stichprobe ist nicht immer homogen, manchmal ist es erforderlich, sie von Extremen – zu hohen oder zu niedrigen Marktangeboten – zu befreien. Zu diesem Zweck wird es angewendet Konfidenzintervall. Ziel diese Studie- Führen Sie eine vergleichende Analyse zweier Methoden zur Berechnung des Konfidenzintervalls durch und wählen Sie diese aus Beste Option Berechnung bei der Arbeit mit verschiedenen Proben im estimatica.pro-System.

Konfidenzintervall – berechnet auf Basis der Stichprobe, das Werteintervall des Merkmals, das mit bekannter Wahrscheinlichkeit den geschätzten Parameter der Allgemeinbevölkerung enthält.

Der Sinn der Berechnung des Konfidenzintervalls besteht darin, ein solches Intervall auf der Grundlage der Stichprobendaten zu erstellen, sodass mit einer bestimmten Wahrscheinlichkeit behauptet werden kann, dass der Wert des geschätzten Parameters in diesem Intervall liegt. Mit anderen Worten: Das Konfidenzintervall enthält mit einer bestimmten Wahrscheinlichkeit den unbekannten Wert der geschätzten Größe. Je größer das Intervall, desto höher die Ungenauigkeit.

Zur Bestimmung des Konfidenzintervalls gibt es unterschiedliche Methoden. In diesem Artikel betrachten wir zwei Möglichkeiten:

  • durch den Median und die Standardabweichung;
  • durch den kritischen Wert der t-Statistik (Student-Koeffizient).

Phasen einer vergleichenden Analyse verschiedener Methoden zur Berechnung des CI:

1. Bilden Sie eine Datenprobe.

2. Verarbeiten Sie es statistische Methoden: Berechnen Sie den Mittelwert, den Median, die Varianz usw.;

3. Wir berechnen das Konfidenzintervall auf zwei Arten;

4. Analysieren Sie die gereinigten Proben und die erhaltenen Konfidenzintervalle.

Stufe 1. Datenerfassung

Die Stichprobe wurde mit dem estimatica.pro-System gebildet. Die Stichprobe umfasste 91 Angebote zum Verkauf von 1-Zimmer-Wohnungen in der 3. Preiszone mit der Planungsart „Chruschtschow“.

Tabelle 1. Erstmuster

Der Preis von 1 qm, c.u.

Abb.1. Erstexemplar



Stufe 2. Bearbeitung des Erstmusters

Die Probenverarbeitung mit statistischen Methoden erfordert die Berechnung folgender Werte:

1. Arithmetisches Mittel

2. Median – eine Zahl, die die Stichprobe charakterisiert: Genau die Hälfte der Stichprobenelemente ist größer als der Median, die andere Hälfte ist kleiner als der Median

(für eine Stichprobe mit einer ungeraden Anzahl von Werten)

3. Bereich – die Differenz zwischen den Maximal- und Minimalwerten in der Stichprobe

4. Varianz – wird verwendet, um die Variation in den Daten genauer abzuschätzen

5. Die Standardabweichung für die Stichprobe (im Folgenden als RSD bezeichnet) ist der häufigste Indikator für die Streuung von Anpassungswerten um das arithmetische Mittel.

6. Variationskoeffizient – ​​spiegelt den Grad der Streuung der Anpassungswerte wider

7. Schwingungskoeffizient – ​​spiegelt die relative Schwankung der Extremwerte der Preise in der Stichprobe um den Durchschnitt wider

Tabelle 2. Statistische Indikatoren der Originalstichprobe

Der Variationskoeffizient, der die Homogenität der Daten charakterisiert, beträgt 12,29 %, der Oszillationskoeffizient ist jedoch zu groß. Somit können wir feststellen, dass die ursprüngliche Stichprobe nicht homogen ist. Fahren wir also mit der Berechnung des Konfidenzintervalls fort.

Stufe 3. Berechnung des Konfidenzintervalls

Methode 1. Berechnung anhand des Medians und der Standardabweichung.

Das Konfidenzintervall wird wie folgt bestimmt: der Mindestwert – die Standardabweichung wird vom Median abgezogen; der Maximalwert – die Standardabweichung wird zum Median addiert.

Somit ist das Konfidenzintervall (47179 CU; 60689 CU)

Reis. 2. Werte innerhalb des Konfidenzintervalls 1.



Methode 2. Erstellen eines Konfidenzintervalls anhand des kritischen Werts der T-Statistik (Student-Koeffizient)

S.V. Gribovsky im Buch „ Mathematische Methoden„Bewertung des Immobilienwerts“ beschreibt, wie das Konfidenzintervall anhand des Student-Koeffizienten berechnet wird. Bei der Berechnung nach dieser Methode muss der Schätzer selbst das Signifikanzniveau ∝ festlegen, das die Wahrscheinlichkeit bestimmt, mit der das Konfidenzintervall gebildet wird. Üblicherweise werden Signifikanzniveaus von 0,1 verwendet; 0,05 und 0,01. Sie entsprechen Konfidenzwahrscheinlichkeiten von 0,9; 0,95 und 0,99. Bei dieser Methode gelten die wahren Werte des mathematischen Erwartungswerts und der Varianz als praktisch unbekannt (was bei der Lösung praktischer Bewertungsprobleme fast immer der Fall ist).

Formel für das Konfidenzintervall:

n – Stichprobengröße;

Der kritische Wert der T-Statistik (Student-Verteilungen) mit einem Signifikanzniveau ∝, der Anzahl der Freiheitsgrade n-1, die durch spezielle Statistiktabellen oder mit MS Excel (→ „Statistisch“ → STUDRASPOBR) ermittelt wird;

∝ - Signifikanzniveau, wir nehmen ∝=0,01.

Reis. 2. Werte innerhalb des Konfidenzintervalls 2.

Schritt 4. Analyse verschiedener Methoden zur Berechnung des Konfidenzintervalls

Zwei Methoden zur Berechnung des Konfidenzintervalls – durch den Median und den Student-Koeffizienten – führten zu unterschiedlichen Werten der Intervalle. Dementsprechend wurden zwei unterschiedliche gereinigte Proben erhalten.

Tabelle 3. Statistische Indikatoren für drei Proben.

Index

Erstexemplar

1 Option

Option 2

Mittlere Bedeutung

Streuung

Coef. Variationen

Coef. Schwingungen

Anzahl ausgemusterter Objekte, Stk.

Basierend auf den durchgeführten Berechnungen können wir sagen, dass sich die Werte der Konfidenzintervalle, die mit verschiedenen Methoden ermittelt wurden, überschneiden, sodass Sie nach Ermessen des Gutachters jede der Berechnungsmethoden verwenden können.

Wir glauben jedoch, dass es bei der Arbeit im estimatica.pro-System ratsam ist, je nach Grad der Marktentwicklung eine Methode zur Berechnung des Konfidenzintervalls zu wählen:

  • wenn der Markt nicht entwickelt ist, wenden Sie die Berechnungsmethode anhand des Medians und der Standardabweichung an, da die Anzahl der ausgemusterten Objekte in diesem Fall gering ist;
  • Wenn der Markt entwickelt ist, wenden Sie die Berechnung anhand des kritischen Werts der T-Statistik (Student-Koeffizient) an, da es möglich ist, eine große Anfangsstichprobe zu bilden.

Bei der Erstellung des Artikels wurden verwendet:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Mathematische Methoden zur Wertermittlung von Immobilien. Moskau, 2014

2. Daten aus dem estimatica.pro-System

VERTRAUENSINTERVALLE FÜR FREQUENZEN UND TEILE

© 2008

Nationales Institut für öffentliche Gesundheit, Oslo, Norwegen

Der Artikel beschreibt und diskutiert die Berechnung von Konfidenzintervallen für Häufigkeiten und Proportionen mit den Methoden Wald, Wilson, Klopper-Pearson, unter Verwendung der Winkeltransformation und der Wald-Methode mit Agresti-Cowll-Korrektur. Das vorgestellte Material gibt allgemeine Informationenüber Methoden zur Berechnung von Konfidenzintervallen für Häufigkeiten und Anteile und soll bei den Lesern der Zeitschrift das Interesse wecken, Konfidenzintervalle nicht nur bei der Präsentation eigener Forschungsergebnisse zu verwenden, sondern auch Fachliteratur zu lesen, bevor mit der Arbeit an zukünftigen Publikationen begonnen wird.

Stichworte : Konfidenzintervall, Häufigkeit, Anteil

In einer der früheren Veröffentlichungen wurde die Beschreibung qualitativer Daten kurz erwähnt und es wurde berichtet, dass deren Intervallschätzung einer Punktschätzung vorzuziehen sei, um die Häufigkeit des Auftretens des untersuchten Merkmals in der Allgemeinbevölkerung zu beschreiben. Da Studien mit Stichprobendaten durchgeführt werden, muss die Projektion der Ergebnisse auf die Gesamtbevölkerung tatsächlich ein Element der Ungenauigkeit in der Stichprobenschätzung enthalten. Das Konfidenzintervall ist ein Maß für die Genauigkeit des geschätzten Parameters. Interessant ist, dass in einigen Büchern zu Grundlagen der Statistik für Ärzte das Thema Konfidenzintervalle für Häufigkeiten völlig außer Acht gelassen wird. In diesem Artikel betrachten wir verschiedene Möglichkeiten zur Berechnung von Konfidenzintervallen für Häufigkeiten und gehen dabei von Stichprobenmerkmalen wie Nichtwiederholung und Repräsentativität sowie der Unabhängigkeit der Beobachtungen voneinander aus. Die Häufigkeit wird in diesem Artikel nicht als absolute Zahl verstanden, die angibt, wie oft dieser oder jener Wert insgesamt vorkommt, sondern als relativer Wert, der den Anteil der Studienteilnehmer bestimmt, die das untersuchte Merkmal aufweisen.

In der biomedizinischen Forschung werden am häufigsten 95 %-Konfidenzintervalle verwendet. Dieses Konfidenzintervall ist der Bereich, in dem der wahre Anteil in 95 % der Fälle liegt. Mit anderen Worten: Man kann mit 95-prozentiger Sicherheit sagen, dass der wahre Wert der Häufigkeit des Auftretens eines Merkmals in der Allgemeinbevölkerung innerhalb des 95-Prozent-Konfidenzintervalls liegt.

In den meisten statistischen Lehrbüchern für medizinische Forscher wird angegeben, dass der Häufigkeitsfehler mithilfe der Formel berechnet wird

Dabei ist p die Häufigkeit des Auftretens des Merkmals in der Stichprobe (Wert von 0 bis 1). In den meisten inländischen wissenschaftlichen Artikeln wird der Wert der Häufigkeit des Auftretens eines Merkmals in der Stichprobe (p) sowie dessen Fehler (s) in Form von p ± s angegeben. Sinnvoller ist es jedoch, ein 95 %-Konfidenzintervall für die Häufigkeit des Auftretens eines Merkmals in der Allgemeinbevölkerung anzugeben, das Werte aus einschließt

Vor.

In einigen Lehrbüchern wird für kleine Stichproben empfohlen, den Wert 1,96 durch den Wert von t für N - 1 Freiheitsgrade zu ersetzen, wobei N die Anzahl der Beobachtungen in der Stichprobe ist. Den Wert von t finden Sie in den Tabellen zur t-Verteilung, die in fast allen Lehrbüchern der Statistik zu finden sind. Die Verwendung der t-Verteilung für die Wald-Methode bietet keine sichtbaren Vorteile gegenüber anderen unten diskutierten Methoden und wird daher von einigen Autoren nicht begrüßt.

Die obige Methode zur Berechnung von Konfidenzintervallen für Häufigkeiten oder Brüche ist nach Abraham Wald (Abraham Wald, 1902–1950) benannt, da sie nach der Veröffentlichung von Wald und Wolfowitz im Jahr 1939 weit verbreitet eingesetzt wurde. Die Methode selbst wurde jedoch bereits 1812 von Pierre Simon Laplace (1749–1827) vorgeschlagen.

Die Wald-Methode erfreut sich großer Beliebtheit, ihre Anwendung ist jedoch mit erheblichen Problemen verbunden. Die Methode wird für kleine Stichprobengrößen sowie in Fällen, in denen die Häufigkeit des Auftretens eines Merkmals gegen 0 oder 1 (0 % oder 100 %) tendiert, nicht empfohlen und ist für Häufigkeiten von 0 und 1 einfach nicht möglich. Darüber hinaus gilt: die Normalverteilungsnäherung, die bei der Berechnung des Fehlers verwendet wird, „funktioniert nicht“ in Fällen, in denen n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Da die neue Variable eine Normalverteilung aufweist, betragen die Unter- und Obergrenzen des 95 %-Konfidenzintervalls für die Variable φ φ-1,96 und φ+1,96 links

Anstelle von 1,96 für kleine Stichproben wird empfohlen, den Wert von t für N - 1 Freiheitsgrade zu verwenden. Diese Methode liefert keine negativen Werte und ermöglicht eine genauere Schätzung der Konfidenzintervalle für Häufigkeiten als die Wald-Methode. Darüber hinaus wird es in vielen inländischen Nachschlagewerken zur medizinischen Statistik beschrieben, was jedoch nicht zu einer breiten Anwendung in der medizinischen Forschung führte. Die Berechnung von Konfidenzintervallen mithilfe einer Winkeltransformation wird für Frequenzen, die sich 0 oder 1 nähern, nicht empfohlen.

Hier endet normalerweise die Beschreibung von Methoden zur Schätzung von Konfidenzintervallen in den meisten Büchern über die Grundlagen der Statistik für medizinische Forscher, und dieses Problem ist nicht nur für inländische, sondern auch für ausländische Literatur typisch. Beide Methoden basieren auf dem zentralen Grenzwertsatz, der eine große Stichprobe impliziert.

Angesichts der Mängel bei der Schätzung von Konfidenzintervallen mit den oben genannten Methoden schlugen Clopper (Clopper) und Pearson (Pearson) 1934 eine Methode zur Berechnung des sogenannten exakten Konfidenzintervalls unter Berücksichtigung der Binomialverteilung des untersuchten Merkmals vor. Diese Methode ist in vielen Online-Rechnern verfügbar, allerdings sind die so ermittelten Konfidenzintervalle in den meisten Fällen zu groß. Gleichzeitig wird diese Methode für den Einsatz in Fällen empfohlen, in denen eine konservative Schätzung erforderlich ist. Der Grad der Konservativität der Methode nimmt mit abnehmender Stichprobengröße zu, insbesondere für N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Nach Ansicht vieler Statistiker erfolgt die optimalste Schätzung der Konfidenzintervalle für Häufigkeiten mit der Wilson-Methode, die bereits 1927 vorgeschlagen wurde, aber in der heimischen biomedizinischen Forschung praktisch nicht verwendet wird. Diese Methode ermöglicht nicht nur die Schätzung von Konfidenzintervallen sowohl für sehr kleine als auch für sehr hohe Häufigkeiten, sondern ist auch auf eine kleine Anzahl von Beobachtungen anwendbar. IN Gesamtansicht Das Konfidenzintervall nach der Wilson-Formel hat die Form von



Dabei nimmt es bei der Berechnung des 95 %-Konfidenzintervalls den Wert 1,96 an, N ist die Anzahl der Beobachtungen und p ist die Häufigkeit des Merkmals in der Stichprobe. Diese Methode ist in Online-Rechnern verfügbar, sodass ihre Anwendung unproblematisch ist. und empfehlen, diese Methode nicht für n p zu verwenden< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Zusätzlich zur Wilson-Methode wird angenommen, dass auch die Agresti-Caull-korrigierte Wald-Methode eine optimale Schätzung des Konfidenzintervalls für Häufigkeiten liefert. Die Agresti-Coulle-Korrektur ist ein Ersatz in der Wald-Formel für die Häufigkeit des Auftretens eines Merkmals in der Stichprobe (p) durch p`, wobei bei der Berechnung 2 zum Zähler und 4 zum Nenner addiert werden , p` = (X + 2) / (N + 4), wobei X die Anzahl der Studienteilnehmer mit dem untersuchten Merkmal und N die Stichprobengröße ist. Diese Modifikation führt zu Ergebnissen, die denen der Wilson-Formel sehr ähnlich sind, außer wenn die Ereignisrate 0 % oder 100 % erreicht und die Stichprobe klein ist. Zusätzlich zu den oben genannten Methoden zur Berechnung von Konfidenzintervallen für Frequenzen wurden Kontinuitätskorrekturen sowohl für die Wald-Methode als auch für die Wilson-Methode für kleine Stichproben vorgeschlagen, aber Studien haben gezeigt, dass ihre Verwendung ungeeignet ist.

Betrachten Sie die Anwendung der oben genannten Methoden zur Berechnung von Konfidenzintervallen anhand von zwei Beispielen. Im ersten Fall untersuchen wir eine große Stichprobe von 1.000 zufällig ausgewählten Studienteilnehmern, von denen 450 das untersuchte Merkmal aufweisen (sei es ein Risikofaktor, ein Ergebnis oder ein anderes Merkmal), was einer Häufigkeit von 0,45 entspricht 45 %. Im zweiten Fall wird die Studie mit einer kleinen Stichprobe von beispielsweise nur 20 Personen durchgeführt, und nur 1 Teilnehmer der Studie (5 %) weist das untersuchte Merkmal auf. Konfidenzintervalle für die Wald-Methode, für die Wald-Methode mit Agresti-Coll-Korrektur und für die Wilson-Methode wurden mit einem von Jeff Sauro entwickelten Online-Rechner berechnet (http://www./wald.htm). Kontinuitätskorrigierte Wilson-Konfidenzintervalle wurden mit dem von Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html) bereitgestellten Rechner berechnet. Berechnungen mit der Fisher-Winkeltransformation wurden „manuell“ unter Verwendung des kritischen Wertes von t für 19 bzw. 999 Freiheitsgrade durchgeführt. Die Berechnungsergebnisse sind für beide Beispiele in der Tabelle dargestellt.

Auf sechs verschiedene Arten berechnete Konfidenzintervalle für die beiden im Text beschriebenen Beispiele

Methode zur Berechnung des Konfidenzintervalls

P=0,0500 oder 5 %

95 %-KI für X=450, N=1000, P=0,4500 oder 45 %

–0,0455–0,2541

Walda mit Agresti-Coll-Korrektur

<,0001–0,2541

Wilson mit Kontinuitätskorrektur

Klopper-Pearsons „exakte Methode“

Winkeltransformation

<0,0001–0,1967

Wie aus der Tabelle ersichtlich ist, geht für das erste Beispiel das nach der „allgemein anerkannten“ Wald-Methode berechnete Konfidenzintervall in den negativen Bereich, was bei Häufigkeiten nicht der Fall sein kann. Leider sind solche Vorfälle in der russischen Literatur keine Seltenheit. Die traditionelle Darstellung von Daten als Häufigkeit und Fehler verdeckt dieses Problem teilweise. Wenn beispielsweise die Häufigkeit des Auftretens eines Merkmals (in Prozent) mit 2,1 ± 1,4 angegeben wird, dann ist dies nicht so „irritierend“ wie 2,1 % (95 %-KI: –0,7; 4,9), obwohl und bedeutet dasselbe. Das Wald-Verfahren mit der Agresti-Coulle-Korrektur und die Berechnung mittels Winkeltransformation ergeben eine gegen Null tendierende Untergrenze. Die Wilson-Methode mit Kontinuitätskorrektur und die „exakte Methode“ ergeben größere Konfidenzintervalle als die Wilson-Methode. Für das zweite Beispiel liefern alle Methoden ungefähr die gleichen Konfidenzintervalle (Unterschiede treten nur in Tausendstel auf), was nicht überraschend ist, da die Häufigkeit des Ereignisses in diesem Beispiel nicht viel von 50 % abweicht und die Stichprobengröße recht groß ist .

Für Leser, die sich für dieses Problem interessieren, können wir die Arbeiten von R. G. Newcombe und Brown, Cai und Dasgupta empfehlen, die die Vor- und Nachteile der Verwendung von 7 bzw. 10 verschiedenen Methoden zur Berechnung von Konfidenzintervallen aufzeigen. Aus inländischen Handbüchern wird das Buch empfohlen, in dem neben einer ausführlichen Beschreibung der Theorie auch die Methoden von Wald, Wilson sowie eine Methode zur Berechnung von Konfidenzintervallen unter Berücksichtigung der Binomialhäufigkeitsverteilung vorgestellt werden . Zusätzlich zu kostenlosen Online-Rechnern (http://www./wald.htm und http://faculty.vassar.edu/lowry/prop1.html) können Konfidenzintervalle für Häufigkeiten (und nicht nur!) mit berechnet werden CIA-Programm (Confidence Intervals Analysis), das unter http://www. Medizinschule. soton. ac. uk/cia/ .

Im nächsten Artikel werden univariate Möglichkeiten zum Vergleich qualitativer Daten untersucht.

Referenzliste

Medizinische Statistik im Klartext: ein Einführungskurs / A. Banerzhi. - M.: Praktische Medizin, 2007. - 287 S. Medizinische Statistik / . - M.: Medical Information Agency, 2007. - 475 S. Medizinisch-biologische Statistik / S. Glants. - M.: Praxis, 1998. Datentypen, Verbreitungsüberprüfung und deskriptive Statistik // Humanökologie – 2008. – Nr. 1. – S. 52–58. MIT. Medizinische Statistik: Lehrbuch / . - Rostow n/D: Phoenix, 2007. - 160 S. Angewandte medizinische Statistik / , . - St. Petersburg. : Folio, 2003. - 428 S. F. Biometrie / . - M.: Höhere Schule, 1990. - 350 S. A. Mathematische Statistik in der Medizin / , . - M.: Finanzen und Statistik, 2007. - 798 S. Mathematische Statistik in der klinischen Forschung / , . - M.: GEOTAR-MED, 2001. - 256 S. Junkerov V. UND. Medizinisch-statistische Verarbeitung medizinischer Forschungsdaten /,. - St. Petersburg. : VmedA, 2002. - 266 S. Agresti A. Für die Intervallschätzung binomialer Proportionen ist Näherung besser als exakt / A. Agresti, B. Coull // Amerikanischer Statistiker. - 1998. - N 52. - S. 119-126. Altman D. Statistiken mit Zuversicht // D. Altman, D. Machin, T. Bryant, M. J. Gardner. - London: BMJ Books, 2000. - 240 S. Brown L.D. Intervallschätzung für einen Binomialanteil / L. D. Brown, T. T. Cai, A. Dasgupta // Statistische Wissenschaft. - 2001. - N 2. - S. 101-133. Clopper C.J. Die Verwendung von Konfidenz- oder Referenzgrenzen am Beispiel des Binomials / C. J. Clopper, E. S. Pearson // Biometrika. - 1934. - N 26. - S. 404-413. Garcia-Perez M. A. Zum Konfidenzintervall für den Binomialparameter / M. A. Garcia-Perez // Qualität und Quantität. - 2005. - N 39. - S. 467-481. Motulsky H. Intuitive Biostatistik // H. Motulsky. - Oxford: Oxford University Press, 1995. - 386 S. Newcombe R.G. Zweiseitige Konfidenzintervalle für den Einzelanteil: Vergleich von sieben Methoden / R. G. Newcombe // Statistik in der Medizin. - 1998. - N. 17. - S. 857–872. Sauro J. Schätzung der Abschlussquoten aus kleinen Stichproben unter Verwendung binomialer Konfidenzintervalle: Vergleiche und Empfehlungen / J. Sauro, J. R. Lewis // Tagungsband der Jahrestagung der Human Factors and Ergonomie Society. – Orlando, FL, 2005. Wald A. Konfidenzgrenzen für kontinuierliche Verteilungsfunktionen // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - S. 105–118. Wilson E. B. Wahrscheinliche Folgerung, Erbrecht und statistische Folgerung / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - S. 209-212.

Konfidenzintervalle für Proportionen

A. M. Grjibovski

Nationales Institut für öffentliche Gesundheit, Oslo, Norwegen

Der Artikel stellt mehrere Methoden zur Berechnung von Konfidenzintervallen für binomiale Proportionen vor, nämlich Wald-, Wilson-, Arkussinus-, Agresti-Coull- und exakte Clopper-Pearson-Methoden. Der Aufsatz gibt nur eine allgemeine Einführung in das Problem der Konfidenzintervallschätzung eines Binomialanteils und soll die Leser nicht nur dazu anregen, Konfidenzintervalle bei der Präsentation der Ergebnisse eigener empirischer Forschungsintervalle zu verwenden, sondern sie auch dazu ermutigen, vorher Statistikbücher zu konsultieren bis hin zur Analyse eigener Daten und der Erstellung von Manuskripten.

Schlüsselwörter: Konfidenzintervall, Anteil

Kontaktinformationen:

Leitender Berater, National Institute of Public Health, Oslo, Norwegen

In den vorherigen Unterabschnitten haben wir uns mit der Frage der Schätzung des unbekannten Parameters befasst A eine Nummer. Eine solche Bewertung wird als „Punkt“ bezeichnet. Bei einer Reihe von Aufgaben ist es nicht nur erforderlich, nach dem Parameter zu suchen A nicht nur einen geeigneten numerischen Wert ermitteln, sondern auch dessen Genauigkeit und Zuverlässigkeit bewerten. Es ist erforderlich zu wissen, zu welchen Fehlern die Parametersubstitution führen kann A seine Punktschätzung A Und mit welchem ​​Maß an Sicherheit können wir erwarten, dass diese Fehler nicht über bekannte Grenzen hinausgehen?

Probleme dieser Art sind besonders relevant für eine kleine Anzahl von Beobachtungen, wenn die Punktschätzung erfolgt und in ist größtenteils zufällig und eine ungefähre Ersetzung von a durch a kann zu schwerwiegenden Fehlern führen.

Um einen Eindruck von der Genauigkeit und Zuverlässigkeit der Schätzung zu vermitteln A,

In der mathematischen Statistik werden sogenannte Konfidenzintervalle und Konfidenzwahrscheinlichkeiten verwendet.

Sei für den Parameter A abgeleitet aus Erfahrung, unvoreingenommene Schätzung A. Wir wollen in diesem Fall den möglichen Fehler abschätzen. Weisen wir eine ausreichend große Wahrscheinlichkeit p zu (z. B. p = 0,9, 0,95 oder 0,99), sodass ein Ereignis mit der Wahrscheinlichkeit p als praktisch sicher angesehen werden kann, und ermitteln wir einen Wert von s dafür

Dann der Bereich praktisch möglicher Werte des Fehlers, der beim Ersetzen auftritt A An A, wird ± s sein; große absolute Fehler treten nur mit geringer Wahrscheinlichkeit auf a = 1 - p. Schreiben wir (14.3.1) wie folgt um:

Gleichheit (14.3.2) bedeutet, dass mit Wahrscheinlichkeit p der unbekannte Wert des Parameters ist A fällt in das Intervall

In diesem Fall ist ein Umstand zu beachten. Zuvor haben wir wiederholt die Wahrscheinlichkeit betrachtet, mit der eine Zufallsvariable in ein bestimmtes nicht zufälliges Intervall fällt. Hier ist die Situation anders: A nicht zufällig, sondern zufälliges Intervall / r. Zufällig seine Position auf der x-Achse, bestimmt durch seinen Mittelpunkt A; Im Allgemeinen ist auch die Länge des Intervalls 2s zufällig, da der Wert von s in der Regel aus experimentellen Daten berechnet wird. Daher wäre es in diesem Fall besser, den Wert von p und nicht als Wahrscheinlichkeit des „Treffens“ des Punktes zu interpretieren A in das Intervall / p, sondern als Wahrscheinlichkeit, dass ein zufälliges Intervall / p den Punkt abdeckt A(Abb. 14.3.1).

Reis. 14.3.1

Die Wahrscheinlichkeit p heißt Vertrauensniveau, und das Intervall / p - Konfidenzintervall. Intervallgrenzen Wenn. a x \u003d a- s und ein 2 = ein + und heißen Grenzen vertrauen.

Lassen Sie uns das Konzept eines Konfidenzintervalls noch einmal interpretieren: Es kann als Intervall von Parameterwerten betrachtet werden A, mit experimentellen Daten kompatibel sind und diesen nicht widersprechen. Wenn wir uns tatsächlich darauf einigen, ein Ereignis mit einer Wahrscheinlichkeit a = 1-p als praktisch unmöglich zu betrachten, dann sind die Werte des Parameters a für welche a - a> s müssen als den experimentellen Daten widersprechend erkannt werden, und diejenigen, für die |a - A bei t na 2 .

Sei für den Parameter A Es liegt eine unvoreingenommene Schätzung vor A. Wenn wir das Gesetz der Mengenverteilung kennen würden A, wäre das Problem, das Konfidenzintervall zu finden, ganz einfach: Es würde ausreichen, einen Wert von s für welche zu finden

Die Schwierigkeit liegt darin, dass das Verteilungsgesetz der Schätzung gilt A hängt vom Gesetz der Mengenverteilung ab X und folglich auf seine unbekannten Parameter (insbesondere auf den Parameter selbst). A).

Um diese Schwierigkeit zu umgehen, kann man den folgenden ungefähren Trick anwenden: Ersetzen Sie die unbekannten Parameter im Ausdruck für s durch ihre Punktschätzungen. Mit relativ vielen Experimenten P(ca. 20 ... 30) Diese Technik liefert in der Regel zufriedenstellende Ergebnisse hinsichtlich der Genauigkeit.

Betrachten Sie als Beispiel das Problem des Konfidenzintervalls für den mathematischen Erwartungswert.

Lassen Sie produzieren P X, deren Merkmale die mathematische Erwartung sind T und Varianz D- Unbekannt. Für diese Parameter wurden folgende Schätzungen erhalten:

Für den mathematischen Erwartungswert muss ein Konfidenzintervall / ð erstellt werden, das der Konfidenzwahrscheinlichkeit ð entspricht T Mengen X.

Bei der Lösung dieses Problems nutzen wir die Tatsache, dass die Menge T ist die Summe P unabhängige identisch verteilte Zufallsvariablen X h und nach dem zentralen Grenzwertsatz für ausreichend groß P sein Verteilungsgesetz ist nahezu normal. In der Praxis kann das Verteilungsgesetz der Summe selbst bei einer relativ kleinen Anzahl von Termen (in der Größenordnung von 10 ... 20) annähernd als normal angesehen werden. Wir gehen davon aus, dass der Wert T nach dem Normalgesetz verteilt. Die Merkmale dieses Gesetzes – der mathematische Erwartungswert und die Varianz – sind jeweils gleich T Und

(siehe Kapitel 13 Unterabschnitt 13.3). Nehmen wir an, dass der Wert D wir kennen und finden einen Wert Ep für den

Unter Anwendung der Formel (6.3.5) aus Kapitel 6 drücken wir die Wahrscheinlichkeit auf der linken Seite von (14.3.5) durch die Normalverteilungsfunktion aus

Wo ist die Standardabweichung der Schätzung? T.

Aus der Gleichung

Finden Sie den Sp-Wert:

wobei arg Ф* (x) die Umkehrfunktion von Ф* ist (X), diese. ein solcher Wert des Arguments, für den die Normalverteilungsfunktion gleich ist X.

Streuung D, durch die der Wert ausgedrückt wird A 1P, wir wissen es nicht genau; Als Näherungswert können Sie die Schätzung verwenden D(14.3.4) und ungefähr ausdrücken:

Damit ist das Problem der Konstruktion eines Konfidenzintervalls näherungsweise gelöst, das gleich ist:

wobei gp durch die Formel (14.3.7) definiert ist.

Um eine umgekehrte Interpolation in den Tabellen der Funktion Ф * (l) bei der Berechnung von s p zu vermeiden, ist es zweckmäßig, eine spezielle Tabelle (Tabelle 14.3.1) zu erstellen, in der die Werte der Größe aufgeführt sind

abhängig von r. Der Wert (p bestimmt für das Normalgesetz die Anzahl der Standardabweichungen, die rechts und links vom Dispersionszentrum beiseite gelegt werden müssen, damit die Wahrscheinlichkeit, in den resultierenden Bereich zu fallen, gleich p ist.

Durch den Wert von 7 p wird das Konfidenzintervall ausgedrückt als:

Tabelle 14.3.1

Beispiel 1. Es wurden 20 Experimente mit dem Wert durchgeführt X; Die Ergebnisse sind in der Tabelle dargestellt. 14.3.2.

Tabelle 14.3.2

Es ist erforderlich, eine Schätzung für den mathematischen Erwartungswert der Menge zu finden X und konstruieren Sie ein Konfidenzintervall, das einem Konfidenzniveau p = 0,8 entspricht.

Lösung. Wir haben:

Wenn wir für den Ursprung n: = 10 wählen, finden wir gemäß der dritten Formel (14.2.14) die erwartungstreue Schätzung D :

Laut Tabelle 14.3.1 finden wir

Grenzen des Selbstvertrauens:

Konfidenzintervall:

Parameterwerte T, Die in diesem Intervall liegenden Werte sind mit den in der Tabelle angegebenen experimentellen Daten kompatibel. 14.3.2.

Auf ähnliche Weise kann ein Konfidenzintervall für die Varianz konstruiert werden.

Lassen Sie produzieren P unabhängige Experimente mit einer Zufallsvariablen X mit unbekannten Parametern aus und A und für die Varianz D Man erhält die unverzerrte Schätzung:

Es ist erforderlich, näherungsweise ein Konfidenzintervall für die Varianz zu bilden.

Aus Formel (14.3.11) ist ersichtlich, dass der Wert D repräsentiert

Menge P Zufallsvariablen der Form . Diese Werte sind es nicht

unabhängig, da jeder von ihnen die Menge enthält T, von allen anderen abhängig. Es kann jedoch gezeigt werden, dass als P das Verteilungsgesetz ihrer Summe ist ebenfalls nahezu normal. Fast um P= 20...30 kann es bereits als normal angesehen werden.

Nehmen wir an, dass dies so ist, und finden wir die Merkmale dieses Gesetzes: den mathematischen Erwartungswert und die Varianz. Seit der Partitur D- also unvoreingenommen M[D] = D.

Varianzberechnung D D ist mit relativ komplexen Berechnungen verbunden, daher geben wir seinen Ausdruck ohne Ableitung an:

wo c 4 - das vierte zentrale Moment der Menge X.

Um diesen Ausdruck zu verwenden, müssen Sie darin die Werte von 4 und ersetzen D(zumindest ungefähr). Anstatt D Sie können die Auswertung nutzen D. Prinzipiell kann das vierte Zentralmoment auch durch seine Schätzung ersetzt werden, beispielsweise durch einen Wert der Form:

Ein solcher Ersatz führt jedoch zu einer äußerst geringen Genauigkeit, da im Allgemeinen bei einer begrenzten Anzahl von Experimenten Momente höherer Ordnung mit großen Fehlern bestimmt werden. In der Praxis kommt es jedoch häufig vor, dass sich die Form des Verteilungsgesetzes der Menge ändert X im Voraus bekannt: Nur seine Parameter sind unbekannt. Dann können wir versuchen, u4 durch auszudrücken D.

Nehmen wir den häufigsten Fall, nämlich den Wert X nach dem Normalgesetz verteilt. Dann wird sein viertes zentrales Moment durch die Varianz ausgedrückt (siehe Kapitel 6 Unterabschnitt 6.2);

und Formel (14.3.12) ergibt oder

Ersetzen in (14.3.14) das Unbekannte D seine Einschätzung D, wir bekommen: woher

Das Moment u 4 kann als ausgedrückt werden D auch in einigen anderen Fällen, wenn die Verteilung der Menge X ist nicht normal, aber sein Aussehen ist bekannt. Für das Gesetz der gleichmäßigen Dichte (siehe Kapitel 5) gilt beispielsweise:

wobei (a, P) das Intervall ist, für das das Gesetz gilt.

Somit,

Nach der Formel (14.3.12) erhalten wir: von wo wir ungefähr finden

In Fällen, in denen die Form des Verteilungsgesetzes des Wertes von 26 unbekannt ist, wird bei der Schätzung des Wertes von a /) dennoch empfohlen, die Formel (14.3.16) zu verwenden, sofern keine besonderen Gründe für die Annahme vorliegen Das Gesetz unterscheidet sich stark vom Normalzustand (hat eine spürbare positive oder negative Wölbung).

Wenn der Näherungswert von a /) auf die eine oder andere Weise ermittelt wird, ist es möglich, ein Konfidenzintervall für die Varianz auf die gleiche Weise zu konstruieren, wie wir es für den mathematischen Erwartungswert erstellt haben:

wobei der von der gegebenen Wahrscheinlichkeit p abhängige Wert in der Tabelle zu finden ist. 14.3.1.

Beispiel 2. Finden Sie ein Konfidenzintervall von etwa 80 % für die Varianz einer Zufallsvariablen X unter den Bedingungen von Beispiel 1, wenn bekannt ist, dass der Wert X nach einem nahezu normalen Gesetz verteilt.

Lösung. Der Wert bleibt derselbe wie in der Tabelle. 14.3.1:

Nach der Formel (14.3.16)

Nach der Formel (14.3.18) ermitteln wir das Konfidenzintervall:

Der entsprechende Wertebereich der Standardabweichung: (0,21; 0,29).

14.4. Genaue Methoden zur Konstruktion von Konfidenzintervallen für die Parameter einer nach dem Normalgesetz verteilten Zufallsvariablen

Im vorherigen Unterabschnitt haben wir grobe Näherungsmethoden zur Konstruktion von Konfidenzintervallen für den Mittelwert und die Varianz betrachtet. Hier geben wir eine Vorstellung von den genauen Methoden zur Lösung desselben Problems. Wir betonen, dass es zur genauen Bestimmung der Konfidenzintervalle unbedingt erforderlich ist, die Form des Verteilungsgesetzes der Menge im Voraus zu kennen X, während dies für die Anwendung von Näherungsmethoden nicht erforderlich ist.

Die Idee exakter Methoden zur Konstruktion von Konfidenzintervallen ist wie folgt. Jedes Konfidenzintervall ergibt sich aus einer Bedingung, die die Wahrscheinlichkeit der Erfüllung bestimmter Ungleichungen ausdrückt, zu denen auch die für uns interessante Schätzung gehört A. Notenverteilungsrecht A im allgemeinen Fall hängt von den unbekannten Parametern der Größe ab X. Manchmal ist es jedoch möglich, Ungleichungen aus einer Zufallsvariablen zu übergeben A zu einer anderen Funktion beobachteter Werte X p X 2, ..., X p. deren Verteilungsgesetz nicht von unbekannten Parametern abhängt, sondern nur von der Anzahl der Experimente und von der Form des Verteilungsgesetzes der Größe X. Solche Zufallsvariablen spielen in der mathematischen Statistik eine große Rolle; Am ausführlichsten wurden sie für den Fall einer Normalverteilung der Menge untersucht X.

Es wurde beispielsweise nachgewiesen, dass dies bei einer Normalverteilung der Menge der Fall ist X Zufallswert

vorbehaltlich der sogenannten Studentenverteilungsrecht Mit P- 1 Freiheitsgrad; Die Dichte dieses Gesetzes hat die Form

wobei G(x) die bekannte Gammafunktion ist:

Es ist auch bewiesen, dass die Zufallsvariable

hat „Verteilung % 2“ mit P- 1 Freiheitsgrad (siehe Kapitel 7), dessen Dichte durch die Formel ausgedrückt wird

Ohne auf die Ableitungen der Verteilungen (14.4.2) und (14.4.4) einzugehen, zeigen wir, wie sie bei der Konstruktion von Konfidenzintervallen für die Parameter angewendet werden können Ty D.

Lassen Sie produzieren P unabhängige Experimente mit einer Zufallsvariablen X, nach dem Normalgesetz mit unbekannten Parametern verteilt TIO. Für diese Parameter Schätzungen

Es ist erforderlich, Konfidenzintervalle für beide Parameter zu konstruieren, die der Konfidenzwahrscheinlichkeit p entsprechen.

Konstruieren wir zunächst ein Konfidenzintervall für den mathematischen Erwartungswert. Es ist natürlich, dieses Intervall symmetrisch zu nehmen T; bezeichnen mit sp die halbe Länge des Intervalls. Der Wert von sp muss so gewählt werden, dass die Bedingung erfüllt ist

Versuchen wir, die linke Seite der Gleichheit (14.4.5) aus einer Zufallsvariablen weiterzugeben T zu einer Zufallsvariablen T, nach Studentenrecht verteilt. Dazu multiplizieren wir beide Teile der Ungleichung |m-w?|

auf einen positiven Wert: oder, unter Verwendung der Notation (14.4.1),

Finden wir eine Zahl / p, so dass der Wert / p aus der Bedingung ermittelt werden kann

Aus Formel (14.4.2) ist ersichtlich, dass (1) eine gerade Funktion ist, also ergibt (14.4.8).

Gleichheit (14.4.9) bestimmt den Wert / p in Abhängigkeit von p. Wenn Ihnen eine Tabelle mit Integralwerten zur Verfügung steht

dann kann der Wert / p durch umgekehrte Interpolation in der Tabelle gefunden werden. Bequemer ist es jedoch, vorab eine Wertetabelle / p zu erstellen. Eine solche Tabelle finden Sie im Anhang (Tabelle 5). Diese Tabelle zeigt die Werte in Abhängigkeit von der Konfidenzwahrscheinlichkeit p und der Anzahl der Freiheitsgrade P- 1. Nach der Bestimmung von / p gemäß der Tabelle. 5 und vorausgesetzt

Wir finden die halbe Breite des Konfidenzintervalls / p und das Intervall selbst

Beispiel 1. 5 unabhängige Experimente wurden mit einer Zufallsvariablen durchgeführt X, normalverteilt mit unbekannten Parametern T und über. Die Ergebnisse der Experimente sind in der Tabelle aufgeführt. 14.4.1.

Tabelle 14.4.1

Finden Sie einen Kostenvoranschlag T für die mathematische Erwartung und konstruieren Sie dafür ein 90 %-Konfidenzintervall / p (d. h. das Intervall, das der Konfidenzwahrscheinlichkeit p = 0,9 entspricht).

Lösung. Wir haben:

Gemäß Tabelle 5 des Antrags auf P - 1 = 4 und p = 0,9 finden wir Wo

Das Konfidenzintervall beträgt

Beispiel 2. Für die Bedingungen von Beispiel 1 von Unterabschnitt 14.3 wird der Wert angenommen X normalverteilt ist, ermitteln Sie das genaue Konfidenzintervall.

Lösung. Gemäß Tabelle 5 des Antrags finden wir bei P - 1 = 19ir =

0,8 / p = 1,328; von hier

Beim Vergleich mit der Lösung von Beispiel 1 von Unterabschnitt 14.3 (e p = 0,072) sehen wir, dass die Diskrepanz sehr gering ist. Wenn wir die Genauigkeit auf die zweite Dezimalstelle genau einhalten, sind die mit der exakten und der Näherungsmethode ermittelten Konfidenzintervalle dieselben:

Fahren wir mit der Erstellung eines Konfidenzintervalls für die Varianz fort. Betrachten Sie die unverzerrte Varianzschätzung

und drücken Sie die Zufallsvariable aus D durch den Wert V(14.4.3) mit Verteilung x 2 (14.4.4):

Kenntnis des Verteilungsgesetzes der Menge V, Es ist möglich, das Intervall / (1) zu finden, in das es mit einer gegebenen Wahrscheinlichkeit p fällt.

Vertriebsrecht k n _ x (v) der Wert von I 7 hat die in Abb. gezeigte Form. 14.4.1.

Reis. 14.4.1

Es stellt sich die Frage: Wie wählt man das Intervall / p? Wenn das Verteilungsgesetz der Menge V symmetrisch wäre (wie ein Normalgesetz oder eine Student-Verteilung), wäre es natürlich, das Intervall /p symmetrisch in Bezug auf die mathematische Erwartung anzunehmen. In diesem Fall das Gesetz k n _ x (v) asymmetrisch. Lassen Sie uns vereinbaren, das Intervall /p so zu wählen, dass die Wahrscheinlichkeiten der Ausgabe der Menge V außerhalb des Intervalls nach rechts und links (schattierte Bereiche in Abb. 14.4.1) waren gleich und gleich

Um ein Intervall / p mit dieser Eigenschaft zu konstruieren, verwenden wir Table. 4 Anwendungen: Es enthält Zahlen y) so dass

für die Menge V, mit x 2 -Verteilung mit r Freiheitsgraden. In unserem Fall r = n- 1. Beheben r = n- 1 und suchen Sie in der entsprechenden Zeile der Tabelle. 4 zwei Werte x 2 - das eine entspricht einer Wahrscheinlichkeit, das andere - Wahrscheinlichkeiten. Bezeichnen wir diese

Werte um 2 Und XL? Das Intervall hat y 2 , mit seiner Linken, und y ~ rechtes Ende.

Nun finden wir das erforderliche Konfidenzintervall /| für die Varianz mit den Grenzen D und D2, was den Punkt abdeckt D mit Wahrscheinlichkeit p:

Konstruieren wir ein solches Intervall / (, = (?> b A), das den Punkt abdeckt D genau dann, wenn der Wert V fällt in das Intervall / r. Zeigen wir das Intervall

erfüllt diese Bedingung. Tatsächlich, die Ungleichheiten sind äquivalent zu den Ungleichungen

und diese Ungleichungen gelten mit Wahrscheinlichkeit p. Somit wird das Konfidenzintervall für die Streuung ermittelt und durch die Formel (14.4.13) ausgedrückt.

Beispiel 3. Finden Sie das Konfidenzintervall für die Varianz unter den Bedingungen von Beispiel 2 von Unterabschnitt 14.3, wenn der Wert bekannt ist X normalverteilt.

Lösung. Wir haben . Gemäß Tabelle 4 des Antrags

wir finden bei r = n - 1 = 19

Nach der Formel (14.4.13) ermitteln wir das Konfidenzintervall für die Streuung

Entsprechendes Intervall für Standardabweichung: (0,21; 0,32). Dieses Intervall überschreitet nur geringfügig das Intervall (0,21; 0,29), das in Beispiel 2 von Unterabschnitt 14.3 mit der Näherungsmethode ermittelt wurde.

  • Abbildung 14.3.1 betrachtet ein Konfidenzintervall, das symmetrisch zu a ist. Im Allgemeinen ist dies, wie wir später sehen werden, nicht notwendig.

Konfidenzintervall für mathematische Erwartung - Dies ist ein solches aus den Daten berechnetes Intervall, das mit bekannter Wahrscheinlichkeit die mathematische Erwartung der Gesamtbevölkerung enthält. Die natürliche Schätzung der mathematischen Erwartung ist das arithmetische Mittel ihrer beobachteten Werte. Daher werden wir im weiteren Verlauf der Lektion die Begriffe „Durchschnitt“, „Durchschnittswert“ verwenden. Bei Problemen zur Berechnung des Konfidenzintervalls lautet die am häufigsten erforderliche Antwort: „Das Konfidenzintervall der durchschnittlichen Zahl [Wert in einem bestimmten Problem] reicht von [niedrigerer Wert] bis [höherer Wert]“. Mit Hilfe des Konfidenzintervalls ist es möglich, nicht nur die Durchschnittswerte, sondern auch den Anteil des einen oder anderen Merkmals in der Gesamtbevölkerung zu bewerten. In der Lektion werden Mittelwerte, Varianz, Standardabweichung und Fehler analysiert, durch die wir zu neuen Definitionen und Formeln gelangen Stichproben- und Populationsmerkmale .

Punkt- und Intervallschätzungen des Mittelwerts

Wird der Mittelwert der Gesamtbevölkerung anhand einer Zahl (Punkt) geschätzt, so wird ein aus einer Stichprobe von Beobachtungen berechneter spezifischer Mittelwert als Schätzwert für den unbekannten Mittelwert der Gesamtbevölkerung herangezogen. In diesem Fall stimmt der Wert des Stichprobenmittelwerts – einer Zufallsvariablen – nicht mit dem Mittelwert der Gesamtbevölkerung überein. Daher muss bei der Angabe des Mittelwerts der Stichprobe gleichzeitig auch der Stichprobenfehler angegeben werden. Als Maß für den Stichprobenfehler wird der Standardfehler verwendet, der in denselben Einheiten wie der Mittelwert ausgedrückt wird. Daher wird häufig die folgende Schreibweise verwendet: .

Wenn die Schätzung des Mittelwerts mit einer bestimmten Wahrscheinlichkeit verbunden sein muss, muss der Parameter der interessierenden Gesamtbevölkerung nicht anhand einer einzelnen Zahl, sondern anhand eines Intervalls geschätzt werden. Ein Konfidenzintervall ist ein Intervall, in dem mit einer bestimmten Wahrscheinlichkeit P der Wert des geschätzten Indikators der Gesamtbevölkerung wird ermittelt. Konfidenzintervall, in dem mit Wahrscheinlichkeit P = 1 - α eine Zufallsvariable ist, wird wie folgt berechnet:

,

α = 1 - P, das im Anhang fast aller Statistikbücher zu finden ist.

In der Praxis sind der Populationsmittelwert und die Varianz nicht bekannt, daher wird die Populationsvarianz durch die Stichprobenvarianz und der Populationsmittelwert durch den Stichprobenmittelwert ersetzt. Daher wird das Konfidenzintervall in den meisten Fällen wie folgt berechnet:

.

Die Konfidenzintervallformel kann zur Schätzung des Grundgesamtheitsmittelwerts verwendet werden, wenn

  • die Standardabweichung der Gesamtbevölkerung ist bekannt;
  • oder die Standardabweichung der Grundgesamtheit ist nicht bekannt, aber die Stichprobengröße ist größer als 30.

Der Stichprobenmittelwert ist eine unvoreingenommene Schätzung des Grundgesamtheitsmittelwerts. Im Gegenzug die Stichprobenvarianz ist keine unvoreingenommene Schätzung der Populationsvarianz. Um eine unverzerrte Schätzung der Populationsvarianz in der Stichprobenvarianzformel zu erhalten, beträgt die Stichprobengröße N sollte durch ersetzt werden N-1.

Beispiel 1 Von 100 zufällig ausgewählten Cafés in einer bestimmten Stadt werden Informationen gesammelt, wonach die durchschnittliche Anzahl der Mitarbeiter in ihnen 10,5 beträgt, mit einer Standardabweichung von 4,6. Bestimmen Sie das Konfidenzintervall von 95 % der Anzahl der Café-Mitarbeiter.

Dabei ist der kritische Wert der Standardnormalverteilung für das Signifikanzniveau α = 0,05 .

Somit lag das 95 %-Konfidenzintervall für die durchschnittliche Anzahl der Café-Mitarbeiter zwischen 9,6 und 11,4.

Beispiel 2 Für eine Zufallsstichprobe aus einer Grundgesamtheit von 64 Beobachtungen wurden folgende Gesamtwerte berechnet:

Summe der Werte in Beobachtungen,

Summe der quadrierten Abweichungen der Werte vom Mittelwert .

Berechnen Sie das 95 %-Konfidenzintervall für den erwarteten Wert.

Berechnen Sie die Standardabweichung:

,

Berechnen Sie den Durchschnittswert:

.

Ersetzen Sie das Konfidenzintervall durch die Werte im Ausdruck:

Dabei ist der kritische Wert der Standardnormalverteilung für das Signifikanzniveau α = 0,05 .

Wir bekommen:

Somit lag das 95 %-Konfidenzintervall für den mathematischen Erwartungswert dieser Stichprobe zwischen 7,484 und 11,266.

Beispiel 3 Für eine Zufallsstichprobe aus einer Grundgesamtheit von 100 Beobachtungen wurde ein Mittelwert von 15,2 und eine Standardabweichung von 3,2 berechnet. Berechnen Sie das 95 %-Konfidenzintervall für den erwarteten Wert und dann das 99 %-Konfidenzintervall. Wenn die Stichprobenstärke und ihre Variation gleich bleiben, der Konfidenzfaktor jedoch zunimmt, wird sich dann das Konfidenzintervall verengen oder erweitern?

Wir setzen diese Werte in den Ausdruck für das Konfidenzintervall ein:

Dabei ist der kritische Wert der Standardnormalverteilung für das Signifikanzniveau α = 0,05 .

Wir bekommen:

.

Somit lag das 95 %-Konfidenzintervall für den Durchschnitt dieser Stichprobe zwischen 14,57 und 15,82.

Auch hier setzen wir diese Werte in den Ausdruck für das Konfidenzintervall ein:

Dabei ist der kritische Wert der Standardnormalverteilung für das Signifikanzniveau α = 0,01 .

Wir bekommen:

.

Somit lag das 99 %-Konfidenzintervall für den Durchschnitt dieser Stichprobe zwischen 14,37 und 16,02.

Wie Sie sehen können, nimmt mit zunehmendem Konfidenzfaktor auch der kritische Wert der Standardnormalverteilung zu, und daher liegen die Start- und Endpunkte des Intervalls weiter vom Mittelwert und damit vom Konfidenzintervall für den mathematischen Erwartungswert entfernt erhöht sich.

Punkt- und Intervallschätzungen des spezifischen Gewichts

Der Anteil eines Merkmals der Stichprobe kann als Punktschätzung interpretiert werden spezifisches Gewicht P das gleiche Merkmal in der Allgemeinbevölkerung. Wenn dieser Wert mit einer Wahrscheinlichkeit verknüpft werden muss, sollte das Konfidenzintervall des spezifischen Gewichts berechnet werden P mit einer Wahrscheinlichkeit in der Allgemeinbevölkerung vorkommen P = 1 - α :

.

Beispiel 4 In einer bestimmten Stadt gibt es zwei Kandidaten A Und B kandidiert für das Amt des Bürgermeisters. 200 Einwohner der Stadt wurden stichprobenartig befragt, von denen 46 % antworteten, dass sie für den Kandidaten stimmen würden A, 26 % - für den Kandidaten B und 28 % wissen nicht, wen sie wählen werden. Bestimmen Sie das 95 %-Konfidenzintervall für den Anteil der Stadtbewohner, die den Kandidaten unterstützen A.

Lass uns haben große Menge Artikel mit einer Normalverteilung einiger Merkmale (z. B. ein volles Lager mit der gleichen Gemüsesorte, deren Größe und Gewicht variieren). Sie möchten die durchschnittlichen Eigenschaften der gesamten Warenpartie kennen, haben aber weder die Zeit noch die Lust, jedes Gemüse abzumessen und zu wiegen. Sie verstehen, dass dies nicht notwendig ist. Aber wie viele Teile müssten Sie für eine Stichprobenkontrolle mitnehmen? Bevor wir einige für diese Situation nützliche Formeln angeben, erinnern wir uns an einige Notationen. Wenn wir zunächst das gesamte Gemüselager vermessen würden (diese Menge von Elementen wird als Gesamtbevölkerung bezeichnet), würden wir mit aller uns zur Verfügung stehenden Genauigkeit den Durchschnittswert des Gewichts der gesamten Charge ermitteln. Nennen wir das Durchschnitt X-Durchschnittsgen. - allgemeiner Durchschnitt. Wir wissen bereits, was vollständig bestimmt ist, wenn sein Mittelwert und seine Abweichung s bekannt sind. Zwar kennen wir bisher weder das X-Durchschnittsgen noch die Gene der Allgemeinbevölkerung. Wir können nur eine Probe nehmen, die benötigten Werte messen und für diese Probe sowohl den Durchschnittswert X avg. als auch die Standardabweichung S vyb berechnen. Es ist bekannt, dass sich die s der Grundgesamtheit fast nicht von den S-Stichproben unterscheiden, wenn unsere Stichprobenprüfung eine große Anzahl von Elementen enthält (normalerweise n mehr als 30) und diese wirklich zufällig ausgewählt werden Für eine Normalverteilung können wir die folgenden Formeln verwenden:

Mit einer Wahrscheinlichkeit von 95 %

Mit einer Wahrscheinlichkeit von 99 %

.

Im Allgemeinen mit Wahrscheinlichkeit Р(t)

Den Zusammenhang zwischen dem Wert von t und dem Wert der Wahrscheinlichkeit P(t), mit dem wir das Konfidenzintervall wissen wollen, können wir der folgenden Tabelle entnehmen:

P(t) 0,683 0,950 0,954 0,990 0,997
T 1,00 1,96 2,00 2,58 3,00

Damit haben wir ermittelt, in welchem ​​Bereich der Durchschnittswert für die Gesamtbevölkerung liegt (mit einer gegebenen Wahrscheinlichkeit).

Wenn wir nicht über eine ausreichend große Stichprobe verfügen, können wir nicht behaupten, dass die Grundgesamtheit s = S Stichproben hat. Darüber hinaus ist in diesem Fall die Nähe der Stichprobe zur Normalverteilung problematisch. In diesem Fall verwenden Sie in der Formel auch S s anstelle von s:

sondern der Wert von t für eine feste Wahrscheinlichkeit P(t) hängt von der Anzahl der Elemente in der Stichprobe n ab. Je größer n, desto näher liegt das resultierende Konfidenzintervall an dem durch Formel (1) angegebenen Wert. Die t-Werte stammen in diesem Fall aus einer anderen Tabelle (Student-t-Test), die wir unten bereitstellen:

T-Test-Werte des Schülers für die Wahrscheinlichkeit 0,95 und 0,99 

N P N P
0.95 0.99 0.95 0.99
2 12.71 63.66 18 2.11 2.90
3 4.30 9.93 19 2.10 2.88
4 3.18 5.84 20 2.093 2.861
5 2.78 4.60 25 2.064 2.797
6 2.57 4.03 30 2.045 2.756
7 2.45 3.71 35 2.032 2.720
8 2.37 3.50 40 2.022 2.708
9 2.31 3.36 45 2.016 2.692
10 2.26 3.25 50 2.009 2.679
11 2.23 3.17 60 2.001 2.662
12 2.20 3.11 70 1.996 2.649
13 2.18 3.06 80 1.991 2.640
14 2.16 3.01 90 1.987 2.633
15 2.15 2.98 100 1.984 2.627
16 2.13 2.95 120 1.980 2.617
17 2.12 2.92 >120 1.960 2.576

Beispiel 3 Aus den Mitarbeitern des Unternehmens wurden 30 Personen nach dem Zufallsprinzip ausgewählt. Der Stichprobe zufolge betrug das durchschnittliche Gehalt (pro Monat) 10.000 Rubel mit einer durchschnittlichen quadratischen Abweichung von 3.000 Rubel. Bestimmen Sie mit einer Wahrscheinlichkeit von 0,99 das durchschnittliche Gehalt im Unternehmen. Lösung: Aufgrund der Bedingung gilt n = 30, X vgl. =10000, S=3000, P=0,99. Um das Konfidenzintervall zu ermitteln, verwenden wir die Formel, die dem Student-Kriterium entspricht. Gemäß der Tabelle für n \u003d 30 und P \u003d 0,99 finden wir t \u003d 2,756, also

diese. gewünschtes Konfidenzintervall 27484< Х ср.ген < 32516.

Mit einer Wahrscheinlichkeit von 0,99 lässt sich also argumentieren, dass das Intervall (27484; 32516) das durchschnittliche Gehalt im Unternehmen enthält.
Wir hoffen, dass Sie diese Methode nutzen, ohne jedes Mal eine Tabellenkalkulation dabei zu haben. Berechnungen können automatisch in Excel durchgeführt werden. Klicken Sie in einer Excel-Datei auf die FX-Schaltfläche im oberen Menü. Wählen Sie dann unter den Funktionen den Typ „statistisch“ und aus der vorgeschlagenen Liste im Feld „STEUDRASP“ aus. Platzieren Sie dann an der Eingabeaufforderung den Cursor im Feld „Wahrscheinlichkeit“ und geben Sie den Wert der reziproken Wahrscheinlichkeit ein (d. h. in unserem Fall müssen Sie anstelle der Wahrscheinlichkeit von 0,95 die Wahrscheinlichkeit von 0,05 eingeben). Scheinbar Kalkulationstabelle so zusammengestellt, dass das Ergebnis die Frage beantwortet, wie wahrscheinlich es ist, dass wir falsch liegen. Geben Sie im Feld „Freiheitsgrad“ ebenfalls den Wert (n-1) für Ihre Stichprobe ein.