Die negative Binomialverteilung -

Modell zur Beschreibung kariesepidemiologischer Daten

Der Kariesbefall bei Kindern wird heute üblicherweise anhand des Mittelwerts aller Kinder inklusive des kariesfreien Anteils der Kinder dargestellt. Diese Angabe ist jedoch wenig aussagefähig, da sie der tatsächlichen Häufigkeitsverteilung des Kariesbefalls nicht gerecht wird. Nur bei rein zufällig auftretenden Ereignissen, die einer Poisson-Verteilung folgen, ist die Angabe des Mittelwerts allein sachgerecht. Dieses Dokument soll zeigen, wie durch Anwendung der negativen Binomialverteilung mit zwei einfachen Kennwerten eine bessere Darstellung der Ergebnisse kariesepidemiologischer Studien erreicht werden kann.

Gliederung:
#1. Aktuelle Darstellung kariesepidemiologischer Daten
#2. Darstellung mittels negativer Binomialverteilung
#3. Geometrische Interpretation
#4. Zusammenfassung und Ausblick
#5. Literatur

1. Aktuelle Darstellung kariesepidemiologischer Daten

Im Schrifttum wurden die Ergebnisse einer Studie zur "Kariesfreiheit und dmfs
5-6jähriger Kinder in Österreich" wiedergegeben #[2]. Dabei wurden drei übliche Formen der Aufbereitung der epidemiologischen Daten gewählt:

  1. Der Mittelwert x-quer: "Im Mittel wurden ... 4,0 d3ft gefunden..."
  2. Der Anteil kariesfreier Kinder: "47 % der Kinder waren nach den WHO-Kriterien kariesfrei (d3ft = 0)."
  3. Die empirische Häufigkeitsverteilung (Abb. 1)

Abb. 1: Verteilung der kariösen/gefüllten Zahnflächen (d3fs) bei 467 Kindern, nach #[2]

Empirische Verteilung nach Tabelle 1

Der Mittelwert ist dann aussagefähig, wenn die Verteilung der Zahl von d3f-Flächen auf die einparametrige Poisson-Verteilung zurückgeführt werden kann. Dann müsste die Zahl der d3f-Flächen je Kind mit einer Standardabweichung sigma = Wurzel(µ) um den Mittelwert µ streuen, der wiederum durch den Mittelwert x-quer geschätzt wird. Abbildung 2 zeigt die empirische Häufigkeitsverteilung in Reihe 1 mit dem Mittelwert x-quer = 4 im Vergleich zur Poisson-Verteilung mit dem Mittelwert µ = 4. Dass theoretisches Modell und empirische Verteilung nicht zusammenpassen, ist augenscheinlich. Vor allem wird deutlich, dass der hohe Anteil kariesfreier Kinder mit dem Modell der Poisson-Verteilung allein nicht erklärt werden kann.

Abb. 2: Vergleich der empirischen Verteilung (R1) mit der Poisson-Verteilung (R2)

Schlechte Übereinstimmung von empirischer Verteilung und Poisson-Verteilung


2. Darstellung mittels negativer Binomialverteilung

Ein gemeinsames Erklärungsmodell liefert die negative Binomialverteilung, die als Überlagerung von zwei Verteilungen gedeutet werden kann. Dabei wirkt primär eine Verteilung von Kariesrisiken, die durch die Gamma-Verteilung beschrieben werden kann. Diese Gamma-Verteilung sorgt für individuell schwankende Mittelwerte µ. Je nach Ausprägung des Mittelwerts folgt dann als sekundäre Verteilung der faktisch betroffenen Zahnflächen die Poisson-Verteilung.

Demnach lässt sich die Wahrscheinlichkeit für genau x kariöse/gefüllte Zahnflächen nach #[4], S. 24 beschreiben als:


g(x)=(x+k-1)über/(k-1)*p^k*(1-p) mit k > 0 und 0 < p < 1 (Formel 1)

Sofern k keine ganze Zahl ist und kein Rechner für rationale Fakultäten zur Verfügung steht, kann Formel 1 durch die Formeln 5 und 8 ersetzt werden.

Die beiden Parameter p und k werden aus der Stichprobe geschätzt als Kennwerte p-dach und k-Dach. Die Vorgehensweise kann anhand der Werte aus Tabelle 1 nachvollzogen werden.

Tabelle 1: Zahl von kariösen/gefüllten Zahnflächen (d3f-Flächen) je Kind in einer Stichprobe von 467 Kindern; nach. #[3].

d3f-Flächen x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Kinder nx 221 32 42 27 27 13 11 9 8 14 6 5 4 7 6
d3f-Flächen x 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Kinder nx 4 4 1 1 3 3 3 3 - 1 1 - 1 1 -
d3f-Flächen x 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
Kinder nx - 1 1 - 1 1 1 2 1 - - - - - -
d3f-Flächen x 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59
Kinder nx - - 1 - - - - - - - - - - - -

Berechnet werden zunächst Mittelwert x-quer und Varianz s² anhand der klassierten Werte:

x-quer=1/n*Summe(x*nx)=3,989  ungefähr= 4,0 (Formel 2)

s²=1/(n-1)*(Summe(nx*x²)-1/n*(Summe(nx)*x)²) (Formel 3)

Nach #[4], Seite 101 wird der Schätzwert des Parameters p der negativen Binomialverteilung folgendermaßen berechnet:

p-Dach=x-quer/s²=3,989/48,26=0,082 (Formel 4)

Der andere Parameter der negativen Binomialverteilung ist k. Nach Formel 1 kann er zur Berechnung des Anteil kariesfreier Kinder g(0) genutzt werden, denn es gilt:

g(0)=p^k (Formel 5)

Bei stark besetzter Nullklasse, also einem hohen Anteil kariesfreier Kinder kann g(0) hinreichend genau geschätzt werden durch:

g-Dach(0)=n0/n=221/467=0,473 (Formel 6)

Nach den Formeln 5 und 6 ergibt sich damit ein Kennwert für den zweiten Parameter der negativen Binomialverteilung:

k-Dach=ln(g-Dach(0))/ln(p-Dach)=ln(0,473)/ln(0,082)=0,299 (Formel 7)

Um den Vergleich zwischen der empirischen Verteilung und der negativen Binomialverteilung in Abbildung 3 zu ermöglichen, werden die Werte der Wahrscheinlichkeitsfunktion g(x) unter Verwendung der Schätzwerte mit p = 0,082 und k = 0,299 rekursiv berechnet. Startwert ist g(0) nach Formel 5. Dann gilt für alle weiteren Werte.

g(x+1)=(x+k)/(x+1)*(1-p)*g(x) (Formel 8)

Abb. 3: Vergleich der empirischen Verteilung (R1) mit der negativen Binomialverteilung (R2)

Gute Übereinstimmung von empirischer Verteilung und negativer Binomialverteilung

Nach #[4], Seite 101 kann der Schätzwert des Parameters k der negativen Binomialverteilung auch so berechnet werden:

k-Dach=((x-quer)^2)/(s² - x-quer)=((3,989)^2)/(48,826-3,989)=0,355 (Formel 9)

Diese Berechnung liefert im vorliegenden Fall aber die weniger gute Anpassung und bietet sich daher vor allem bei schwächer besetzter Nullklasse an.

3. Geometrische Interpretation

Die positive Wahrscheinlichkeitsansteckung nach dem Motto "Ein Unglück kommt selten allein." ist hier wirksam. Wenn eine kariöse/gefüllte Zahnfläche auftritt, folgen oft mehrere. Durch Faktoren wie Ernährung, Zahnpflege, Fluoridierung, Veranlagung usw. kann das Kariesrisiko für alle Zähne und Zahnflächen eines Kindes gemeinsam beeinflusst werden. Diese Einflüsse sorgen dafür, dass der Mittelwert µ je nach Risikogruppe schwankt.

Ohne Mittelwertschwankungen liegt eine Poisson-Verteilung vor. Dann ist das Verhältnis zwischen Mittelwert und Varianz p = µ/sigma-quadrat = 1. Demnach muss bei einer Poisson-Verteilung p-Dach ungefähr= 1 gelten. Wir können den Kennwert p-Dach also als den Anteil der Varianz veranschaulichen, der aus dem Mittelwert und somit aus der Poisson-Verteilung erklärt werden kann. Bei p-Dach = 0,082 ist die Streuung demnach maßgeblich von der im Hintergrund wirkenden Gamma-Verteilung verursacht.

Beschrieben werden die Mittelwertschwankungen durch die primär wirkende zweiparametrige Gamma-Verteilung mit der Wahrscheinlichkeitsdichtefunktion:

g(µ)=lambda^k/Gamma(k)*µ^(k-1)*exp(-lambda*µ) (Formel 10)

Darin ist e die Eulersche Zahl 2,71828..., Gamma(k) die Gammafunktion, k der Parameter von negativer Binomialverteilung und Gamma-Verteilung und lambda der zweite Parameter der Gamma-Verteilung, der aus dem Parameter der negativen Binomialverteilung berechnet wird:

lambda=p/(1-p) (Formel 11)

Wir wollen nun die Form der in Abbildung 4 gezeigten Gamma-Verteilung bestimmen und verwenden k-Dach = 0,299 anstelle von k und schätzen lambda durch:

lambda-Dach=p-Dach/(1 - p-Dach)=0,082/(1-0,082)=0,089 (Formel 12)

Abb. 4: Form der Gamma-Verteilung mit den Parametern k = 0,299 und  = 0,089

L-förmige Gamma-Verteilung

Wie bereits erwähnt, kann die Gamma-Verteilung als Verteilung des Kariesrisikos angesehen werden. Deshalb soll die Verteilungsform der Gamma-Verteilung beurteilt werden. Dazu werden die beiden Parameter k = 0,299 und  = 0,089 jeweils mit dem willkürlich zur Veranschaulichung gewählten Faktor fünf multipliziert und durch den ebenso willkürlichen Divisor fünf geteilt. Die daraus folgenden Verteilungsformen sind in Abbildung 5 dargestellt. Es zeigen sich die Eigenschaften der Parameter.

k ist der Formparameter der Gamma-Verteilung. Für k <= 1 ist die Gamma-Verteilung L-förmig; bei k > 1 wird die Verteilung eingipflig. Je kleiner k ausfällt, desto schiefer ist die Verteilung. Wenn k << 1, bedeutet dies für die Verteilung des Kariesrisikos, dass die Wahrscheinlichkeit "kerngesunder" Zähne bei einem hohen Teil der untersuchten Kinder hoch ist. Mit anderen Worten, je kleiner der Stichproben-Kennwert k-Dach, desto besser kann die Zahngesundheit der betrachteten Grundgesamtheit per se eingestuft werden.

lambda ist der Streuparameter der Gamma-Verteilung. Je kleiner lambda ausfällt, desto größer ist die Streubreite. Ziel einer flächendeckenden Prophylaxe muss es sein, diese Streuung zu reduzieren und die "schlechten" Kariesrisiken nach links zu verschieben, wodurch lambda steigt. Ziel der Kariesprophylaxe wäre damit die Maximierung von lambda.

Der Erwartungswert oder Mittelwert der Gamma-Verteilung E(µ) und der negativen Binomialverteilung E(x) sind übrigens gleich:

E(x)=k*(1-p)/p=E(µ)=k/lambda (Formel 13)

Dies verdeutlicht nochmals, dass der Mittelwert x-quer als Schätzwert des Erwartungswerts allein wenig aussagefähig ist, da sich der Erwartungswert aus unendlich vielen Wertepaaren {k; p} oder {k; lambda} erzeugen lässt.

Abb. 5: Formen der Gamma-Verteilung mit den Parametern k = 0,299, k/5 und k 5 sowie  = 0,089, /5 und *5

Neun Beispiele für die L-förmige und eingipflige Gestalt der Wahrscheinlichkeitsdichtefunktion der Gammaverteilung

4. Zusammenfassung und Ausblick

Der Mittelwert allein ist als Kenngröße für kariesepidemiologische Untersuchungen bzgl. der Zahl befallener Zahnflächen nicht ausreichend aussagefähig, da er ohne weitere Angaben implizit das Modell der Poisson-Verteilung voraussetzt. Daher wird die negative Binomialverteilung als Alternativmodell für d3f-Flächen vorgeschlagen, weil es augenscheinlich eine bessere Übereinstimmung von theoretischem Modell und empirischen Daten aufweist. Außerdem ist das Modell der negativen Binomialverteilung in der Literatur für andere epidemiologische Auswertungen beschrieben; so z. B. als Verteilung der Zahl von Zecken je Schaf einer Herde - vgl. #[1], Seite 154. Zwei einfach zu berechnende Kennwerte p-Dach und k-Dach beschreiben die Verteilung und sind damit einfach und praktikabel zu handhaben.

Hintergrund der negativen Binomialverteilung ist das Wirken einer primären Verteilung von Kariesrisiken, das laut Modell durch eine zweiparametrige Gamma-Verteilung beschrieben werden kann. Die rechnerisch ebenfalls einfache Bestimmung zweier Kennwerte k-Dach und lambda-Dach der Gamma-Verteilung dürften einen einfachen Vergleich von Zahngesundheit und Prophylaxe-Einfluss verschiedener Populationen ermöglichen.

Dieser Beitrag hat das Ziel, die Fachwelt mit diesem Analysewerkzeug vertraut zu machen und sie zur Anwendung auf Daten weiterer Untersuchungen anzuregen.

5. Literatur

  1. Sachs, L.: Angewandte Statistik; Berlin: Springer 1984
  2. Städtler, P.; Sax, G.; Frank, W.; Bodenwinkler, A.: Kariesfreiheit und dmfs
    5-6jähriger Kinder in Österreich; Oralprophylaxe 19 (1997) 4, S. 188-192
  3. Städtler, P.: Re: Ihr Aufsatz in der "Oralprophylaxe". Online im Internet: E-Mail von Peter Städtler, Uni Graz (1998-01-29)
  4. Wilrich, P.-Th.: Formeln und Tabellen der angewandten mathematischen Statistik; Berlin: Springer 1987

Danke, dass Sie sich die Zeit zum Lesen genommen haben.

Elmar Hillel, Stand: 2004-09-15

Mail: negbin@hillel.de

Zurück zum Kopf der Seite

Zurück zur Empfangsseite