Wahrscheinlichkeitsverteilungen

Im letzten Post wurden verschiedene Verteilungsfunktionen besprochen. Zur Klärung der Begriffe an dieser Stelle einige Erklärungen und bei Interesse weiterführende Links.

Die Normalverteilung (auch Gaußverteilung oder Glockenkurve) entsteht durch die Überlagerung einer großen Zahl von unabhängigen Einflüssen. Zufällige Abweichungen treten in vielen wissenschaftlichen Disziplinen und Lebensbereichen auf. So liegen z.B. bei folgenden Vorgängen Normalverteilungen vor:

zufällige Messfehler,
Abweichungen vom Sollmaß bei der Fertigung von Werkstücken,
bei der Brownschen Molekularbewegung,
Milchproduktion von Kühen,
Verteilung der Intelligenz bei Menschen.

Die Normalverteilung ist durch folgende Formel definiert:

Die dabei entstehende typische Glockenkurve (siehe Abbildung) wird durch zwei Parameter charakterisiert: den arithmetischen Mittelwert μ der Standardabweichung (Varianz) σ. Datensätze werden daher häufig mit μ±σ angegeben. (Quellen: Wikipedia, Mathepedia)
In der Natur zeigen allerdings viele Messdaten mehr oder weniger schiefe Verteilungen. Schiefe Verteilungen treten vor allem auf, wenn die Durchschnittswerte niedrig und die Standardabweichungen groß sind. Beispiele für solche schiefen Verteilungen sind die Häufigkeit von Species, die Länge von Latenzzeiten von Infektionskrankheiten und die Verteilung von Mineralen in der Erdkruste. Solche schiefen Verteilungen können häufig mit einer Log-Normalverteilung beschrieben werden. (Quelle)

Die Logarithmische Normalverteilung (abgekürzt: Log-Normalverteilung, engl.: log-normal distribution) ist eine kontinuierliche Wahrscheinlichkeitsverteilung. Sie beschreibt die Verteilung einer Zufallsvariablen x, wenn ln(x) normalverteilt ist.

Logarithmische Normalverteilungen treten z.B. auf bei:

Durchmesser von Bäumen
Breite von Hanfbastfasern
Durchmesser von Bakterien
Körpergröße des Menschen
Verteilung der Galaxien
Wachstumsgröße von Kristallen

Wie kommt es zu einer Log-Normalverteilung?

Normalverteilung und logarithmische Normalverteilung basieren auf einer Vielzahl von Kräften die unabhängig voneinander einwirken. Ein wichtiger Unterschied ist, dass diese Effekte additiv oder multiplikativ sein können. Die additive Anhäufung von Effekten führt zur Normalverteilung, die multiplikative zur Log-Normalverteilung. (Quelle)
Eine multiplikative Verknüpfung kann durch logarithmieren in eine additive Verknüpfung überführt werden: Die Logarithmierung des Produktes a.b führt gemäß Logarithmengesetzen zu ln(a.b) = ln(a) + ln(b).
Additive Effekte werden in der Mathematik durch eine arithmetische Folge (an=a0+n.d) oder auch dem arithmetischen Mittelwert beschrieben. Multiplikative Effekte werden durch eine geometrische Folge (an=a0.qn) oder den geometrischen Mittelwert beschrieben. Diese Zusammenhänge haben Gebelein und Heite in ihrem Artikel „Über die Unsymmetrie biologischer Häufigkeitsverteilungen“ (Klinische Wochenschrift 28 (1950) 41-45) sehr schön dargestellt. (siehe Abbildung). Bei einer grafischen Darstellung der arithmetischen Reihe liegen konstante Abstände zwischen den Gliedern der Reihe vor: d=x2-x1=x3-x2=…= konstant. Dieser Sachverhalt ist in der nachfolgenden Abbildung (links) durch Aneinanderreihen kongruenter Dreiecke zwischen parallelen Geraden visualisiert. Im Unterschied dazu ist bei einer geometrischen Reihe der Quotient zwischen den Gliedern der Reihe konstant:

Das wird in der unten stehenden Abbildung (rechts) durch Aneinanderfügen ähnlicher Dreiecke zwischen zwei sich schneidenden Geraden dargestellt. Für beide Folgen wird die Summe als Funktion dargestellt (Abbildung oben). Die Ableitung dieser beiden Funktionen führt zur Normalverteilung (unten links) bzw. zur logarithmischen Normalverteilung (unten rechts).

Abbildung: Zusammenhang zwischen arithmetischer Folge und Normalverteilung (links) und Zusammenhang zwischen geometrischer Folge und Logarithmischer Normalverteilung (rechts) nach Gebelein und Heite.

Links:

Wikipedia
Massmatics
„Über Die Unsymmetrie Biologischer Häufigkeitsverteilungen“ von H. Gebelein, H.-J. Heite, Klinische Wochenschrift 28 (1950) 41-45
„Die logarithmische Verteilung in der Natur“ von A. Waser
“Log-normal Distributions across the Sciences: Keys and Clues” von E. Limpert, W. A. Stahel, M. Abt, Bioscience 51 (2001) 341-352

Die Pareto-Verteilung wird durch ein Potenzgesetz definiert:

Die Verteilung ist nach Vilfredo Pareto benannt. Er verwendete diese 1897 zur Beschreibung der Einkommensverhältnisse in Italien. Ein großer Anteil der Bevölkerung verdient wenig. Je höher die Einkommen werden, desto weniger Personen erhalten diese. Pareto-Verteilungen finden sich charakteristischerweise dann, wenn sich zufällige, positive Werte über mehrere Größenordnungen erstrecken und durch das Einwirken vieler unabhängiger Faktoren zustande kommen. Verteilungen mit ähnlichen Eigenschaften sind das Zipfsche-Gesetz und das Benfordsche Gesetz. (Quelle Wikipedia)

Mit der Pareto-Verteilung kann man folgende Sachverhalte beschreiben:

Verteilung des Einkommens
Einwohnerzahlen von Städten
Schadenshöhen in der Versicherungsmathematik

In Wirtschaft und Industrie wird häufig die 80/20-Regel („Pareto-Prinzip“) verwendet. Diese ist von der Pareto-Verteilung abgeleitet. Diese Regel besagt, dass 80 % der Ergebnisse mit 20 % des Gesamtaufwandes erreicht werden. Die verbleibenden 20 % der Ergebnisse benötigen mit 80 % Aufwand die meiste Arbeit. Im Projekt- und Zeitmanagement verwendet man diese Regel, um wichtige Arbeitspakete zu erkennen und schnelle Fortschritte bei relativ guten Ergebnissen zu erzielen. Beispiele für die Anwendung dieser Regel sind:

80 % des Umsatzes von Firmen werden meist mit 20 % der Produkte erzielt.
80 % der Stadtbewohner eines Landes leben in 20 % der Städte.
80 % der Anrufe führt man im Allgemeinen mit 20 % seiner gespeicherten Kontakte.

Logarithmische Darstellungen

In Natur- und Ingenieurwissenschaften werden oft logarithmische Darstellungen verwendet. Der Log-Log- Plot ist eine zweidimensionale Darstellung von numerischen Daten mit logarithmischen Skalen auf der x- und y-Achse. Potenzfunktionen des Typs y = a xbx erscheinen in einer solchen Darstellung als gerade Linie. Diese Darstellung ist sehr nützlich, da daraus in einfacher Weise die Parameter des Potenzgesetzes bestimmt werden können: Die Steigung der Geraden ergibt den Parameter b der Potenzfunktion, der Schnittpunkt mit der y-Achse entspricht dem Logarithmus von a. Außerdem bietet eine solche Darstellungsweise weitere Vorteile, denn die lineare Regression hat am PC eine größere Genauigkeit als andere Regressionen. Dies hängt mit der verfügbaren Speichergröße von Fließkommazahlen am PC zusammen.

Im Post „Verteilung von Ressourcen“ haben wir die Log-Log-Darstellung bereits genutzt, um den Unterschied zwischen der Pareto-Verteilung und der Log-Normalverteilung deutlich zu machen (siehe Abbildung).

Abbildung: Log-Log-Darstellung der Lagerstättengröße über der Wahrscheinlichkeit für Mineralvorkommen.

Links:

Logarithmische Skalen von K. Eckhardt
Logarithmische Skalierung auf Massmatics.de
Log-log plot auf Wikipedia in Englisch
Hilfestellung zum Verständnis der verschiedenen Verteilungsfunktionen findet man unter folgender Webseite: http://www.quantitativeskills.com/sisa/rojo/distribs.htm . Dort sind EXCEL-Dateien abgelegt.

Mein Dank gilt Marcus Herbig für Hinweise und Korrekturen in diesem Abschnitt.

Anorganische Chemie

Samstag, 19. März 2016

Raw Materials and Resources - Excursus A

Wahrscheinlichkeitsverteilungen

Keine Kommentare: