Histogramm verstehen und interpretieren

Einleitung


Das Histogramm ist eine grafische Darstellungsform, in der die absolute oder relative Häufigkeitsverteilung eines in Klassen eingeteilten Datensatzes in einem speziellen Säulendiagramm veranschaulicht wird.

In diesem Artikel wird erklärt, was ein Histogramm ist, worauf bei der Erstellung zu achten ist und wie man es interpretiert.

Definition Histogramm


Histogramm einfach erklärt

Histogramme funktionieren ähnlich wie klassische Säulendiagramme.

Auf der x-Achse oder auch Abszissenachse werden die Merkmalsausprägungen (hier in Klassen) veranschaulicht und auf der y-Achse oder auch Ordinatenachse die Häufigkeit bzw. Häufigkeitsverteilung.

Im Unterschied zum klassischen Säulendiagramm liegen die Daten noch nicht fertig vor, sondern müssen vor dem Erstellen des Histogramms noch gruppiert, also in entsprechende Klassen eingeteilt werden. Diese Klassen stellen später die Rechtecke bzw. Säulen des Histogramms dar.

In einem Säulendiagramm werden über die Höhen der Säulen die Häufigkeit eines Merkmals, eine Anzahl oder andere ähnliche Informationen vermittelt. In einem Histogramm wird die absolute oder relative Häufigkeit eines Merkmals über die Fläche der Säule dargestellt. Die Höhe der einzelnen aneinandergrenzenden Säulen gibt hingegen die Häufigkeitsdichte der einzelnen Klassen wieder.

Sind die Klassen gleich breit, gibt es auch die Möglichkeit, statt der Häufigkeitsdichte die absolute oder relative Häufigkeit als Ordinate darzustellen. Dies dient zur übersichtlicheren Darstellung. Ob in dem Histogramm eine absolute oder eine relative Häufigkeit bzw. die jeweilige Häufigkeitsdichte dargestellt wird, hängt vom gewählten Modell ab und welche Informationen veranschaulicht werden sollen.

  • Für ein Histogramm ist außerdem relevant, dass das jeweilige Merkmal quantitativ, kontinuierlich und in Klassen einteilbar ist.

Klassenbreite im Histogramm


  • Histogramme können je nach Anwendungsfall mit gleichen oder ungleichen Klassenbreiten vorliegen.

Möchte man ein kontinuierliches Merkmal mit gleich großen Abständen in gleich großen Gruppen untersuchen, ist eine identische Klassenbreite sinnvoll. Ein Beispiel hierfür wären gleich große Altersgruppen. Eine gleiche Klassenbreite vereinfacht im mittleren Wertebereich die Interpretation der Grafik. Geht es jedoch darum, die Häufigkeit über bestimmte zusammengehörige Gruppen hinweg darstellen, kann es durchaus Sinn machen, unterschiedliche Klassenbreiten zu wählen. Ein Beispiel hierfür wäre, wenn man eine Verteilung über Generationen veranschaulicht oder verschiedene Einkommensgruppen, wo einzelne hohe Einkommen zu einer Klasse zusammengefasst werden.

  • Histogramme mit gleicher Klassenbreite werden auch als Histogramme mit äquidistanter Klassenbreite bezeichnet, Histogramme mit unterschiedlicher Klassenbreite als nicht-äquidistant.

Bei unterschiedlicher Klassenbreite muss immer die Häufigkeitsdichte an der Ordinate dargestellt werden, da die Darstellung der Klassenhäufigkeiten zu einem fälschlichen Ergebnis führt. Bei gleicher Klassenbreite ist das höchste Rechteck, das mit der größten Häufigkeit, bei ungleicher Klassenbreite ist es das Rechteck mit dem größten Flächeninhalt.

Vorgehensweise


Wie bei den meisten statistischen Auswertungen kann ein Histogramm händisch oder mit entsprechender Software wie Excel erstellt werden. Im Vergleich zu anderen Analysemethoden ist eine analoge Berechnung, das händische Zeichnen und die grafische Interpretation mit relativ geringem Aufwand möglich.

Vorgehen einfach erklärt

In einem ersten Schritt werden die Daten in Klassen eingeteilt, anschließend die Klassenhäufigkeit ermittelt und im dritten Schritt die Säulenhöhe berechnet. Aus diesen Angaben wird dann das Histogramm gezeichnet.

Als erstes wird somit der Datensatz eines kontinuierlichen Merkmals in i sinnvolle Klassen eingeteilt. Wie viele Klassen benötigt werden, wie breit diese jeweils sind und ob die Klassen gleich oder unterschiedlich breit sind, ist prinzipiell frei wählbar, je nachdem wie es für den entsprechenden Datensatz und die Veranschaulichung Sinn macht. Die Klassenbreiten werden dann mit b i angegeben.

Im zweiten Schritt wird ermittelt, wie viele Messwerte in diese Klasse fallen, also wie hoch die absolute Klassenhäufigkeit n i ist.

Aus der absoluten Klassenhäufigkeit n i kann mit Hilfe der Klassenbreite b i die Höhe der einzelnen Rechtecke über alle Klassen hinweg berechnet werden. Die Formel für die Höhe der Säulen kann aus der allgemeinen Rechteckformel hergeleitet werden. Ein Rechteck berechnet sich aus Breite mal Höhe. Stellt man nach der Höhe um ergibt sich:

Formel Histogramm 1

Setzt man statt für den Flächeninhalt die Klassenhäufigkeit n i und für die Breite die Klassenbreite b i ein, ergibt sich:

Die Säulenhöhe kann man somit mit den Quotienten aus Flächeninhalt (Häufigkeitsdichte) und Klassenbreite berechnen.

Rechnet man statt der absoluten Klassenhäufigkeit mit der relativen Klassenhäufigkeit, muss die vorher bereits ermittelte absolute Klassenhäufigkeit noch durch die Anzahl der gesamten Messwerte geteilt werden. Die Formel zur Berechnung der Rechteckhöhe verändert sich zu:

Formel Histogramm 3

Im letzten Schritt wird das Histogramm gezeichnet. Als Kontrollrechnung kann man die jeweilige Säulenbreite mit der Häufigkeitsdichte multiplizieren und erhält wieder die jeweilige Klassenhäufigkeit (absolut oder relativ).

Wichtig beim Zeichnen des Diagramms ist eine geeignete Skalierung und eine maßstabsgetreue Beschriftung der Achsen. Die gezeichneten Rechtecke grenzen im Gegensatz zum Säulendiagramm immer direkt aneinander.

Beispiel


Die eben genannte Vorgehensweise zur Erstellung eines Histogramms soll anhand eines Beispiels erklärt werden.

Wir nehmen die hypothetischen Daten von 20 Studenten aus einer Statistik-Klausur.

Wir teilen die Studenten in Klassen von jeweils 20 Punkten ein und zählen die Messwerte pro Klasse:

Tabelle Histogramm 1
Tabelle Histogramm 2

Nun berechnen wir die Höhen der jeweiligen Rechtecke h i und tragen sie in die Tabelle ein:

Nun kann man das Histogramm zeichnen. Zur besseren Veranschaulichung verwenden wir die Klassenhäufigkeit anstatt der Häufigkeitsdichte im Histogramm, was alternativ auch möglich wäre.

Grafik Histogramm

Wie auch schon in der Tabelle ersichtlich, hat kein Student weniger als 20 Punkte erreicht. Die zweit höchste Häufigkeit liegt mit 5 in der Klasse von 80 bis 100 Punkten. Die höchste Häufigkeit mit 10 von 20 Messwerten und einer Häufigkeitsdichte von 0,5 liegt in Klasse 4 vor, also zwischen 60 und 80 Punkten.

Zusammenfassung


Histogramme veranschaulichen in einem speziellen Säulendiagramm klassierte absolute oder relative Häufigkeiten. Die einzelnen Messwerte werden in Klassen eingeteilt, die wahlweise gleich oder unterschiedlich groß sind. Anschließend wird die Häufigkeit der Werte pro Klasse ermittelt und mit Hilfe der Klassenbreite die Höhe der Säule im Histogramm berechnet. Aus den Breiten und Höhen aller Säulen wird anschließend das Histogramm gezeichnet und interpretiert.





Lektorat Plus für eine perfekte Bachelor- oder Masterarbeit.