Digitale Ziffernanalyse - Benfords Law

08 Jun 2012

Beschreibung – Digitale Ziffernanalyse

Das Ziel der Ziffernanalyse ist es, ein ungewöhnlich häufiges Auftreten von einzelnen Ziffern zu entdecken. Um das Ungewöhnliche zu bestimmen, ist zunächt ein Maßstab erforderlich, welcher die normale Häufigkeitsverteilung der Ziffern vorgibt.


Der Physiker Frank Benford stellte im Jahre 1920 fest, dass die vorderen Seiten seines Logarithmen-Buches wesentlich stärker abgegriffen waren als die hinteren Seiten. Die ersten Seiten gaben die Logarithmen der Zahlen mit niedrigen ersten Ziffern wieder. Die erste Ziffer der Zahl 980.874 ist z.B. die ‘9’. Benford stellte daher die Hypothese auf, dass er die Zahlen mit niedrigen ersten Ziffern deswegen häufiger nachschlug, weil es in der Welt mehr Zahlen mit niedriger Anfangsziffer gibt, als solche mit einer hohen ersten Ziffer.


Benford untersuchte dieses Phänomen daraufhin umfassender und seine Ergebnisse zeigten tatsächlich, dass Zahlen am häufigsten mit der Ziffer ‘1’ beginnen (nämlich in ca. 30% aller Fälle) . Es folgt die Ziffer ‘2’ und mit stetig abnehmendem prozentualen Anteil, ist schließlich die Ziffer ‘9’ mit einem Anteil von ca. 5% die am wenigsten vorkommende Anfangsziffer. Die von ihm mathematisch berechneten Häufigkeiten sind heute als Benford’s Gesetz bekannt und in der folgenden Tabelle dargestellt.

Ziffer Häufigkeit der Ziffer in Prozent
0 -
1 30,10
2 17,60
3 12,49
4 9,69
5 7,91
6 6,69
7 5,79
8 5,11
9 4,57

 

Beispiel


Um ein intuitives Verständnis für dieses Phänomen zu erhalten, können Sie sich die folgende Situation vorstellen: Sie haben 10.000 EUR bei einer Bank zu einem Zinssatz von 5% p.a. angelegt. Unter Berücksichtigung von Zinseszins-Effekten haben Sie nach 15 Jahren 20.789 EUR. Solange brauchte Ihr Kapital, um sich zu verdoppeln und um die Anfangsziffer ‘1’ in die ‘2’ zu verwandeln. Um von der ‘2’ auf die führende ‘3’ zu wechseln, ist jedoch keine Verdopplung mehr notwendig, sondern lediglich ein Wachstum um 50%. Das wird schon nach 8 weiteren Jahren erreicht. So sinkt die für eine Änderung der Anfangsziffer erforderliche prozentuale Steigerung kontinuierlich. Bei einer führenden ‘9’ sind maximal noch 11,1 % Steigerung notwendig, um wieder eine Anfangs-Eins zu erhalten.
Dann beginnt diese Gesetzmäßigkeit jedoch wieder von vorne. Denn von 100.000 bis 200.000 muß wiederum eine Verdopplung erfolgen.


Lange Rede, kurzer Sinn: Zusammengefasst läßt sich sagen, dass die ‘1’ über einen wesentlich längeren Zeitraum als führende Ziffer besteht, als jede andere Ziffer. Und der notwendige prozentuale Zuwachs, um die erste Ziffer zu verändern wird kontinuierlich kleiner, je höher die aktuelle erste Ziffer bereits ist.


Aber nicht alle Datenmengen gehorchen Benford’s Gesetz. Um eine Benford-Verteilung zu unterstellen, sollten die folgenden Regeln erfüllt sein:

  • Die zu analysierenden Zahlen sollten eine Größe der untersuchten Elemente beschreiben.
  •  Es sollten keine festgelegten Grenzwerte innerhalb des Wertebereichs existieren. Andernfalls ist mit einer Häufung der Werte um diese definierten Minimum- bzw. Maximum-Grenzen zu rechnen.
  •  Die Zahlen dürfen den Elementen nicht zu Identifikationszwecken zugeordnet worden sein (z.B. Kontonummer, Telefonnummer, Versicherungsnummer)

Viele Beispiele zeigen, dass Benford’s Gesetz – so unglaublich es auch klingen mag – tatsächlich gültig ist. Zur Illustration habe ich die folgende Analyse mit den Aktienkursen des Neuem Marktes vom 12.9.2000 (Datum willkürlich gewählt) durchgeführt. Das Ergebnis ist in der folgenden Grafik dargestellt. Die rote Linie zeigt die optimale Verteilung nach Benford und die blaue Linie zeigt die Verteilung der analysierten Kassa-Kurse. Wie man sieht ist die Annäherung der Daten an die Benford-Verteilung deutlich zu erkennen.

Zusammenfassung

Durch die Betrachtung der relativen Häufigkeit bestimmter Anfangsziffern können Erkenntnisse gewonnen werden, welche durch traditionelle Analysemethoden wahrscheinlich im Verborgenen bleiben würden.


Mit Hilfe der Ziffernanalyse können beispielsweise die folgenden Datenbestände schnell auf ihre generelle Plausibilität hin überprüft werden: Investionen und Einkaufsrechnungen, Umsatzbuchungen, Lagerbewertungspreise, Aufwandskonten. Anwendungsgebiete ergeben sich insbesondere bei der Internen Revision.


Eine Konformität mit Benford’s Gesetz bedeutet nicht automatisch, dass die zugrunde liegenden Daten frei von “störenden” Einflüssen sind. Eine Nicht-Einhaltungs des Gesetz lässt jedoch in der Regel auf Ineffizienzen, systematische Fehler oder auf bewußte Manipulationen schliessen. Die sich bei einer tiefergehenden Untersuchung ergebenden Ziffern- und Zahlenmuster können wertvolle Hinweise auf erfundene Daten und sonstige Fehler in Datenbeständen (z.B. verursacht durch EDV-System) geben. Datenmengen, die nicht dieser Verteilung genügen, sind also unter Umständen sehr verdächtig.


Sind Sie neugierig geworden und haben Sie einen Datenbestand, den Sie gerne mit dieser Methode analysieren möchten?
Dann   schreiben Sie mir doch einfach!


Diese Web-Site wurde als weiterführender Hinweis für einen Programmbeitrag der Wissenschaftssendung Archimedes des TV-Senders Arte (1.1.2002) empfohlen. Als Feedback erhielt ich unter anderem die folgende email:

Klaus Fischer, Journalist:

Ich habe mir die Sache mal ganz anders überlegt. Zunächst einmal staunt man über das Gesetz meines Erachtens nur, wenn man zuvor eine gleichmäßige Verteilung der Ziffern unterstellt hat. Das finde ich aber sehr kühn. Denn die Ziffern, die auf der Welt vorkommen, haben ja überhaupt nichts mit abstrakter Mathematik zu tun, sondern beschreiben nur das Leben und die Welt mit all seinen/ihren Facetten. Und eine gleichmäßige Verteilung gibt es in der Welt nicht, lehrt uns die Erfahrung. Wenn wir etwas zählen, fangen wir immer vorne (mit der 1) an. Die kommt also immer vor. Je höher aber Werte werden, desto seltener werden sie. Nehmen wir mal die Länge von Flüssen. 9000 Kilometer gibt es gar nicht. 6000 vielleicht, 4000 manchmal, 2000 häufiger 1000 Kilometer noch viel mehr. Das hat überhaupt nichts mit Zahlen zu tun sondern mit den Begrenzungen unserer Welt. Das haben Sie vermutlich mit den Grenzwerten gemeint.


Nehmen wir mal Größen/Längen. Die Menschen haben sich die Einheit Meter so gewählt, dass sie handlich ist. Unserer Körpergröße schwankt deshalb zwischen einem und zwei Meter/n. Neun Meter gibt es erst gar nicht (auch hier ein Grenzwert). Nehmen wir mal die Aktienkurse. Man hat bestimmte Einheiten dafür gewählt, etwa 1 Euro Nennwert. Viele Firmen fangen damit an. Bei den meisten laufen die Geschäfte normal, bei einigen besser, bei wenigen exorbitant. Diese können ihren Kurs vielleicht verneunfachen. Auch das hat meines Erachtens nichts mit Zahlen zu tun, sondern mit dem Leben. Bei Aktienkurse zählen die absoluten Werte, nicht die relativen. Von einem Euro auf zwei hochzugehen ist das gleiche im Geldbeutel wie von fünf auf sechs Euro, nämlich ein Plus von einem Euro. Kein Mensch zählt Vermögen in Prozentwerten. Aktienkurse gehorchen nicht Gesetzmäßigkeiten wie etwa die Zinsesrechnung. Wenn dem so wäre, könnte man sich Kurswerte ja recht einfach ausrechnen.


Was ich sagen will: Die Ziffernverteilung bildet nur etwas ab, nämlich unsere Welt. Und die Art der Abbildung ist von uns Menschen festgelegt worden, also höchst subjektiv und nicht mathematisch abstrakt. Wir haben uns den Abbildungsmaßstab so zurechtgezimmert, dass er für uns praktisch ist. Und da spielt die 1 eben eine dominante Rolle. Nehmen wir mal die Preise in einem Kaufhaus. Die meisten Dinge des täglichen Lebens , die wir kaufen, sind Kleinigkeiten. Einen Farb-TV für 995 Mark kaufen wir uns nur alle Jubeljahre. Aber die Milch für 1,25 täglich. Kaufleute scheuen vor großen Zahlen zurück. Vermutlich aber hätte Herr Benford festgestellt, dass bei Preisen die dominierende Ziffer auf der vorletzten Position eine 9 ist, wegen besagter Scheu der Kaufleute. Hat so etwas mit der abstrakten Verteilung von Zahlen zu tun?


[und in einer zweiten email] … dass die Ziffern nicht gleichmäßig vorkommen, hatte ich ja schon vorher gedacht. Nur dass es eine solche, durch einen Formel fassbare Verteilung ist, daran habe ich zu knacken. Aber das könnte auch ein Phänomen der großen Zahlen sein. In unserem täglichen Leben haben wir es tagtäglich ja nur mit einer sehr begrenzten Zahl von Ziffern zu tun. Vermutlich kommen deswegen ganz andere Vorstellungen über deren Häufigkeiten zustande. Aber bei der unvorstellbar großen Menge von Ziffern auf der Welt spielen solche Zufälligkeiten wie der begrenzte, individuelle Blickwinkel sicher keine Rolle. Also, ich finde die Sache faszinierend. Und ich bin dankbar, dass ich durch eine Sendung wie Archimedes auf Arte und anschließend die Lektüre auf Ihrer Seite noch solche erfrischende Anregungen bekommen habe.


 

Das könnte Sie auch interessieren:
Paretodiagramme mit Excel – Google Docs – LibreOffice



Vielleicht auch interessant:
Talente finden
Hans-Christian Ströbele fragt mal die Kanzlerin
ARD Themenwoche Glück

Letzte Posts

23 Nov 2013
Talente finden

19 Nov 2013
Hans-Christian Ströbele fragt mal die Kanzlerin

16 Nov 2013
ARD Themenwoche Glück

13 Nov 2013
Erinnerungen verändern sich dynamisch

09 Nov 2013
Open Rhein Ruhr 2013




Kategorien
it
internet
zeitmanagement
mnemotechnik
selbstmanagement
gadgets
programmieren

Tags (130)