Um sicher sein zu können, dass eine Datenanalyse zu aussagekräftigen Ergebnissen führt, müssen die Daten eine entsprechende Integrität aufweisen. Das heißt, die Daten müssen vollständig, korrekt und konsistent sein. Wichtig ist beispielsweise, dass in den Bewegungsdaten alle im System abzubildenden Auftragszeilen erfasst sind und dass die in den Stammdaten erfassten Produktabmessungen überwiegend vollständig sind und sich stets auf die gleiche Produkteinheit (in der Regel die Kommissioniereinheit) beziehen.
Fehlen Produktdimensionen, ist u.a. zu überprüfen, wie viele und welche Produkte betroffen sind. Handelt es sich dabei um nur wenige Produkte, die außerdem ohnehin nie oder selten verkauft werden, sind unvollständige Stammdaten kein größeres Problem. Sind Schnelldreher darunter, müssen Daten nachträglich ermittelt oder – das ist die Regel – vom Analysten gemeinsam mit dem Kunden Annahmen getroffen werden.
Regelmäßig sind Daten zwar vollständig, jedoch falsch. Dies betrifft insbesondere Produktabmessungen. War beim Betrieb eines manuellen Systems die Stammdatenqualität bisher nicht von größter Bedeutung, hat die Sorgfalt bei der Erfassung häufig gelitten. Es ist daher wichtig, dass Ausreißer identifiziert und einzeln überprüft werden. Es werden also verschiedene Plausibilitätsprüfungen durchgeführt, um vermutlich oder offensichtlich falsche Werte zu identifizieren. Handelt es sich um Falscheingaben muss entschieden werden, ob die entsprechenden Werte korrigiert oder die Produkte von der Analyse exkludiert werden. Auch für diese Entscheidung ist die Betrachtung der Bedeutung der Produkte für den Systemdurchsatz wesentlich.
Manchmal stellt sich bei der Plausibilitätsprüfung heraus, dass zwar die numerischen Werte stimmen, jedoch die Einheiten nicht korrekt angegeben werden. Eine Normierung der Einheiten wird dann notwendig.
Des Weiteren muss der Datensatz umfassend genug sein, um belastbare Schlussfolgerungen ziehen zu können. Für die Logistiksystemplanung sollte ein Datensatz mindestens zwei Monate umfassen, vorzugsweise jedoch sechs bis zwölf Monate. Die resultierenden Datensätze können dadurch so groß werden, dass sie sich auf üblichem Wege mit Office Software wie Microsoft Excel nicht mehr öffnen lassen (sehr wohl aber mit Power Query oder Access, sollte man auf Basis von Office arbeiten wollen). Daten, die nur einen kurzen Zeithorizont abbilden, sind häufig Gegenstand saisonaler Effekte, welche die Aussagekraft der Auswertungen beeinträchtigt, da das beobachtete Verhalten nicht repräsentativ für das Geschäft im Jahresverlauf ist. Stellen Sie sich vor, Sie betrachten die Verkaufsdaten eines Einzelhändlers nur für die Monate November und Dezember: Der Effekt des Weihnachtsgeschäfts führt vermutlich zu einer starken Verzerrung und stellt keine sinnvolle Planungsgrundlage für den Rest des Jahres dar.
Regelmäßig finden sich in Datensätzen einzelne Auftragszeilen, die am Wochenende kommissioniert (oder da erst verbucht) wurden, obwohl das Geschäft üblicherweise auf den Zeitraum Montag bis Freitag beschränkt ist: Diese Daten müssen bereinigt werden, um das Bild nicht zu verzerren.
Die Qualität des Datensatzes hat also erhebliche Auswirkungen auf den Aufwand, der getrieben werden muss, um aus einer Analyse aussagekräftige Schlussfolgerungen zu ziehen. Der Aufwand für die Bereinigung des Datensatzes und die Ansprüche an Datenintegrität und -qualität sind natürlich abhängig von der untersuchten Fragestellung. Dennoch lässt sich grundsätzlich feststellen, dass ein guter Datensatz den Analyseaufwand – und damit die Kosten – erheblich reduziert.
Werfen Sie auch einen Blick in unsere Handreichung zur Datenerhebung für die Datenanalyse. Gerne unterstützen wir Sie auch bei der Datenerhebung!