Als Data Analyst in der Buchhaltung wurde mir die Aufgabe übertragen, die Umsätze der Kasse 3001 an Heiligabend 2019 zu analysieren. Die Umsätze wurden fehlerhaft erfasst, und es gibt den Verdacht, dass es zu Unregelmäßigkeiten bei den Verkaufsdaten gekommen ist.
Das Geschäft war an diesem Tag zwischen 09:00 und 14:00 Uhr geöffnet, und es gibt insgesamt 50 Verkäufe, die im Datensatz „accounting.csv“ im Unterordner „christmas_eve“ gespeichert sind. Meine Aufgabe ist es, diese Verkaufsdaten auszuwerten und mögliche Fehler zu identifizieren.
Datensatzübersicht
Der Datensatz accounting.csv enthält eine Liste von 50 Verkäufen, die an Heiligabend (24.12.2019) zwischen 09:00 und 14:00 Uhr getätigt wurden. Die wichtigsten Spalten im Datensatz sind:
Verkaufs-ID: Eindeutige ID für jeden Verkauf.
Uhrzeit des Verkaufs: Die genaue Uhrzeit, zu der der Verkauf getätigt wurde (im Format HH:MM).
Verkaufsbetrag: Der Betrag des jeweiligen Verkaufs (in Euro).
Kundentyp: Informationen, ob der Verkauf an einen Stammkunden oder einen Neukunden erfolgt ist.
Artikelnummer: Die Nummer des Artikels, der verkauft wurde.
Wir müssen untersuchen, ob es Inkonsistenzen oder Fehler in den Verkaufsdaten gibt, wie z.B. ungewöhnlich hohe Beträge oder doppelte Einträge.
Methodik
Um die Daten auf Fehler zu überprüfen und die Umsätze korrekt auszuwerten, werde ich die folgenden Schritte durchführen:
Überprüfung der Verkaufszeiten: Ich werde sicherstellen, dass alle Verkaufszeiten im Zeitraum von 09:00 bis 14:00 Uhr liegen. Verkäufe außerhalb dieses Zeitraums werden als Fehler markiert.
Analyse der Verkaufsbeträge: Ich werde alle Verkaufsbeträge auf Unregelmäßigkeiten prüfen. Insbesondere werde ich auf sehr hohe oder sehr niedrige Beträge achten, die möglicherweise auf Eingabefehler hinweisen könnten.
Identifizierung von Duplikaten: Ich werde den Datensatz auf doppelte Verkaufs-ID oder wiederholte Artikelnummern prüfen, um doppelte Buchungen auszuschließen.
Zusammenfassung der Ergebnisse: Abschließend werde ich eine Übersicht der korrigierten Verkaufszahlen und die Gesamtumsätze berechnen.
Datenanalyse
Nach Durchführung der Methodik werde ich die folgenden Aspekte analysieren:
Verkaufszeiten: Überprüfung, ob alle 50 Verkäufe im angegebenen Zeitrahmen (09:00 - 14:00 Uhr) liegen.
Fehlerhafte Verkaufsbeträge: Prüfung auf übermäßige oder sehr niedrige Verkaufsbeträge, die ungewöhnlich erscheinen.
Duplikate: Kontrolle auf doppelte Verkaufsdaten oder wiederholte Transaktionen.
Ich werde sicherstellen, dass alle Auffälligkeiten berücksichtigt werden und die korrekten Umsätze identifiziert werden.