# Musterbeispiel Data Processing

Notwendige Packages befinden sich in `requirements.txt` - installieren mit `pip install -r requirements.txt`.

Die Verwendung eines Virtual Environments (venv) wird empfohlen (`py -m venv .venv`, dann `.venv/scripts/activate` bzw. `.venv/bin/activate`)

In [27]:
import pathlib
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import numpy as np

## Beschreibung des Datensatzes

- Datensatz beinhaltet Daten der Wetterstation Freiburg des Deutschen Wetterdienstes
- Datensatz ist csv mit Trennzeichen `;`
- Datensatz umfasst 6 Spalten:


|                    | STATIONS_ID           | MESS_DATUM                   | QN_4                 | TT_TER                | RF_TER                     | eor        |
|--------------------|-----------------------|------------------------------|----------------------|-----------------------|----------------------------|------------|
| Beschreibung       | ID der Wetterstation  | Datum und Stunde der Messung | Qualität der Messung | Temperatur            | Relative Luftfeutchtigkeit | End of Row |
| Datentyp           | Integer               | String (Format yyyymmddhh)   | Integer              | Float                 | Float                      | String     |
| Fehlende Einträge  | Nein                  | Nein                         | Nein                 | Ja (-999)             | Ja  (-999)                 | Nein       |
| Relevant           | Nein                  | Ja                           | Teilweise            | Ja                    | Ja                         | Nein       |


## Schritte der Datenverarbeitung

1. Einlesen des Datensatzes
2. Konvertierung der Datumsspalte in datetime objekte
3. Entfernen nicht benötigter Spalten
4. Plotten der Daten für bessere Übersicht
5. Identifizieren und kompensieren von Fehlerwerten durch Interpolation
6. Plotten des Ergebnisses

In [None]:
# Einlesen der Wetterdaten. Diese müssen sich im selben ordner wie dieses Notebook befinden
datafile = pathlib.Path() / "wetterdaten_freiburg_2022_2024.csv"
data = pd.read_csv(datafile, sep=";")

# Struktur des pandas dataframes ausgeben
data.describe()

In [None]:
# Datumswerte konvertieren
data["MESS_DATUM"] = pd.to_datetime(data["MESS_DATUM"], format="%Y%m%d%H")

# Nicht benötigte Spalten entfernen
data.drop(["STATIONS_ID", "QN_4", "eor"], axis=1, inplace=True)

# Struktur des pandas dataframes ausgeben
data.describe()

In [None]:
# Daten plotten (Temperatur und Luftfeuchtigkeit)
fig = plt.figure(figsize=(10, 4))
ax = plt.subplot(1, 2, 1)
ax.plot(data["MESS_DATUM"], data["TT_TER"])
ax.set_title("Temperatur")
monthyearFmt = mdates.DateFormatter('%m-%Y')
ax.xaxis.set_major_formatter(monthyearFmt)
_ = plt.xticks(rotation=90)

ax = plt.subplot(1, 2, 2)
ax.plot(data["MESS_DATUM"], data["RF_TER"])
ax.set_title("Relative Luftfeuchtigkeit")
monthyearFmt = mdates.DateFormatter('%m-%Y')
ax.xaxis.set_major_formatter(monthyearFmt)
_ = plt.xticks(rotation=90)

plt.tight_layout()
plt.show()

In [None]:
# Fehlerwerte vereinheitlichen
data.replace(-999, np.nan, inplace=True)

# Fehlende Werte durch Interpolation ersetzen
data["TT_TER"] = data["TT_TER"].interpolate()
data["RF_TER"] = data["RF_TER"].interpolate()

# Struktur des pandas dataframes ausgeben
data.describe()

In [None]:
# Überarbeitete Daten plotten (Temperatur und Luftfeuchtigkeit)
fig = plt.figure(figsize=(10, 4))
ax = plt.subplot(1, 2, 1)
ax.plot(data["MESS_DATUM"], data["TT_TER"])
ax.set_title("Temperatur")
monthyearFmt = mdates.DateFormatter('%m-%Y')
ax.xaxis.set_major_formatter(monthyearFmt)
_ = plt.xticks(rotation=90)

ax = plt.subplot(1, 2, 2)
ax.plot(data["MESS_DATUM"], data["RF_TER"])
ax.set_title("Relative Luftfeuchtigkeit")
monthyearFmt = mdates.DateFormatter('%m-%Y')
ax.xaxis.set_major_formatter(monthyearFmt)
_ = plt.xticks(rotation=90)

plt.tight_layout()
plt.show()