Panoramica

Scopo

Caricare un file CSV in un DataFrame pandas con un insieme ristretto di opzioni e con controlli espliciti su colonne richieste e valori mancanti.

Parametri

  • path: percorso del file da leggere.

  • sep: separatore di colonna passato a pandas.read_csv.

  • decimal: separatore decimale, utile per file con formato italiano.

  • rename_columns: mappa {nome_origine: nome_destinazione} applicata dopo il caricamento.

  • required_columns: elenco di colonne che devono esistere dopo l’eventuale rinomina.

  • missing: politica sui NaN. Puo essere "error", "drop" oppure "allow".

  • comment: carattere di commento opzionale per read_csv.

  • skip_initial_space: se vero, ignora gli spazi subito dopo il separatore.

Restituisce

Un pd.DataFrame con i dati caricati e, se richiesto, gia rinominati o filtrati.

Errori ed eccezioni

  • ValueError se missing non e una policy supportata.

  • ValueError se una o piu colonne richieste non sono presenti.

  • ValueError se il file contiene valori mancanti e missing="error".

Esempio

from mespy import load_csv

df = load_csv(
    "data/reference/test_misure.csv",
    rename_columns={"misura_n": "n", "lunghezza_mm": "lunghezza", "sigma_mm": "sigma"},
    required_columns=["n", "lunghezza", "sigma"],
    missing="drop",
)

Note pratiche

  • Il controllo su required_columns avviene dopo rename_columns.

  • missing="drop" rimuove le righe incomplete con DataFrame.dropna().

  • La funzione non converte direttamente il DataFrame in array numerici: quel passaggio resta alle funzioni statistiche e di plotting.