Come iterare su ogni riga di un file CSV utilizzando un ciclo for in Python

Imparare a gestire i file CSV in modo efficiente in Python è fondamentale per varie applicazioni, come l’analisi dei dati o la creazione di report. In particolare, utilizzando un ciclo for per iterare su ogni riga, puoi manipolare i dati CSV in modo intuitivo. In questo articolo, esploreremo come utilizzare la libreria standard csv di Python, partendo dall’uso di base fino a tecniche più efficienti. Questo ti permetterà di comprendere approcci adeguati anche quando lavori con grandi volumi di dati.

Indice

Come aprire un file CSV in Python

Il passaggio fondamentale per lavorare con un file CSV è aprirlo e leggere correttamente i dati. In Python, puoi aprire un file CSV utilizzando la funzione open della libreria standard.

Come aprire un file di base

Utilizzando la funzione open di Python, puoi aprire un file CSV in modalità di sola lettura. Ecco un esempio di codice per aprire il file example.csv.

with open('example.csv', mode='r', encoding='utf-8') as file:
    print(file.read())

Perché usare il costrutto with

Utilizzando il costrutto with, puoi aprire e chiudere un file in modo sicuro, senza bisogno di chiamare esplicitamente file.close(). Questo garantisce che il file venga chiuso correttamente anche in caso di errori, prevenendo perdite di risorse.

Prepararsi a usare il modulo CSV

Dopo aver aperto il file, puoi utilizzare il modulo csv per elaborare il contenuto del file. Questo modulo fornisce funzionalità per leggere i dati separati da virgole in un formato facilmente gestibile. Vediamo alcuni esempi pratici nei prossimi paragrafi.

Iterazione di base con csv.reader

Utilizzando l’oggetto reader del modulo csv, puoi iterare riga per riga su un file CSV. Questo metodo è semplice e ti consente di ottenere ogni riga come una lista, facilitando l’elaborazione dei dati.

Uso di base di csv.reader

Ecco un esempio base di codice per leggere un file CSV utilizzando csv.reader.

import csv

# Aprire il file CSV
with open('example.csv', mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)  # Creare il lettore CSV
    for row in reader:  # Iterare su ogni riga
        print(row)  # Stampare ogni riga come lista

Formato dei dati restituiti

Ogni riga restituita da csv.reader è una lista contenente i dati delle celle come stringhe. Per esempio, se processi il seguente file CSV:

Name,Age,City
Alice,30,New York
Bob,25,Los Angeles

L’output sarà il seguente:

['Name', 'Age', 'City']
['Alice', '30', 'New York']
['Bob', '25', 'Los Angeles']

Come saltare la prima riga (intestazione)

Se desideri saltare la prima riga (intestazione), puoi usare la funzione next():

with open('example.csv', mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)
    next(reader)  # Saltare la riga di intestazione
    for row in reader:
        print(row)

Considerazioni

Per default, csv.reader considera la virgola (,) come separatore. Se utilizzi un altro separatore, devi specificare l’argomento delimiter.
Se i dati sono numerosi, fai attenzione al consumo di memoria durante l’elaborazione.

Nel prossimo paragrafo, vedremo come ottenere i valori di una colonna e eseguire operazioni specifiche su di essi.

Ottenere e processare i valori delle colonne

Con csv.reader, ogni riga è restituita come una lista, permettendoti di estrarre facilmente i valori di colonne specifiche e di elaborarli. Questo approccio consente di concentrarsi sui dati necessari, migliorando l’efficienza del processo.

Esempio base di estrazione di una colonna specifica

Il seguente codice estrae e processa una colonna specifica (ad esempio, la seconda colonna) dal file CSV:

import csv

with open('example.csv', mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)
    next(reader)  # Saltare l'intestazione
    for row in reader:
        # Ottenere il valore della seconda colonna (indice 1)
        age = row[1]
        print(f"Age: {age}")

Per esempio, dato il seguente file CSV:

Name,Age,City
Alice,30,New York
Bob,25,Los Angeles

Quando esegui il codice, l’output sarà:

Age: 30  
Age: 25

Combinare più colonne per l’elaborazione

Se desideri utilizzare più colonne contemporaneamente, puoi specificare gli indici delle colonne da utilizzare.

with open('example.csv', mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)
    next(reader)  # Saltare l'intestazione
    for row in reader:
        name = row[0]  # Prima colonna
        city = row[2]  # Terza colonna
        print(f"{name} lives in {city}.")

Il risultato dell’esecuzione sarà:

Alice lives in New York.  
Bob lives in Los Angeles.

Aggiungere la gestione degli errori

Per gestire i casi in cui il file presenta problemi o celle vuote, aggiungere una gestione degli errori renderà il codice più robusto.

with open('example.csv', mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)
    next(reader)  # Saltare l'intestazione
    for row in reader:
        try:
            name = row[0]
            age = int(row[1])  # Ottenere l'età come numero
            print(f"{name} is {age} years old.")
        except (IndexError, ValueError) as e:
            print(f"Error processing row: {row}, Error: {e}")

Esempi pratici

Questa tecnica è utile per i seguenti casi:

Estrazione di dati che soddisfano determinate condizioni (es. età superiore a 30 anni).
Calcolo dei valori delle colonne per generare nuove informazioni.
Calcolo delle statistiche per colonna (somma, media, ecc.).

Nel prossimo paragrafo vedremo come utilizzare csv.DictReader per trattare i dati in modo più intuitivo.

Elaborazione dei dati delle righe come dizionari con csv.DictReader

Utilizzando csv.DictReader, puoi trattare ogni riga di un file CSV come un dizionario. In questo modo, i nomi delle colonne vengono utilizzati come chiavi, il che elimina la necessità di ricordare gli indici e migliora la leggibilità del codice.

Uso base di csv.DictReader

Ecco un esempio di come trattare i dati di un file CSV utilizzando csv.DictReader:

import csv

with open('example.csv', mode='r', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        # Ottenere i valori utilizzando i nomi delle colonne come chiavi
        name = row['Name']
        age = row['Age']
        city = row['City']
        print(f"{name} is {age} years old and lives in {city}.")

Per esempio, dato il seguente file CSV:

Name,Age,City
Alice,30,New York
Bob,25,Los Angeles

Quando esegui questo codice, otterrai il seguente output:

Alice is 30 years old and lives in New York.  
Bob is 25 years old and lives in Los Angeles.

Vantaggi dell’uso dei nomi delle colonne

Aumento della leggibilità del codice: Non è necessario ricordare gli indici delle colonne, poiché puoi usare direttamente i nomi delle colonne.
Maggiore flessibilità: Se l’ordine delle colonne cambia, non è necessario modificare il codice, basta che i nomi delle colonne siano gli stessi.

Rilevamento automatico dei nomi delle colonne

Il csv.DictReader utilizza automaticamente la prima riga del file come intestazione. Tuttavia, puoi anche personalizzare i nomi delle colonne come segue:

with open('example.csv', mode='r', encoding='utf-8') as file:
    reader = csv.DictReader(file, fieldnames=['Name', 'Age', 'City'])  # Specificare i nomi delle colonne
    next(reader)  # Saltare la prima riga
    for row in reader:
        print(row)

Gestione dei dati mancanti

Se ci sono dati mancanti nel file CSV, il valore della chiave corrispondente sarà None. È importante eseguire i controlli appropriati per evitare errori.

with open('example.csv', mode='r', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        name = row.get('Name', 'Unknown')  # Impostare un valore predefinito
        age = row.get('Age', 'N/A')
        print(f"Name: {name}, Age: {age}")

Esempi pratici

Il csv.DictReader è particolarmente utile nei seguenti scenari:

Filtraggio dei dati: Selezionare le righe che soddisfano determinati criteri.
Conversione in JSON: Convertire direttamente i dati in formato dizionario in JSON.
Elaborazione statistica: Eseguire aggregazioni basate sui nomi delle colonne.

Nel prossimo paragrafo, esploreremo come gestire correttamente la codifica dei file CSV.

Considerazioni sulla codifica dei file CSV

Quando si lavora con file CSV in Python, la codifica è un aspetto cruciale. Se la codifica non è corretta, i dati potrebbero diventare illeggibili o la lettura del file potrebbe fallire. In questa sezione, esploreremo le problematiche comuni relative alla codifica e le modalità per affrontarle.

Formati di codifica comuni

Ecco alcuni dei formati di codifica più comuni per i file CSV:

UTF-8: Ampiamente utilizzato a livello internazionale, supporta più lingue. È la codifica predefinita in Python.
Shift_JIS: Comunemente utilizzato in Giappone, ma può presentare problemi con alcuni caratteri speciali.
ISO-8859-1: Utilizzato nelle lingue dell’Europa occidentale.

Come specificare la codifica

Puoi specificare la codifica di un file utilizzando l’argomento encoding nella funzione open.

with open('example.csv', mode='r', encoding='utf-8') as file:
    print(file.read())

Se il file è codificato in Shift_JIS, puoi specificarlo in questo modo:

with open('example.csv', mode='r', encoding='shift_jis') as file:
    print(file.read())

Gestione degli errori di codifica

Se si verificano errori dovuti a una codifica non valida, puoi gestirli utilizzando l’argomento errors per ignorarli o sostituirli.

Ignorare o sostituire gli errori

Impostando l’argomento errors, puoi controllare il comportamento durante gli errori di codifica.

with open('example.csv', mode='r', encoding='utf-8', errors='ignore') as file:
    print(file.read())  # Ignorare gli errori

with open('example.csv', mode='r', encoding='utf-8', errors='replace') as file:
    print(file.read())  # Sostituire i caratteri non validi

Rilevamento automatico della codifica

Se non conosci la codifica di un file, puoi utilizzare librerie come chardet o charset-normalizer per rilevarla automaticamente.

import chardet

# Rilevamento della codifica
with open('example.csv', mode='rb') as file:
    result = chardet.detect(file.read())
    print(result['encoding'])

Punti da considerare quando si lavora con la codifica

Verifica preventiva: Controlla la codifica del file CSV e specifica il formato corretto.
Standardizzazione: Se possibile, utilizza sempre UTF-8 per semplificare il processo.
Gestione degli errori: Utilizza l’argomento errors o librerie dedicate per prevenire errori imprevisti.

Nel prossimo paragrafo, esploreremo come gestire in modo efficiente file CSV di grandi dimensioni.

Come gestire in modo efficiente file CSV di grandi dimensioni

Quando si lavora con file CSV di grandi dimensioni, senza un approccio efficiente potresti incontrare problemi di memoria o di tempi di elaborazione lunghi. In Python, esistono diverse tecniche per trattare grandi file CSV.

Risparmio di memoria caricando riga per riga

Utilizzando csv.reader o csv.DictReader, puoi leggere i file CSV riga per riga. In questo modo, non carichi l’intero file in memoria, riducendo al minimo il consumo di memoria.

import csv

with open('large_file.csv', mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)
    for row in reader:
        # Elaborare ogni riga
        print(row)

Questo approccio funziona indipendentemente dalle dimensioni del file, poiché elabora una riga alla volta.

Uso del batch processing

Dividere un file CSV in batch e trattare solo un numero limitato di righe alla volta migliora ulteriormente l’efficienza. Ecco un esempio che utilizza itertools.islice:

import csv
from itertools import islice

with open('large_file.csv', mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)
    while True:
        batch = list(islice(reader, 100))  # Leggere 100 righe alla volta
        if not batch:
            break
        # Elaborazione del batch
        for row in batch:
            print(row)

Uso di Pandas per il batch processing

La libreria pandas di Python è ideale per l’elaborazione di grandi set di dati. Puoi specificare l’argomento chunk_size per lavorare con i dati in batch.

import pandas as pd

for chunk in pd.read_csv('large_file.csv', chunksize=1000, encoding='utf-8'):
    # Elaborare ogni chunk
    print(chunk)

Questo approccio è utile quando desideri analizzare i dati in modo efficiente suddividendoli in piccoli pezzi.

Utilizzo del parallelismo

Se dividi un file in batch, puoi usare il parallelismo per velocizzare l’elaborazione. Ecco un esempio utilizzando il modulo multiprocessing:

import csv
from multiprocessing import Pool

def process_chunk(chunk):
    for row in chunk:
        print(row)

def split_file(filename, chunk_size=1000):
    with open(filename, mode='r', encoding='utf-8') as file:
        reader = csv.reader(file)
        batch = []
        for i, row in enumerate(reader):
            batch.append(row)
            if (i + 1) % chunk_size == 0:
                yield batch
                batch = []
        if batch:
            yield batch

if __name__ == "__main__":
    filename = 'large_file.csv'
    with Pool(4) as pool:  # Parallelizzazione con 4 processi
        pool.map(process_chunk, split_file(filename))

Scelta del formato di dati più efficiente

CSV è semplice e conveniente, ma per dati molto grandi, considera formati alternativi come Parquet o Feather, che possono offrire performance superiori in termini di velocità di lettura e compressione.

Esempio pratico: Filtraggio e salvataggio dei dati

Ecco un esempio in cui vengono estratti solo i dati che soddisfano una certa condizione e vengono salvati in un nuovo file, ottimizzando l’uso della memoria:

import csv

with open('large_file.csv', mode='r', encoding='utf-8') as infile, \
     open('filtered_file.csv', mode='w', encoding='utf-8', newline='') as outfile:
    reader = csv.reader(infile)
    writer = csv.writer(outfile)
    for row in reader:
        if int(row[1]) > 50:  # Condizione: la seconda colonna è maggiore di 50
            writer.writerow(row)

Nel prossimo paragrafo, esploreremo come usare il costrutto with per operazioni sicure sui file.

Operazioni sicure sui file con il costrutto with

Quando lavori con file in Python, il costrutto with semplifica l’apertura e la chiusura sicura dei file, migliorando la gestione delle risorse. In particolare, quando lavori con file CSV, questo approccio ti permette di gestire correttamente le risorse anche in caso di errori.

Esempio base di uso del costrutto with

Ecco un esempio di come utilizzare il costrutto with per leggere un file CSV in modo sicuro:

import csv

with open('example.csv', mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

Quando esci dal blocco with, l’oggetto file viene automaticamente chiuso, senza bisogno di chiamare close(). Questo semplifica il codice e previene errori.

Uso del costrutto with per la scrittura su file

Puoi utilizzare il costrutto with anche quando scrivi dati su un file CSV, garantendo una gestione sicura delle risorse:

import csv

data = [
    ['Name', 'Age', 'City'],
    ['Alice', '30', 'New York'],
    ['Bob', '25', 'Los Angeles']
]

with open('output.csv', mode='w', encoding='utf-8', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(data)

Vantaggi dell’uso del costrutto with

Semplificazione della gestione delle risorse
Anche in caso di errore, il file verrà chiuso automaticamente.
Aumento della leggibilità
Non è necessario scrivere esplicitamente la chiusura del file, il codice diventa più conciso e comprensibile.
Prevenzione degli errori
Prevenire perdite di risorse (come l’aumento della memoria) causate dalla mancata chiusura del file.

Operazioni su più file contemporaneamente

Con il costrutto with, puoi anche lavorare su più file contemporaneamente in modo sicuro:

import csv

with open('input.csv', mode='r', encoding='utf-8') as infile, \
     open('output.csv', mode='w', encoding='utf-8', newline='') as outfile:
    reader = csv.reader(infile)
    writer = csv.writer(outfile)
    for row in reader:
        writer.writerow(row)

Rischi di non utilizzare il costrutto with

Ecco un esempio di operazione su file senza il costrutto with:

file = open('example.csv', mode='r', encoding='utf-8')
reader = csv.reader(file)
for row in reader:
    print(row)
file.close()

In questo caso, se dimentichi di chiamare file.close() o se si verifica un errore, il file rimarrà aperto, causando perdite di risorse. Questo può essere problematico in ambienti di server o applicazioni su larga scala.

Esempio pratico: Filtraggio e salvataggio dei dati

Ecco un esempio in cui vengono estratti solo i dati che soddisfano una condizione e vengono salvati in un nuovo file utilizzando with:

import csv

with open('input.csv', mode='r', encoding='utf-8') as infile, \
     open('filtered_output.csv', mode='w', encoding='utf-8', newline='') as outfile:
    reader = csv.reader(infile)
    writer = csv.writer(outfile)
    for row in reader:
        if row[1] == '30':  # Condizione: la seconda colonna è '30'
            writer.writerow(row)

Nel prossimo paragrafo esploreremo come estrarre colonne specifiche da un file CSV e salvarle in un nuovo file.

Esempio pratico: Estrazione di colonne specifiche da un file CSV e salvataggio

Un’attività comune quando si lavora con file CSV è estrarre solo alcune colonne e salvarle in un nuovo file. Con il modulo csv di Python, questa operazione è semplice e veloce. Vediamo i passaggi per farlo in modo pratico.

Esempio di base per estrarre colonne specifiche

Ecco un esempio di codice che estrae colonne specifiche (ad esempio, nome e età) da un file CSV e le salva in un nuovo file:

import csv

# Percorsi dei file di input e output
input_file = 'input.csv'
output_file = 'output.csv'

with open(input_file, mode='r', encoding='utf-8') as infile, \
     open(output_file, mode='w', encoding='utf-8', newline='') as outfile:
    reader = csv.reader(infile)
    writer = csv.writer(outfile)

    # Gestire l'intestazione (estrarre solo alcune colonne)
    header = next(reader)
    selected_columns = [0, 1]  # Colonne da estrarre (es. prima e seconda colonna)
    writer.writerow([header[i] for i in selected_columns])

    # Estrarre e scrivere le colonne selezionate per ogni riga
    for row in reader:
        writer.writerow([row[i] for i in selected_columns])

Esempio del contenuto del file di input

Il contenuto del file di input input.csv è il seguente:

Name,Age,City,Country
Alice,30,New York,USA
Bob,25,Los Angeles,USA
Charlie,35,London,UK

Quando esegui il codice, il file di output output.csv conterrà i seguenti dati:

Name,Age
Alice,30
Bob,25
Charlie,35

Estrazione dinamica delle colonne

Un altro approccio utile è l’estrazione dinamica delle colonne utilizzando i nomi delle colonne invece degli indici. In questo caso, puoi ottenere automaticamente il mapping tra nomi e indici delle colonne.

with open(input_file, mode='r', encoding='utf-8') as infile, \
     open(output_file, mode='w', encoding='utf-8', newline='') as outfile:
    reader = csv.DictReader(infile)
    writer = csv.writer(outfile)

    # Colonne da estrarre
    columns_to_extract = ['Name', 'City']
    writer.writerow(columns_to_extract)

    # Estrarre e scrivere le colonne per ogni riga
    for row in reader:
        writer.writerow([row[col] for col in columns_to_extract])

Estrazione condizionata delle colonne

Inoltre, puoi estrarre solo i dati che soddisfano determinate condizioni:

with open(input_file, mode='r', encoding='utf-8') as infile, \
     open(output_file, mode='w', encoding='utf-8', newline='') as outfile:
    reader = csv.DictReader(infile)
    writer = csv.DictWriter(outfile, fieldnames=['Name', 'City'])
    writer.writeheader()

    for row in reader:
        if int(row['Age']) > 30:  # Estrai solo i dati con età superiore a 30
            writer.writerow({'Name': row['Name'], 'City': row['City']})

Il contenuto del file di output sarà:

Name,City
Charlie,London

Esempi pratici

Analisi dei dati: Estrazione di dati specifici per preparare aggregazioni o analisi.
Conversione dei dati: Estrazione dei dati necessari e conversione in un formato diverso.
Creazione di report efficaci: Creazione di report semplici utilizzando informazioni selezionate da grandi set di dati.

Nel prossimo paragrafo riepilogheremo tutto ciò che è stato trattato finora.

Riepilogo

In questo articolo, abbiamo esplorato come trattare i file CSV in modo efficiente utilizzando Python. Abbiamo visto come iterare su ogni riga di un file CSV usando csv.reader, come utilizzare csv.DictReader per lavorare con i dati come dizionari, e come estrarre colonne specifiche. Inoltre, abbiamo trattato la gestione della codifica dei file e l’uso del costrutto with per operazioni sicure sui file.

Queste tecniche ti permetteranno di lavorare con i dati CSV in modo più efficiente, sia che tu stia effettuando analisi dati o eseguendo processi ETL (Extract, Transform, Load). Approfitta della flessibilità di Python per semplificare l’elaborazione dei dati CSV e rendere i tuoi processi più rapidi e sicuri.