Compressione dati senza perdita

Questa voce o sezione sull'argomento informatica è ritenuta da controllare.

Motivo: Probabile ricerca originale

Questa voce o sezione sull'argomento teorie dell'informatica non cita le fonti necessarie o quelle presenti sono insufficienti.

La compressione dati senza perdita (o compressione dati lossless), in informatica e telecomunicazioni, è una classe di algoritmi di compressione dati che non porta alla perdita di alcuna parte dell'informazione originale durante la fase di compressione/decompressione dei dati stessi.

Un esempio di questo tipo di compressione è dato dai formati Zip, Gzip, Bzip2, Rar, 7z. I file per cui non è accettabile una perdita di informazione, come i testi o i programmi, utilizzano questo metodo. Per le immagini fotografiche generalmente non si usano algoritmi lossless in quanto sarebbero veramente poco efficienti, ma per le immagini che contengano ampie aree con colori puri spesso la compressione "senza perdita" non solo è applicabile, ma anche conveniente (GIF, PNG, MNG, TIFF con compressione LZW, ZIP o RLE).

Problemi della compressione senza perdita

Gli algoritmi di compressione lossless non possono sempre garantire che ogni insieme di dati in input diminuisca di dimensione. In altre parole per ogni algoritmo lossless ci saranno particolari dati in input che non diminuiranno di dimensione quando elaborati dall'algoritmo. Questo è facilmente verificabile con della matematica elementare:

Si assuma che ogni file sia rappresentato da una stringa di bit di lunghezza arbitraria.
Si supponga (per assurdo) che esista un algoritmo di compressione che trasformi ogni file in un file più corto distinto (se i file risultanti non sono distinti, l'algoritmo non può essere reversibile senza perdita di dati).
Si considerino l'insieme dei file con lunghezza massima di N bit. Questo set ha 1 + 2 + 4 + ... + 2^N = 2^N+1-1 elementi, se si include il file di lunghezza zero.
Ora considerando l'insieme dei file con N-1 bit, vi sono 1 + 2 + 4 + ... + 2^N-1 = 2^N-1 file che vi appartengono, sempre considerando anche il file di lunghezza zero.
Tale numero di elementi è più piccolo di 2^N+1-1. Non è possibile collegare in modo univoco gli elementi di un insieme più grande (i file da comprimere) con gli elementi di un insieme più piccolo (i file dopo la compressione).
Questa contraddizione implica che l'ipotesi originale (che un algoritmo di compressione renda tutti i file più piccoli) sia errata.

Si può notare che la differenza di dimensione è così elevata che non fa alcuna differenza se si considerano file di dimensione esattamente N come insieme dei file da comprimere: tale insieme è comunque di dimensioni maggiori (2^N) dell'insieme dei file compressi.

Una dimostrazione anche più semplice (ma equivalente) è la seguente:

Si assuma che ogni file sia rappresentato da una stringa di bit di lunghezza arbitraria.
Si supponga (per assurdo) che esista un algoritmo di compressione C che trasformi ogni file di lunghezza maggiore di 1 in un file più corto distinto (se i file risultanti non sono distinti, l'algoritmo non può essere reversibile senza perdita di dati).
Dato un qualunque file F di lunghezza L(F)=N, si applichi C a questo file, ottenendo il file C(F)
Si ripeta il passo precedente applicando C a C(F) e si continui in questo modo: per l'ipotesi al punto (2), si ha:

L(F)=N>L(C(F)) > L(C²(F)) > ...

e quindi:

L(C(F))<= N-1
L(C²(F))<= N-2
L(C^k(F))<= N-k

Dopo al massimo N iterazioni, si deve avere L(C^N-1(F))=1, perché ogni iterazione deve diminuire la lunghezza di almeno un bit: questo procedimento non dipende dal valore di N. Dalle nostre ipotesi consegue quindi che esisterebbero due soli file distinti (quello contenente il bit 0 e quello contenente il bit 1). Questo è evidentemente falso, quindi l'ipotesi è falsa.

Quindi, ogni algoritmo di compressione che rende alcuni file più piccoli deve necessariamente rendere altri file più grandi o lasciarli di lunghezza invariata.

Nell'uso pratico, si considerano buoni gli algoritmi di compressione che comprimono effettivamente la maggior parte dei formati più comuni: questo non corrisponde necessariamente ad una misura di bontà in senso teorico (che misura la distanza media, misurata su tutti i file possibili, tra la lunghezza ottenuta e il numero di bit di entropia contenuti nel file, che, per un teorema di Claude Shannon, è il limite di comprimibilità teorico). Inversamente, un algoritmo teoricamente buono potrebbe non avere applicabilità pratica (ad esempio perché non riduce formati di uso comune).

In realtà, molti applicativi che utilizzano la compressione lossless prevedono di lasciare invariati gli insiemi di dati la cui dimensione sia aumentata dopo la compressione. Ovviamente, il flag che indica che questo gruppo di dati non va processato dall'algoritmo aumenta la dimensione effettiva necessaria a memorizzare il gruppo di dati, ma permette di evitare un ulteriore spreco di spazio e di tempo necessario alla compressione/decompressione.

Qualità della compressione e velocità

In generale, non vi è un rapporto di proporzionalità indiretta tra qualità della compressione ottenibile da un algoritmo e la sua velocità di esecuzione.

Prendiamo ad esempio la seguente stringa di dati:

005555550055555500555555005555550055555500555555

La stringa richiede 48 caratteri, ma è immediatamente disponibile all'utilizzo. Un algoritmo di compressione lossless potrebbe essere "cifra-numero di ripetizioni". La stringa, utilizzando questo algoritmo, diviene quindi:

025602560256025602560256

È chiaro che i dati non sono più direttamente disponibili ma occorre svolgere un passaggio intermedio (decompressione).

Poiché, dato uno stesso archivio dati, la decompressione è solitamente molto più frequente della compressione molti algoritmi sono fortemente asimmetrici: il tempo richiesto per la compressione è sostanzialmente superiore a quello richiesto per la decompressione. Questo accade anche nei riguardi delle richieste di memoria e di capacità di calcolo.

Tecniche di compressione

Esistono diversi algoritmi di compressione. Tra i più noti:

Codifica di Huffman
Codifica aritmetica (o "compressione aritmetica")
Lempel-Ziv-Welch (LZW)
LZ77
LZ78
LZMA
Deflate - tecnica mista: LZ77 e Huffman
Prediction by Partial Matching (PPM)
Trasformata di Burrows-Wheeler - (BWT)

Programmi generici per la compressione

Tra i tanti programmi di compressione molti usano un algoritmo tra quelli elencati sopra, mentre alcuni ne hanno uno proprio:

Arj - algoritmo proprio
Gzip - usa Deflate
PKZIP - usa Deflate
WinZip - usa Deflate
WinRar - algoritmo proprio
Bzip2 - usa la trasformata di Burrows-Wheeler
7-Zip - usa LZMA
Bandizip: freeware, compressione multi-core e autoregolazione del rapporto compressìvo.

Supportano tutti la cifratura con algoritmo AES-128 o AES-256.
In ogni caso è possibile cifrare e comprimere il file con due programmi diversi, ma ciò rallenta l'apertura e chiusura, rispetto ad un unico programma che faccia entrambe le cose.

Formati ed algoritmi

Audio

Apple Lossless - ALAC (Apple Lossless Audio Codec)
Direct Stream Transfer - DST
FLAC - Free Lossless Audio Codec
Lossless Audio (LA) (il miglior rapporto di compressione)
Meridian Lossless Packing - MLP
APE Monkey's Audio
RealPlayer - RealAudio Lossless
Shorten - SHN
TTA - True Audio Lossless
WavPack - WavPack lossless
WMA - comprende anche una variante lossless

Galleria d'immagini

ABO - Adaptive Binary Optimization
GIF - Lempel-Ziv-Welch (LZW) per immagini da 2 a 256 colori
HD Photo - Contempla un metodo di compressione lossless
ILBM – Compressione RLE lossless per immagini IFF dei computer Amiga
JPEG - comprende una variante lossless JPEG-LS (poco utilizzata)
JPEG 2000 - comprende un metodo di compressione lossless
JBIG2 - comprende una compressione lossless di immagini in bianco e nero
OptiPNG - Metodo di compressione lossless in formato PNG
PNG Portable Network Graphics - usa una variante di Deflate
Qbit Lossless Codec - Dedicato alla compressione intra-frame
RLE Run-length encoding algoritmo usato nei formati TGA, BMP, TIFF
FAX Gruppo 3 (1D) e Gruppo 4 (2D) - algoritmo per immagini bianco e nero usato dai FAX e dal formato TIFF
TIFF (Tagged Image File Format) - permette di scegliere tra diversi algoritmi sia lossless (tra cui LZW e RLE) o lossy (JPEG)
WMPhoto - Contempla un metodo di compressione lossless