# **TP4 - Attaque par fréquence d'un chiffrement César**


In [None]:
from random import Random
from collections import Counter

import numpy as np
import matplotlib.pyplot as plt

### Lecture et écriture de fichiers

On fournit les fonctions utilitaires suivantes pour simplifier la lecture et l'écriture de fichiers.

In [None]:
def readfile(fname: str):
    """Extract the content of the file at path `fname` in a string."""
    try:
        with open(fname, "r") as f:
            return str(f.read())
    except:
        raise IOError("Could not open file.")


def writefile(fname: str, content: str, mode="w"):
    """Write `content` to the file at path `fname`."""
    try:
        with open(fname, mode) as f:
            f.write(content)
    except:
        raise IOError("Could not open file.")

## Partie 1 - Chiffrer un fichier

Pour chiffrer des fichiers généraux, on fera vite apparaître des caractères incompréhensibles. Pour éviter d'avoir à comprendre en détail le fonctionnement de l'[UTF-8](https://fr.wikipedia.org/wiki/UTF-8), on ne considère que les caractères qui correspondent à de l'[ASCII](https://www.ascii-code.com/fr) (étendu). Cela correspond aux caractères dont le «point de code» renvoyé par la fonction `ord` se situe entre 0 et 225. Les autres ne seront pas modifiés.

### 1.1. Correspondance nombre-caractère

Les caractères ASCII indexés entre 0 et 31 sont dits «de contrôle». On ne peut pas éviter le 10 (retour à la ligne), mais on souhaite éviter les autres dont certains sont *vraiment* problématiques (genre une fin de texte). 

Ainsi, si le caractère `c` est un retour à la ligne (indexé par 10), il donne 0. S'il est indexé entre 32 et 255, il est décalé entre 1 et 224. Si `ord(c)` est entre 0 et 31 mais n'est pas 10, la fonction doit renvoyer une erreur. Si `ord(c)` est plus grand que 256, sa valeur ne doit pas être modifiée. Tout ceci est illustré dans le tableau ci-dessous.

| caractère `c`  | `"+"` | `"a"` | `"\n"` | `"–"` |
|----------------|-------|-------|--------|-------|
| `ord(c)`       |    43 |    97 |    10  |  8211 |
| valeur encodée |    12 |    66 |     0  |  8211 |

**TODO**  
Coder les fonctions `char_to_num` et `num_to_char` qui correspondent à cette conversion.

In [None]:
def char_to_num(c: str):
    pass  # TODO


def num_to_char(n: int):
    pass  # TODO

### 1.2. Chiffrement César


**TODO**  
Implémenter le chiffrement de César à partir d'un message en clair et d'une clé.
Attention à prendre en compte le cas particulier des caractères encodés au-delà de 225 (exclus), qui doivent être ignorés.

In [None]:
def encode_cesar(clear_message: str, key: str):
    pass  # TODO

### 1.3. Chiffrement d'un fichier

On fournit ci-dessous un petit code qui permet de lire un fichier `wiki-article1-clear.xml`, de l'encoder avec le chiffrement César, et de sauvegarder le résultat dans un fichier `wiki-article1-ciphered.txt`.

**TODO**  
Assurez-vous que la procédure de chiffrement fonctionne, et rend bien le document chiffré illisible pour un humain.

In [None]:
fprefix = "wiki-article1"
clear_str = readfile(f"{fprefix}-clear.xml")
cipher_str = encode_cesar(clear_str, "B")
writefile(f"{fprefix}-ciphered.txt", cipher_str)

### 1.4. Déchiffrement

**TODO**  
Implémenter `decode_cesar` et le tester sur le fichier précédemment chiffré.

In [None]:
def decode_cesar(cipher_message: str, key: str):
    pass  # TODO


# TODO charger, déchiffrer et sauvegarder

## Partie 2 - Distribution des caractères

### 2.1. Calcul de fréquence des caractères

**TODO**  
À l'aide de la fonction [`numpy.unique_counts`](https://numpy.org/doc/stable//reference/generated/numpy.unique_counts.html), déterminer la fréquence d'apparition de chaque caractère dans un texte en complétant la fonction `charfreqs_from_file` ci-dessous.

In [None]:
def charfreqs_from_file(fname):
    """
    Calculate the frequency of each character in a file.
    Parameters:
        fname (str): The path to the file from which to read the characters.
    Returns:
        chars (numpy array): An array of unique characters sorted by frequency in descending order.
        freqs (numpy array): An array of corresponding frequencies of the characters.
    """
    pass  # TODO

### 2.2. Affichage des caractères les plus fréquents

En s'inspirant [d'un tutoriel matplotlib](https://matplotlib.org/stable/gallery/lines_bars_and_markers/barchart.html), on obtient l'affichage des caractères les plus fréquents pour les différents fichiers.

In [None]:
clear1_chars, clear1_counts = charfreqs_from_file("wiki-article1-clear.xml")
clear2_chars, clear2_counts = charfreqs_from_file("wiki-article2-clear.xml")
cipher_chars, cipher_counts = charfreqs_from_file("wiki-article3-ciphered.txt")

n_shown = 7
x = np.arange(n_shown)  # the label locations

fig, ax = plt.subplots(figsize=(9, 3), layout="constrained")

width = 0.28  # the width of the bars
multiplier = 0

clear1_bars = ax.bar(x - width, clear1_counts[:n_shown], width=width, label="clear 1")
ax.bar_label(clear1_bars, labels=clear1_chars[:n_shown], padding=3, fontsize="small")

clear2_bars = ax.bar(x, clear2_counts[:n_shown], width=width, label="clear 2")
ax.bar_label(clear2_bars, labels=clear2_chars[:n_shown], padding=3, fontsize="small")

cipher_bars = ax.bar(x + width, cipher_counts[:n_shown], width=width, label="cyphered")
ax.bar_label(cipher_bars, labels=cipher_chars[:n_shown], padding=3, fontsize="small")

ax.set_xticks([], [])
ax.legend(loc="upper right", ncols=3)
ax.set_ylim(0, 1.1 * max(max(clear1_counts), max(clear2_counts), max(cipher_counts)))

plt.show()

### 2.3. Déterminer la clé

**TODO**  
Grâce au graphe précédent, déterminer un moyen de trouver la clé qui a chiffré le fichier `wiki-article3-ciphered.txt`. Vous pouvez alors déchiffrer le fichier. De quelle page Wikipédia s'agit-il ?

## Partie 3 - Pour aller plus loin

### 3.1. La version facile

**TODO**  
On sait qu'il s'agit d'un fichier XML d'une page Wikipédia. Utiliser votre connaissance des fichiers en clair pour identifier immédiatement la clé de chiffrement.

### 3.2. Les N-grammes

**TODO**  
Pour certains chiffrement, on préfère avoir accès aux [n-grammes](https://fr.wikipedia.org/wiki/N-gramme). Adapter la fonction `charfreqs_from_file` en une fonction `bifreqs_from_file` pour calculer les fréquences et occurrences des bigrammes, les couples de caractères. Reproduire l'affichage de 2.2 pour ces nouvelles données.

### 3.3. Chiffrement Vigenère

Dans le cas d'un chiffrement Vigenère, la clé est répétée par blocs. Comment identifier la taille des blocs en même temps que la clé ?