ORATIS

Installation

Pour installer ORATIS, suivez les étapes ci-dessous :

Clonez le dépôt ou téléchargez-le directement :

git clone

Accédez au répertoire :

cd ORATIS

Installez les dépendances :

pip install -r requirements.txt

Assurez-vous que Python 3.8 ou une version ultérieure est installé.

Utilisation

Voici comment utiliser le pipeline ORATIS :

Important : Le modèle est fourni sans données préalablement entraînées. Vous devez lui apprendre à partir de vos propres fichiers audio et transcriptions.

Placez vos fichiers audio (formats supportés : .wav ou .mp3) dans le dossier : data/raw
Créez des fichiers de retranscriptions correspondants avec exactement le même nom que les fichiers audio dans : data/transcripts
Lancez le pipeline pour préparer et entraîner le modèle :

python main.py

Attention : Assurez-vous que chaque fichier audio a une retranscription correspondante pour éviter des erreurs.

Options disponibles :

Segmente les fichiers audio en portions de 30 secondes. --segment yes

Attention : L'option peut rencontrer des problèmes ou produire des résultats inattendus. Utilisez avec précaution.

Utilise les fichiers audio dans leur intégralité. --segment no

Modules

Prétraitement

Le module de prétraitement nettoie et normalise les fichiers audio :

Convertit les fichiers en mono.
Rééchantillonne à 16kHz.
Optionnel : Segmente les fichiers en morceaux de 30 secondes.

python scripts/preprocess.py --segment yes

Extraction des caractéristiques

Ce module extrait des MFCCs (Mel Frequency Cepstral Coefficients) pour représenter les données audio :

Utilise la bibliothèque librosa
Extrait 13 coefficients par fenêtre temporelle.

python scripts/extract_features.py

Entraînement du modèle

Ce module entraîne un modèle LSTM :

Prend en entrée les MFCCs extraits.
Utilise une loss CTC (Connectionist Temporal Classification).
Enregistre le modèle dans le dossier. models

python scripts/train_model.py

Décodage

Ce module utilise le modèle entraîné pour transcrire des fichiers audio :

Charge les MFCCs des fichiers audio.
Applique le modèle pour produire une séquence de caractères.

python scripts/decode_audio.py

Évaluation

Ce module évalue les transcriptions avec des métriques :

WER (Word Error Rate).
CER (Character Error Rate).

python scripts/evaluate.py

Détails Techniques

Pipeline Principal

Le script principal main.py exécute le pipeline complet :

from scripts import preprocess, extract_features, train_model, decode_audio, evaluate

preprocess(config, segment_audio=True)
extract_features(config)
train_model(config)
decode_audio(config)
evaluate(config)

Chaque étape est modulable et peut être utilisée indépendamment.

Configuration

Les chemins et paramètres sont définis dans : config.yaml

paths:
  raw_audio: "data/raw"
  processed_audio: "data/processed"
  transcripts: "data/transcripts"
  features: "features"
  models: "models/trained_model.pth"
  decoded_texts: "results/decoded_texts"

training:
  batch_size: 32
  epochs: 20
  learning_rate: 0.001
  input_dim: 13
  hidden_dim: 128
  output_dim: 29

Contact

Pour toute question ou assistance, contactez-nous via notre dépôt GitHub