Installation
Pour installer ORATIS, suivez les étapes ci-dessous :
- Clonez le dépôt ou téléchargez-le directement :
- Accédez au répertoire :
- Installez les dépendances :
- Assurez-vous que Python 3.8 ou une version ultérieure est installé.
git clone
cd ORATIS
pip install -r requirements.txt
Utilisation
Voici comment utiliser le pipeline ORATIS :
Important : Le modèle est fourni sans données préalablement entraînées. Vous devez lui apprendre à partir de vos propres fichiers audio et transcriptions.
- Placez vos fichiers audio (formats supportés : .wav ou .mp3) dans le dossier :
data/raw
- Créez des fichiers de retranscriptions correspondants avec exactement le même nom que les fichiers audio dans :
data/transcripts
- Lancez le pipeline pour préparer et entraîner le modèle :
- Segmente les fichiers audio en portions de 30 secondes.
--segment yes
- Utilise les fichiers audio dans leur intégralité.
--segment no
python main.py
Attention : Assurez-vous que chaque fichier audio a une retranscription correspondante pour éviter des erreurs.
Options disponibles :
Attention : L'option peut rencontrer des problèmes ou produire des résultats inattendus. Utilisez avec précaution.
Modules
Prétraitement
Le module de prétraitement nettoie et normalise les fichiers audio :
- Convertit les fichiers en mono.
- Rééchantillonne à 16kHz.
- Optionnel : Segmente les fichiers en morceaux de 30 secondes.
python scripts/preprocess.py --segment yes
Extraction des caractéristiques
Ce module extrait des MFCCs (Mel Frequency Cepstral Coefficients) pour représenter les données audio :
- Utilise la bibliothèque
librosa
- Extrait 13 coefficients par fenêtre temporelle.
python scripts/extract_features.py
Entraînement du modèle
Ce module entraîne un modèle LSTM :
- Prend en entrée les MFCCs extraits.
- Utilise une loss CTC (Connectionist Temporal Classification).
- Enregistre le modèle dans le dossier.
models
python scripts/train_model.py
Décodage
Ce module utilise le modèle entraîné pour transcrire des fichiers audio :
- Charge les MFCCs des fichiers audio.
- Applique le modèle pour produire une séquence de caractères.
python scripts/decode_audio.py
Évaluation
Ce module évalue les transcriptions avec des métriques :
- WER (Word Error Rate).
- CER (Character Error Rate).
python scripts/evaluate.py
Détails Techniques
Pipeline Principal
Le script principal main.py
exécute le pipeline complet :
from scripts import preprocess, extract_features, train_model, decode_audio, evaluate
preprocess(config, segment_audio=True)
extract_features(config)
train_model(config)
decode_audio(config)
evaluate(config)
Chaque étape est modulable et peut être utilisée indépendamment.
Configuration
Les chemins et paramètres sont définis dans : config.yaml
paths:
raw_audio: "data/raw"
processed_audio: "data/processed"
transcripts: "data/transcripts"
features: "features"
models: "models/trained_model.pth"
decoded_texts: "results/decoded_texts"
training:
batch_size: 32
epochs: 20
learning_rate: 0.001
input_dim: 13
hidden_dim: 128
output_dim: 29
Contact
Pour toute question ou assistance, contactez-nous via notre dépôt GitHub