Documentation

Installation

Pour installer ORATIS, suivez les étapes ci-dessous :

  1. Clonez le dépôt ou téléchargez-le directement :
  2. git clone
  3. Accédez au répertoire :
  4. cd ORATIS
  5. Installez les dépendances :
  6. pip install -r requirements.txt
  7. Assurez-vous que Python 3.8 ou une version ultérieure est installé.

Utilisation

Voici comment utiliser le pipeline ORATIS :

Important : Le modèle est fourni sans données préalablement entraînées. Vous devez lui apprendre à partir de vos propres fichiers audio et transcriptions.

  1. Placez vos fichiers audio (formats supportés : .wav ou .mp3) dans le dossier : data/raw
  2. Créez des fichiers de retranscriptions correspondants avec exactement le même nom que les fichiers audio dans : data/transcripts
  3. Lancez le pipeline pour préparer et entraîner le modèle :
  4. python main.py

    Attention : Assurez-vous que chaque fichier audio a une retranscription correspondante pour éviter des erreurs.

    Options disponibles :

    • Segmente les fichiers audio en portions de 30 secondes. --segment yes
    • Attention : L'option peut rencontrer des problèmes ou produire des résultats inattendus. Utilisez avec précaution.

    • Utilise les fichiers audio dans leur intégralité. --segment no

Modules

Prétraitement

Le module de prétraitement nettoie et normalise les fichiers audio :

python scripts/preprocess.py --segment yes

Extraction des caractéristiques

Ce module extrait des MFCCs (Mel Frequency Cepstral Coefficients) pour représenter les données audio :

python scripts/extract_features.py

Entraînement du modèle

Ce module entraîne un modèle LSTM :

python scripts/train_model.py

Décodage

Ce module utilise le modèle entraîné pour transcrire des fichiers audio :

python scripts/decode_audio.py

Évaluation

Ce module évalue les transcriptions avec des métriques :

python scripts/evaluate.py

Détails Techniques

Pipeline Principal

Le script principal main.py exécute le pipeline complet :

from scripts import preprocess, extract_features, train_model, decode_audio, evaluate preprocess(config, segment_audio=True) extract_features(config) train_model(config) decode_audio(config) evaluate(config)

Chaque étape est modulable et peut être utilisée indépendamment.

Configuration

Les chemins et paramètres sont définis dans : config.yaml

paths: raw_audio: "data/raw" processed_audio: "data/processed" transcripts: "data/transcripts" features: "features" models: "models/trained_model.pth" decoded_texts: "results/decoded_texts" training: batch_size: 32 epochs: 20 learning_rate: 0.001 input_dim: 13 hidden_dim: 128 output_dim: 29

Contact

Pour toute question ou assistance, contactez-nous via notre dépôt GitHub