IRaMuTeQ Lite

IRAMUTEQ LITE

Tentative de reproduction de la CHD du (vrai !) logiciel IRaMuTeQ (IRaMuTeQ - Pierre Ratinaud - LERASS)

En développement : Analyse Discriminante Linéaire (LDA), analyse de similitude de Vergès

Pour d'autres scripts/appli, vous pouvez consulter mon site : www.codeandcortex.fr

v0_3beta - 09-04-2026

Analyse

Analyse du corpus

Synthèse du corpus

Loi de Zipf

Étapes de l'analyse

Journal debug

[info] Prêt.

Annotation

Annotation du corpus

Import de add_expression_fr.csv, prévisualisation annotée et gestion du dictionnaire d'expressions de session.

Aide : le plus simple est de surligner, copier puis coller les expressions à transformer dans le dictionnaire. Par exemple, intelligence artificielle deviendra intelligence_artificielle.

Vous pouvez enregistrer votre dictionnaire d'expressions, mais vous pouvez également ajuster (supprimer) et enrichir (ajouter) un dictionnaire déjà annoté.

Vous pouvez réimporter un fichier d'expressions déjà annoté ; il doit impérativement être nommé add_expression_fr.csv.

Texte sélectionné (dic_mot) Normalisation (dic_norm) Type morpho (dic_morpho) Si vous n'ajoutez pas de catégorie morphosyntaxique, le champ restera vide et l'expression sera interprétée comme « autre forme ».

Supprimer une entrée (dic_mot)

CHD

Résultats CHD

Paramétrage

Dendrogramme CHD

Résultat

Type de dendrogramme

Trajectoire

Trajectoire lexicale

Il n'est pas nécessaire de lancer une CHD avant ce test. La trajectoire lexicale est indépendante et compare des entretiens ordonnés dans le temps, soit dans leur forme lexicale brute, soit via une couche émotionnelle issue d'un lexique dédié.

Paramètres principaux : la variable étoilée de la trajectoire ordonne les entretiens, le filtre restreint le sous-corpus, l'ordre chronologique définit le sens de lecture, et le nombre de termes évolutifs règle combien de mots sont affichés par comparaison.

Ce test est indépendant de la CHD. Il réutilise le nettoyage courant de l'application et le dictionnaire lexique_fr.

Principe du test : chaque entretien est transformé en distribution lexicale sur un vocabulaire commun. La divergence de Jensen-Shannon mesure ensuite l'écart entre deux distributions. La comparaison à la première séance prend pour référence la première modalité dans l'ordre choisi.

Le filtrage morphosyntaxique réellement utilisé par la trajectoire lexicale est rappelé ci-dessus et réexporté dans le cadre de la trajectoire lexicale.

Couche active par défaut : trajectoire lexicale brute. En mode émotionnel, la divergence porte sur des distributions d'émotions reconnues par FEEL ou NRC, et non plus directement sur les mots.

Cadre de la trajectoire lexicale

Le tableau rappelle le cadre réel du calcul : variable de la trajectoire, ordre choisi, prétraitement, filtrage morphosyntaxique, filtre éventuel, nombre d'entretiens retenus, taille du vocabulaire commun et note exploratoire si le corpus est faible.

Indicateurs par entretien

Ordre indique la position de l'entretien dans la série. Unite correspond à la modalité suivie : séance, date, mois, année ou phase.

Tokens_total est le nombre total de mots observés après prétraitement. Types_total est le nombre de mots différents.

Entropie_lexicale mesure la dispersion interne du vocabulaire de la séance. Entropie_normalisee ramène cette dispersion entre 0 et 1 pour comparer plus facilement les entretiens. Redondance_relative vaut 1 - entropie normalisée : plus elle est élevée, plus le discours est concentré sur un lexique resserré et répétitif.

Courbe de l'entropie lexicale

Courbe de la redondance relative

La redondance relative mesure le degré de concentration du discours. Plus elle est élevée, plus le vocabulaire est resserré autour d'un nombre limité de mots ou de formes récurrentes.

Multimodale

Analyse Multimodale

Préparation d'une chaîne multimodale synchronisant texte, audio et vidéo. Le téléchargement YouTube repose sur yt-dlp et peut utiliser un fichier cookies.txt ou .cookies exporté depuis l'extension Cookies.

Téléchargement de la vidéo YouTube

URL YouTube

Si la vidéo a besoin d'une session connectée, ajoutez un fichier exporté par l'extension Cookies au format cookies.txt ou .cookies.

Aucune URL YouTube renseignée.

Aucun fichier cookies sélectionné.

Importer un fichier vidéo

Formats conseillés : mp4, mov, mkv, avi ou webm.

Aucun fichier vidéo sélectionné.

Dossier de sortie multimodal

Choisissez ici le dossier où seront écrits les exports multimodaux. Chaque traitement créera ensuite ses sous-dossiers alignement, audio ou mouvements.

Dossier par défaut : multimodale/exports.

Fichiers à préparer

Vidéo MP4 Piste MP3 Piste WAV Segments de texte avec timestamp Images extraites

Les images utilisent la cadence choisie ci-dessous : 1 fps ou 25 fps.

L’option segments de texte avec timestamp lance automatiquement la transcription Whisper et exporte un fichier de segments horodatés réutilisable ensuite dans l’onglet Alignement.

Paramètres d'extraction des images

Cadence d'extraction

1 image par seconde 25 images par seconde

Qualité des images

Définition standard (1024 px de large) Très haute définition (1920 px de large)

Périmètre d'extraction

Début de l'extraction

Heure Minutes Secondes

Fin de l'extraction

Heure Minutes Secondes

Extraction configurée sur toute la vidéo, en 1 image par seconde, en définition standard (1024 px).

Préparation des sources multimodales

Prêt.

Analyse du corpus

Synthèse du corpus

Loi de Zipf

Étapes de l'analyse

Journal debug

Corpus importé

Prévisualisation

Annotation du corpus

Résultats CHD

Dendrogramme CHD

Résultat

Stats CHD

Tableaux statistiques CHD par classe

Concordancier

Résultat

Nuages de mots CHD

Résultat

Analyse factorielle des correspondances

AFC des classes

AFC des termes

Modalités et valeurs propres

Table des mots projetés

Trajectoire lexicale

Cadre de la trajectoire lexicale

Indicateurs par entretien

Courbe de l'entropie lexicale

Courbe de la redondance relative

Profils émotionnels

Résumé de valence positive / négative

Divergence de Jensen-Shannon entre séances successives

Divergence de Jensen-Shannon par rapport à la première séance

Détection explicite des ruptures discursives

Termes qui évoluent entre les séances

Contribution des termes à la divergence

Matrice de divergence de Jensen-Shannon

Frise des émergences

Barres divergentes des termes évolutifs

Waterfall des contributions

Nuages de mots par entretien

Analyse LDA

Tableau général des probabilités par mot

Tableaux par topic

Détail par topic

Segments de texte par topic

Visualisation pyLDAvis

Heatmap mots × topics

Réseau topics × mots

Nuages de mots par topic

Analyse de similitudes

Résultat

Analyse Multimodale

Téléchargement de la vidéo YouTube

Importer un fichier vidéo

Dossier de sortie multimodal

Fichiers à préparer

Paramètres d'extraction des images

Préparation des sources multimodales

Analyse audio

Importer un fichier audio

Filtrage des amplitudes atypiques

Lancement de l'analyse audio

Résultats audio affichés ci-dessous

1. Silences détectés

2. Débit de parole

3. Anomalies d'amplitude

4. Concordancier synchronisé

Segments transcrits

Analyse des images

Séquence d'images

Mode anatomique

Lancement de l'analyse des mouvements

Résultats de l'analyse des images

Alignement automatique

Raccourcis d'alignement

Indicateurs à superposer

Alignement images, texte et horodatage

CSV des segments (optionnel)

Synchronisation multimodale

Résultats d'alignement

Comparaison de deux vidéos