Dernières progressions

Comme j´avais expliqué lors de mon dernier post, j´avais essayé de faire une concaténation de tous mes fichiers DUMPS (divisés par langue) pour les utiliser plus tard dans l´analyse de corpus. J´avais crée un boucle pour ce but. Cependant, j´arrivais pas à obtenir mes fichiers « dumps-total ».

En fait, c´était plus facil que ce que j´avais pensé. On n´a pas besoin du boucle tout à fait. À chaque fois qu´on crée un fichier DUMP en utf-8, il suffit de stocker celui-ci dans notre fichier total qui contiendra tous les fichiers dumps de chaque langue. Alors, chaque fois que notre programme crée un fichier DUMP, on lui demande juste après de le placer dans notre fichier total. Celles-ci sont les lignes que j´ai rajouté a mon programme.

concatenationdump

Une fois qu´on a rajouté ces lignes, on exécute notre programme. On obtient ces trois nouveaux fichiers dans le dossier DUMP-TEXT:

total-fichiers

Une fois qu´on avait réussi, on a réalise qu´il faudrait faire la même chose avec les fichiers CONTEXTES pour créer un corpus pour le postérieur analyse. On a procédé de la même façon qu´avec la concaténation des fichiers DUMPS.

concat-contexte

De cette manière, on a crée deux corpus différents. On analysera le comportement de notre mot dans son contexte de réalisation. Ces deux fichiers qu´on a construit serviront pour décrire le contexte du mot choisi de deux manières différentes: avec le fichier CONTEXTE, on analyse un contexte reduit autour du mot; avec le fichier DUMP, on prend tout le contenu textuel qui contient le mot.

Maintenant, on va parler un peu de ce qu´on a vu lors de la dernière séance du 29 novembre.

On a parlé  des nuages et des arbres de mots. Pour montrer qu´est-ce que sont les arbres et les nuages on a créé notres propres arbres et nuages pour notre corpus (avant, on a « nettoyé » le corpus, on a utilisé le fichier qui contient tous les documents DUMPS).

mujer1mujer2

Ces deux images correspondent à l´arbre créé à partir du corpus en espagnol, qui montrent les 50 mots plus fréquents dans notre texte. On peut remarquer que dans notre texte on a le mot « mujer » 480 fois (190 pour le pluriel et 290 pour le singulier). On a créé l´arbre dans le site web TreeCloud : http://treecloud.univ-mlv.fr/index.php

Ensuite, on a aussi joué un peu avec les nuages dans le site Wordle (http://www.wordle.net/create). Voici ce qu´on a obtenu:

wordle_mujer_1wordle_mujer2

La taille du mot dépend de la fréquence de celle-ci dans le texte. On peut apercevoir notre mot dans la taille la plus grande (tant en singulier comme en pluriel: MUJER/ES).

On a obtenu un truc pareil avec le fichier en français…

wordle-femme

 

Après, on a parlé de deux outils dont on s´en servira pour l´analyse de corpus: Le Trameur et iTrameur. En bref, ceux sont des outils textométriques qui servent à explorer des corpus richement annotés. On va s´en servir des derniers fichiers créés avec tous les fichiers DUMPS et CONTEXTE pour analyser les corpus avec ces outils.

On en parlera plus dans la suivante séance.

À bientôt!

Elvira

Laisser un commentaire

Créez un site Web ou un blog gratuitement sur WordPress.com.

Retour en haut ↑