Séance 22 novembre

Ce post est consacré au derniers mises à jour de mon script:

  • J´ai rajouté dans mon dossier URLS les deux fichiers qui contiennent les URLS en français et les URLS en khmer (ces derniers correspondants à la langue de ma collège). Quand j´essayé d´exécuter mon script avec les liens en français je trouvais un erreur bizarre: il ne lisait pas tout le code et, en fait, il prenait la moitié du lien en français. Finalement, c´était le prof qui m´a donné un coup de main…Si on faisait cat -A dans le fichier qui contient les URLS en français on voyait qu´à la fin de chaque lien on trouvait : $^M. Cela corresponde à une saute de ligne dans le système d´exploitation Windows…mais moi, je travaille sur Linux. C´est à ce moment-là que je me suis rendue compte que en effet ma collège et moi, nous avions travaillé ensemble pour chercher des URLS en français; elle, qui travaille sous Windows, m´avait envoyé le fichier final,  lequel j´avais mis dans on dossier URLS. Au moment d´exécuter mon script, il comprenait pas les sautes de ligne de Windows. J´ai réglé cela avec la commande :

  tr -d ‘Ctrl + V + M’ fichier_urls_fr 

(Crtl + V + M c´est ce qu´il faut taper)

 

  • J´ai rajouté la colonne INDEX, qui contient un fichier pour chaque URL où on trouve l´index des mots de chaque fichier dump. On utilisera ce fichier index plus tard pour les requêtes sur le corpus. Voici comme j´ai réussi à créer ces fichiers:

index

  • Après, comme j´avais déjà commenté dans un post récent, on veut que dans chaque table le motif qui apparaît soit celui correspondant à la langue des URLs du tableau. Pour cela, j´ai crée un autre dossier qui s´appelle MOTIFS, qui contient trois fichiers, chacun avec le motif dans une langue.  Premièrement, on a annonce l´existence de ce dossier tout au début du script:

readmotif

Après, on a crée un boucle qu´on a inséré avant chaque fois qu´on allait chercher notre motif dans les dump texts pour créer les fichiers contexte. De cette façon, dans la colonne MOTIF, on ne verra apparaître que le motif qui corresponde a la langue du tableau particulier. Ci-dessous le boucle que j´ai créé:

buclemotif

Et ici-dessous ce qui contient chaque fichier: notre motif en espagnol, en français et en khmer:

espagnol

francais

kamer

Les motifs décrits sont des expressions régulières qui seront, selon le cas, la valeur de la variable $motif.

En dernier lieu, j´ai aussi essayé de créer un fichier qui contienne tous les fichier dumps concaténés. On a vu comment faire cela lors de la dernière séance, mais dans mon script, il crée seulement le fichier complet de la première table. Il faudra corriger cela pour la prochaine fois. De toute façon, je laisse une capture de processus que j´ai suivi:

concatenationdump

Je vais montrer à quoi ressemblent mes tableaux jusqu´au moment :

tablees

tablefr.png

tablekr

À bientôt!

Elvira

Laisser un commentaire

Propulsé par WordPress.com.

Retour en haut ↑