Progrès dans le script

Comme ma collègue vient de commenter, maintenant notre groupe n´est formé que par Margaux et moi. Nous allons donc introduire le français comme troisième langue dans notre projet.

En ce qui concerne le script, heuresement, j´ai avancé avec mon script. Je voudrais remarquer que la plupart des problèmes étaient causés par des erreurs de syntaxe et « d´ortographie ». Il faut être vraiment minutieux quand on écrit un script…

À part, j´ai aussi eu des autres difficultés…

Par exemple, pour un de mes URL, la variable encodage était « UTF-8UTF-8 »: utfdoubleEn fait, c´était de UTF-8, mais une chaîne répété. Qu´est-ce qu´on a fait? Restraindre la commande egrep. Finalement, la commande pour trouver l´encodage avec curl est celle-ci: egrep -i  « charset=[^>] ». C´est-à-dire, on ne veut que récuperer la chaîne des caractères qui se trouve entre le symbole « = » et le chevron « > » qui ferme la balise charset.

Un autre erreur (très bête, je dois l´avouer), à cause d´un simple tiret. La console envoyait le message « Can´t acces file… » simplement parce que j´avais oublié de mettre le tiret avant « display _code ». Encore une fois, il faut être très  minutieux.

curl.erreur

Une fois que j´avais arrivé à téléchargé tous les URLs et que j´avais réussi à transcoder les encodages qui n´étaient pas en UTF-8, j´ai commencé avec les contextes, dont j´avais parlé dans mon dernier post.

Premièrement, j´ai déclaré le motif dans le fichier parametres. Ce motif est une expression régulières: « mujer(es? ». Cette expression va trouver en espagnol le mot femme en singulier et pluriel.

Une fois qu´on a déclaré le mot choisi comme motif dans notre fichier parametres il faut aussi l´annoncer dans notre script (read motif). On a donc notre variable $motif, qui corresponde au mot « mujer(es) » (pour le moment, puisqu´il faudra ajouter aussi le mot « femme » en khmer et en français, pour que egrep cherche notre mot dans les liens des autres langues).

J´ai utilisé la commande egrep pour chercher le motif et stocker ces lignes dans un nouveau fichier dans le dossier CONTEXTES. J´ai aussi ajouté une autre colonne où j´ai mis le nombre de fois qu´on trouve notre motif dans chaque URL, qui s´appelle $frequence.

Voici une capture du tableau que j´ai comme résultat (il y a un petit problème avec l´affichage du deuxième url…).

tableau

Jusqu´ici mes progrès avec le script…On continuera demain en cours.

À plus tard!

Elvira

Laisser un commentaire

Créez un site Web ou un blog gratuitement sur WordPress.com.

Retour en haut ↑