Séance du 22 Novembre : Résumé du cours

Nous avons tout d’abord parlé du rendu final qui est un site web.

Une fois que le script est terminé il va falloir faire notre site. Pour cela il faut télécharger un modèle de site web (free tamplate html sur google ou sur icampus).

Deuxièmement, nous avons vu comment concaténer les dumps texts et le contexte pour n’obtenir qu’une analyse en corpus pour le corpus de dump et le corpus de contexte.

Comment on fait ? :

Avec

  • la commande cat

ou

  • le programme concatfile qui est constitué d’une balise T qui contient un fichier de départ < T = « valeur »> 1_1.txt</T>.

On utilise :


for fichier in $(ls.|egrep « ^1-.+ ») ;

do cat $fichier; done Ou $(ls 1*);

do echo ‘’<file=$fichier> » >> TOUS_LES_DUMPS ; cat $fichier >> TOUS_LES_DUMPS ;

echo </file> »

done


Nous avons vu les différents métacaractères qui existent :

  • ^ : est la négation
  • * : n’importe qu’elle suite de caractère
  • [] : ensemble de caractère
  • ? : au moins un caractère

On peut retrouver un problème lorsque qu’on utilise la balise <file> car celle ci coupe le fichier lorsqu’il trouve des chevrons (<>). Alors il faut les enlever des fichiers en nettoyant le corpus de tous les chevrons qui ne sont pas des balises.

On utilise une expressions régulière avec la commande sed (stream editor ) qui permet de supprimer ce qu’on lui demande de supprimer sans devoir parcourir manuellement chaque fichier.


Sed –r ‘s/<[^>]*>//g’ for fichier in $(ls 1*);

do

echo ‘’<file=$fichier> » >> TOUS_LES_DUMPS ;

cat $fichier sed –r ‘s/<[^>]*>//g’ | tr –d ‘<’ | tr –d ‘>’ >> TOUS_LES_DUMPS ;

echo </file> »

done


 

à bientôt.

Laisser un commentaire

Propulsé par WordPress.com.

Retour en haut ↑