ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 1 Ressources Linguistiques Bonnes pratiques pour l'avenir et Outils pour la fourniture.

Slides:



Advertisements
Similar presentations
1 Le C.C.F. en Baccalauréat Professionnel T.I.S.E.C. T.I.S.E.C. T.M.S.E.C T.M.S.E.C T.F.C.A T.F.C.A.
Advertisements

Vocabulaire commun An iTutor Basic French Vocabulary.
Perles d’avocats Voici une sélection de questions réellement posées à des témoins par des avocats durant des procès aux Etats-Unis et, dans certains.
TICE 2 ième Semestre Fonctions « logiques ». Février 2006TICE 2ième Semestre - Les fonctions logiques2 Petits rappels… Une formule est toujours de la.
2 Mesdames, passez votre commande au Père Noël! 1 3 sortie
Cadre européen commun de référence pour les langues : Apprendre, Enseigner, Évaluer Quels contenus pour quels usages ? LH.
Colloque AQIFGA Hissons les voiles! Mélanie Bergeron, chargée de projets Jean-Simon Labrecque, directeur de production Marcelle Parr, conseillère.
Histoire et dynamique des espaces anglophones: du réel au virtuel (Equipe d’accueil 4086)
Gestion de patrimoine professionnelle Le Compte-conseil Pour tous vos besoins de placement Le Compte-conseil est un compte non discrétionnaire fondé sur.
HOTSPOTS WIFI CIGALE Présentation du service de Wifi Territorial.
INSTITUT NATIONAL DE LA STATISTIQUE DU CAMEROUN COMMISSION ECONOMIQUES DES NATIONS UNIES POUR L’AFRIQUE Port Louis juillet 2010.
 Assistant d’équipe  Assistant de groupe de projet  Assistant Ressources Humaines  Assistant commercial  Assistant de direction  Assistant en.
Michel Pellicioli Les métiers d’accompagnement de la recherche Situation de l’IPHC.
BTS Assistant de Direction BTS Assistant Secrétaire Trilingue.
Leçon 8: Corps ronds Géométries et communication graphique Edouard Rivière-Lorphèvre 1.
Beicu Vlad-Daniel-Cristian G ă lbenu George Alexandru Ion Silviu Andrei Oprea Ionu Alin Pris ă caru Ana-Maria Les nouvelles technologies De quelle manière.
1 Cours UBO 2007 UE – BASES DE DONNEES OCEANOGRAPHIQUES Le portail NAUTILUS accès en ligne aux données et site WEB du SISMER Michèle FICHAUT.
ESPACE NUMERIQUE PERSONNEL (ex-coffre fort numérique) 1 PRESENTATION.
MIGRATION VERS ATRIUM Présentation Etapes Attentes / Objectifs.
L’action à conduire en responsabilité Un élément déterminant de l’année de stage Quelques éléments de présentation.
IFT 703 Informatique cognitive Les processus subsymboliques de ACT-R André Mayers Automne
Enregistrement de la paie Gestion sociale P2 LYCEE CAMUS Nantes.
« M é thodologie de collecte des donn é es en FOS » Témoignage a posteriori R. Bouchard (Pr. Emérite Lyon 2)
Les nouvelles initiatives en faveur des milieux d’accueil d’enfants Période Par le Fonds social Milieu d’Accueil d’Enfants.
Réunion d’échange CSTL 2014 Soutien psychosocial Southern Sun O.R. Tambo - Johannesburg, Afrique du Sud novembre 2014.
Un bon cœur vaut plus que toutes les têtes du monde.
Le volet juridique des projets  Généralités  Contrat d’ingénierie industrielle  Contrat informatiques.
COOPERATION TERRITORIALE EUROPEENNE RENCONTRE INSTITUTIONNELLE INTERCOMMUNALE TRANSFRONTALIERE AJACCIO 12 MAI 2016.
Pour plus de modèles : Modèles Powerpoint PPT gratuitsModèles Powerpoint PPT gratuits Page 1 Définition d’une tâche complexe.
Représentations sociales du handicap à l’hôpital F. Lombard AFIPaeim Master Gestion et politiques du handicap (SciencesPo Paris 2015)
Titre: L’analyse des facteurs influents la production de coton en Afrique de l’Ouest 1. Les contraintes de la filière 2. La Dimension économétrique de.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE Les figures SEMBLABLES.
Les écarts entre prise de décision et dynamique de changement dans l’usage de l’information chiffrée à l’échelle de l’établissement scolaire Romuald Normand.
Monsieur le maître d’école. Monsieur le maître d’école. Une chanson de Bourvil en hommage à tous les maîtres des écoles. Une production de.
Mathématiques CST MODULE 6 L’optimisation de GRAPHES.
1Rectorat de Lille – DAFOP – CTPA DAFOP Délégation Académique à la formation des personnels Présentation du plan académique de formation des personnels.
26/09/2007 La participation des enfants de 10 à 18 ans 1 Introduction La participation: un des quatre principes fondamentaux de la CIDE Les enfants sont-ils.
Fonctionnement de notre nouvelle Q-PCR
Accélérateur de projets. PONT SALOMON Notre stratégie Deville Rectification est le leader sur le marché de la plaque usinée en acier et en aluminium.
Le lion De Candice 1. L’identité du lion : Le mâle s’appelle le lion, la femelle la lionne et le petit le lionceau. Le lion pèse 150 kg à 220 kg. Il mesure.
Utilisation du spectrophotomètre. Allumer l’appareil Puis allumer l’ordinateur (commun au spectro et à la Q-PCR) Utilisation du spectrophotomètre Ouvrir.
Février 2014 GPU / Xeon Phi Calcul de fonction de corrélation à 2 points sur un grand nombre de galaxies Image : collaboration SDSS Problème : pour effectuer.
Présente ….. Accédez ici à votre compte une fois inscrit(e) Nouvel utilisateur? Créez votre compte
M ODÉLISATION UML.  Introduction  Modélisation Objet  Types de relation  Héritage  Association  Contenance  Diagrammes UML  Diagramme d’objets.
LA ROUTE DU MEUBLE. Type d’information Informations Type d’activité commerciale Aménagement intérieur et extérieur : meubles, cuisines, salons, cheminées,
1 Administration et paramétrage de K-d’école Module 8 1.Gestion de l’annuaire 2.Autres outils d’administration de l’annuaire 3.Gestion des services internes.
La tuberculose anale: à propos de 4 cas F. Emouhafid, Y. Lbrahmi,M
1 Session d’Information 18 avril 2013 Appel à Propositions Ouvert EuropeAid/134309/L/ACT/TN - Lot 1 EuropeAid/134204/L/ACT/TN - Lot 2 "Appui aux initiatives.
AMPERES Enseigner de façon dynamique le produit scalaire en 1re S ?
1 TRAAM 2011 Domaine d’application Confort et domotique Domaine d’application Confort et domotique Présenté Par Grégory ANGUENOT.
Première rencontre internationale des territoires de coresponsabilité Intervenants : M. RICHERT – Mme ROESSLINGER-KACEM – Mlle BOUFELAAS Vendredi 25 septembre.
Association canadienne des optométristes Myopie. La myopie est un problème visuel qui fait que l’œil peut voir clairement les objets proches, mais ne.
IFT359 – Programmation fonctionnelle Thème 10 Extension syntaxique II pattern  motif template  gabarit 1.
En informatique dans les nuages, des éléments de l'informatique interne deviennent un service que les entreprises et les administrations louent comme.
Développement Durable et Renforcement des Capacités du Gouvernement Prof. Dr. Árpád Kovács Pr é sident du Bureau d’Audit d’Etat de la Hongrie Pr é sident.
Enseignement d’exploration Littérature et société Jeudi 14 octobre 2010 LPO Coeffin Formation académique Académie de la Guadeloupe.
Réunion départementale Mayenne VENDREDI 22 JANVIER À 9H30 AU CH DE MAYENNE.
TP2: Statistique & Probabilité. avec f i fréquence absolue (cf. WONNACOTT et WONNACOTT, 4e éd., chapitre 2) Une station balnéaire décide de réaliser une.
Changement de sonorité Utilisation de S.A., etc. Edition de multi-pads.
L’intégration de critères ESG dans la Politique d’Investissement 10 JUIN 2016.
Un module éducatif du district de l’est du Canada et des Caraïbes
Tâche 4 Quelques propositions méthodologiques pour suivre le(s) cycle(s) de vie d’une ressource Séminaire ReVEA, juillet 2015, Loriol Catherine Loisy et.
CopiesEnLigne (CEL) TUTORIEL INTERACTIF
Impliquer les communautés et les familles dans la réponse au VIH/sida : stratégie de pérennisation des activités VIH en Côte d’Ivoire Lucile KONAN Chargée.
Les résultats obtenus de l'enquête sur les médias sont exprimés avec porcentages pour faciliter son observation et analyse.
Qualité des services de santé Ontario Le conseiller provincial en qualité des soins de santé en Ontario Maillons santé : Extraits du rapport.
Nahela Robert & Lisa Goll. Qu'est ce que Twitter ? Twitter est un réseau social, permettant de suivre les actualités d’une personne, d’une association,
Les 8 types de nuages les plus spectaculaires qui flottent au- dessus de votre tête par Paulajo.
L’objectif est de connaitre l’anatomie de l’abdomen et d’en prendre en charge les pathologies. Traumatisme de l’abdomen.Objectifs  Introduction  Rappels.
Capitalize on your data Best Practices for the future Open Issues on how to contribute data To share with you what we learnt from the training workshops.
Presentation transcript:

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 1 Ressources Linguistiques Bonnes pratiques pour l'avenir et Outils pour la fourniture de données Khalid Choukri (ELDA)

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 2 Nous avons vu l'importance des données pour la Traduction Automatique –Apprentissage par les données (Data Driven Paradigm) Les données sont nécessaires dans toutes les langues (s) Où peut-on découvrir des données: Les acteurs du secteur public –Données Visibles par exemple des données Web (pages HTML, rapports, etc.) –Données Invisibles: archives, web caché (profond), dépôts/référentiels internes –Par le biais des prestataires de services linguistiques Que peut-on faire pour capitaliser sur ces actifs (les données) –Notre expérience avec les "plans de gestion des données" (Data Management Plan) –Pour un partage durable et pérenne aperçu

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 3 PSI vs Licence Illustration de la procédure flux de données Identification & Sélection de données documenta tion Nettoyage& Conversion (contenu, format) Validation Traitements ( e.g. Alignement ) Description & Stockage détermination Statut Légal Téléchargement Dépôt pérenne Partage Vie privée (i.e. anonymisation) PartenariatELRC Secteur Public SP/ELRC / EC ex. Données existantes  RLs (Ressources Linguistiques) la chaîne de valeur

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 4 Analyser toutes les phases de développement de données Sur la base de 1), créer un plan de gestion des données considérant les aspects –Juridique, flux de données, formats, publication comme PSI, –Relations avec les sous-traitants et autres partenaires Envisager la pérennité des données –Spécification des données, la production, la validation, le partage et la distribution, l'entretien et la préservation Utiliser le Web comme un canal supplémentaire de publication (voir comment ELRC peut aider) Des données nouvelles Bonnes pratiques pour la gestion de données

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 5 Restrictions vs PSI vs Licence Illustration de la procédure flux de données Expression des besoins Traitements ( e.g. Alignement ) Description & Documentation Plans pour le statut légal futur Téléchargement Dépôt pérenne Partage Plan pour une période d'embargo (avant la diffusion) Chaine de Valeur Spécification Phase de Production Validation Données nouvelles  RL (Ressources Linguistiques) Vie privée (i.e. anonymisation) PartenariatELRC Secteur Public SP/ELRC / EC Plan de gestion de données // data management plan (DMP)

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 6 Anticiper toutes les questions juridiques potentielles –Veiller à ce que vos droits de propriété intellectuelle de données sont effacée –Veiller à ce que les parties productrices adhèrent à votre droite "propriété" (par exemple, les relations avec les LSP: assurez-vous de garder tous les droits –Veiller à ce que tous les documents intermédiaires produits vous appartiennent (par exemple des mémoires de traduction) –Vérifiez les questions de confidentialité à l'avance et prévoir plan d'anonymisation si nécessaire Définir votre plan de gestion par rapport à la tâche: –Cela doit tenir compte de l'objectif principal (par exemple production de documents, traduction de doc, etc.) Plan de réorientation/réaffectation –Convertir la documentation en ressource linguistiques pour les Technologies de la langue –Demander les données dans un format éditable Pas seulement des fichiers PDF, mais aussi TMX / Word / XML / TXT/… –Assurez-vous que vos archivages utilisent des "medium" à jour (CD?) –Prévoir une publication future et le partage de l'information (PSI) Etapes de Création d'un DMP

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 7 Eléments Clés d'un plan de gestion de données Diffusion Partage Diffusion Partage Le cycle de vie des données

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 8 Spécifications –Veiller à ce que les documents originaux soient décrits –Veiller à ce que vos besoins soient décrits –Anticiper ce que vous pouvez obtenir des ressources précieuses (un effet secondaire) Production –Que ce soit en interne ou externalisé, vérifier que les outils utilisés sont compatibles avec vos besoins et au-delà (par exemple CAT, MT, etc.) –Demandez la liste des outils et des logiciels de production –Vérifiez si vous pouvez obtenir des textes dans les différentes langues, alignés les uns aux autres –Gardez une claire bonne documentation des données en cours de production (méta-données) Les principaux éléments d'un plan de gestion des données

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 9 Validation –En plus de votre Contrôle Qualité, vous pouvez utiliser certains outils de validation e.g. analyse cohérence lexicale, analyse syntaxique, etc. –Souvent des outils libre de droit, open-source Partage / diffusion –Assurez vous que vos données relève bien de la directive PSI telle que transposée dans la législation de votre pays –Envisagez une licence ouverte et permissive s'il en existe pas une dans votre administration –Le respect/la protection de la vie privée est crucial, planifiez les procédures nécessaires pour gérer cela Maintenance / préservation –La meilleure option est souvent partenariat avec un centre de données (ELRA) –Voir dans le présent cadre comment ELRC peut vous aider –Il y a aussi l' «option» du portail de données ouvertes national –mettre les données sur Internet est rarement suffisant (référencement, pérennisation) Les principaux éléments d'un plan de gestion des données

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 10 Identification des sources, l'identification et la sélection des ensembles de données (données brutes) –Les données peuvent être obtenues à partir des sources visibles (par exemple récoltées sur le Web), –Les données peuvent être remises par les acteurs du secteur public, –Les acteurs du secteur public peuvent stimuler l'identification des sources visibles, Le traitement indiqué ci-dessus peut être réalisé en coopération par le ELRC et le fournisseur de données Les actions de coopérations

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 11 Procédure de partage de données: –Données fournies à la demande vs ouvertes par défaut –Si pas ouvertes et requièrent une Licence ELRC peut fournir une assistance juridique Les modèles d'accord et de licence –Licences "Open Gouvernement" –Licences standard pour une réutilisation Eléments juridiques

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 12 Vous connaissez bien vos données: Visibles et invisibles Accès aux archives, web caché/profond, etc. est souvent impossible de l'extérieur Toutes les données ne sont pas déjà en PSI ou sous licence permissive L'accès à des formes dérivées (par exemple, PDF) est moins efficace que l'accès aux contenus "source" (interne). Votre Implication est essentielle

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 13 Re-"cibler" /Réorienter les données existantes (traductions humaines) est la meilleure façon d'améliorer la qualité de la traduction automatique Le paradigme "apprentissage par les données" fourni un moyen efficace de tirer parti de la valeur des ressources existantes ELRC peut aider à l'examen de la pertinence des données (à toutes les phases) Ne pas sous-estimer la valeur de vos ressources linguistiques, prévoir un plan de gestion des données Conclusions

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 14 Helpdesk et Support

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 15 Portail ELRC Screen shot goes here

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 16 Portail ELRC Screen shot goes here

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 17 Portail ELRC, le Forum Screen shot goes here

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 18 Portail ELRC … Ressources Screen shot goes here

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 19 Dépôt ELRC (ELRC Repository) Comment Contribuer Ressources Linguistiques (1/7) Choisir "Register" pour créer un compte

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 20 Remplissez le formulaire Lisez les conditions d'utilisation et cliquez sur "Accepter" Cliquez sur le bouton Créer compte Comment contribuer des données (2/7) 20

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 21 Votre demande est reconnue et un d'activation est envoyé à l'adresse que vous avez indiquée Vérifiez votre et cliquez sur le lien d'activation Comment contribuer des données (3/7) 21

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 22 Une fois sur le site, documenter l'ensemble des données Comment contribuer des données (5/7) 22

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 23 Choisir "Parcourir" sur votre ordinateur pour trouver le fichier.zip contenant vos données çà télécharger Cliquez sur "Sent" Comment contribuer des données (6/7) 23

ELRC Atelier Belgique 2016/04/13Langues et Technologies de la Langue 24 Comment soumettre vos données "Sources" ELRC Data Management Team Provide Data to ELRC Upload Data… Option 1: Option 2: Option 3: Send your data on a physical medium Use a customized deposit account Option 1 Option 2 Option 3 Submit Source