L'annotation syntaxique pour le Bambara
La présentation est consacrée aux premières étapes du développement du corpus syntaxique (treebank) du Bambara. Le bambara est une langue mandingue parlée au Mali qui possède d’un corpus avec l’annotation morphologique. Le schéma d'annotation syntaxique est basé sur le modèle Universal Dependencies, un projet fournissant une annotation syntaxique inter-linguistique pour différentes langues. Dans la présentation, les problèmes de conversion de données sont abordés avec une attention particulière au choix des étiquettes des parties de discours et des relations syntaxiques.
XLFG
XLFG est un logiciel d’analyse syntaxique pour grammaires lexicales fonctionnelles (LFG - Bresnan et al. 1982).
LFG offre une analyse de la langue qui ne se base ni sur une relation biunivoque entre une structure profonde et une structure de surface, ni sur une construction combinatoire d’éléments atomiques. Les analyses LFG sont des structures syntagmatiques, des structures fonctionnelles, et des structures argumentales. Elles offrent donc trois niveaux d’analyse syntaxique relativement indépendants.
L’intérêt principal d’XLFG est d’analyser en temps optimal des phrases complexes avec une grammaire LFG, et de fournir si nécessaire les raisons de l’agrammaticalité de certaines phrases. Par exemple en détectant des ruptures de contraintes d’accord, de valence, de colocation, ou de projection lexicale.
Une interface riche (xlfg.org) a été proposée en ligne qui permet aux chercheurs, étudiants et enseignants de créer des ateliers d’écriture de grammaires dans différentes langues.
Dans cet exposé, nous expliquerons rapidement comment nous avons résolu l’analyse de phrases dont l’ambiguïté rend inopérante toute tentative classique. Cela passe nécessairement par la définition d’une nouvelle sémantique du système formel de LFG. Nous n’aurons pas le temps de détailler ceci, mais en revanche, nous montrerons l’application par cette sémantique de quelques hypothèses théoriques, dont l’analyse de coordonnées elliptiques en français ou l’analyse des particules verbales en anglais.
On Categorial Grammatical Inference and Logical Information Systems.
We shall consider several classes of categorial grammars and discuss their learnability. We consider learning as a symbolic issue in an unsupervised setting, from raw or from structured data and treebanks for some variants of Lambek grammars and of categorial dependency grammars. In that perspective, we discuss for these frameworks different type constructors and structures, some limitations (negative results) but also some algorithms (positive results) under some hypothesis. On the experimental side, we also consider the Logical Information Systems approach, that allows for navigation, querying, updating, and analysis of heterogeneous data collections where data are given (logical) descriptors. Categorial grammars can be seen as a particular case of Logical Information System.
Un treebank dépendanciel du Naija
Le développement d'un treebank du Naija parlé (le pidgincréole du Nigéria) dans le cadre du projet ANR NaijaSynCor http://naijasyncor.huma-num.fr/ joue un rôle dans les enjeux de linguistique politiques du pays, mais il est aussi intéressant d'un point de vue tal et linguistique : avec ces 475k mots, le treebank est le plus grand treebank oral existant et son développement constituait des défis tal intéressant. La qualité et la cohérence du treebank étaient assurées par un entraînement régulier d'un parser neuronal (bootstrapping), par des corrections globales à l'aide des grammaires de réécriture de graphe (Grew) et par des extractions, corrections et réintroductions récurrentes de lexiques. Actuellement, nous travaillons au développement d'un dictionnaire collaboratif (wiktionnaire) dont la structure et des exemples sont extraits directement du treebank.
Sylvain Loiseau (LACITO)
Les gloses interlinéaires : de la description au corpus en typologie linguistique
Les gloses interlinéaires sont un format pour représenter l'analyse morphosyntaxique d'un texte ou d'un énoncé. Ce format joue un rôle central dans la documentation et la description des langues du monde ainsi qu'en typologie linguistique. Il est destiné à l'origine à représenter une analyse pour justifier une argumentation plus qu'à être une structure de données permettant des traitements automatiques. Cependant de vastes corpus de textes annotés dans ce format sont aujourd'hui disponibles. L'écosystème pour le traitement, la publication ou l'analyse automatique de ces données est encore peu développé. Cette présentation discutera des possibilités offertes par ces données, des outils disponible pour les analyser de façon plus systématique, et enfin des briques logicielles manquantes pour les faire accéder à des méthodologies de type linguistique de corpus (notamment en termes de modélisation quantitative).
Construire un treebank pour une langue peu dotée : ce que nous apprenent les cas du serbe et de l’occitan
Je propose de partager mon expérience sur deux campagnes de création de treebank que j’ai menées jusqu’ici, la première pour le serbe et la deuxième pour l’occitan. Les deux langues étant peu dotées en ressources du TAL librement disponibles au moment de démarrage, ces projets ont été en grande partie basés sur l’annotation manuelle. Dans un tel contexte, comment rendre le travail des annotateurs humains aussi facile et rapide que possible, tout en préservant la qualité des annotations produites ? Est-il utile de chercher à exploiter les ressources existantes pour des langues proches ? Vaut-il mieux définir un schéma d’annotation propre à la langue en question ou en adopter un déjà existant ? Je présente les solutions mises en place dans chacune des campagnes, leurs résultats, mais aussi les questionnements qu’elles ont suscités.
Online user: 12 | Privacy |