admin@ifra-nigeria.org | +234 (0)8.147.616.463

PhD position on information packaging of Naija. Paris, France and Ibadan, Nigeria

naijasyncorPhD title: The information Structure of Nigerian Pidgin, and its interface with syntax and prosody.
Sujet de thèse: Structure communicative du pidgin de l’anglais parlé au Nigéria. Interface avec la syntaxe et la prosodie.

Duration: 36 months; with 20 months in Ibadan, Nigeria.
Durée : 36 mois, dont 20 mois à Ibadan, Nigéria.

Supervisors: Bernard Caron (USR 3336 Ifra-Ibadan), Sylvain Kahane (Modyco, Université Paris Nanterre)

Financial conditions: To be confirmed (International Mobility Doctoral Contract financed by CNRS/InSHS)

Conditions financières: A confirmer (contrat doctoral de mobilité international finance par le CNRS/InSHS)

Les candidatures sont à envoyer à (Applications to be sent to): Bernard Caron This email address is being protected from spambots. You need JavaScript enabled to view it. (Resume+ support letter in French or English)

Application Deadline : June 11, 2017
Date limite de candidature: 11 juin, 2017

Scholarship starts: October 1, 2017
Début de la thèse : 1er Octobre 2017

This PhD will be prepared between France and Nigeria as part of the ANR project NaijaSynCor (A Corpus-based Macro-Syntactic Study of Naija, Nigerian Pidgin, 2017-2020).  The aim of the project is to describe the macrosyntax and prosody of Naija, aka Nigerian Pidgin. Naija is a language with an English lexical base, which has expanded recently all over Nigeria. Its grammar is quite different from that of English. Its expansion has been dramatic over the last 50 years, and it is already spoken by 80M people in Nigeria, with 5M native speakers (Caron 2009). As part of the project, we are developing a 500 word project annotated for syntax and prosody (with a semi-automatic annotation, and 100 kword corrected manually), using the annotation protocol developed in the Rhapsody ANR project for spoken French (2008-2012, www.projet-rhapsodie.fr)

The aim of the Phd is to study the communication structure (or information packaging) of Naija and its interface with syntax and prosody. The communicative structure is the internal structure of an illocutionary unit which articulates, e.g. the information conveyed (rheme, or comment) with what the information is about (theme, or topic) (Lambrecht 1996, Vallduví & Engdahl 1996, Mel’čuk 2001, Erteschik-Shir 2007). The study will use our Naija corpus, which the Phd student can enrich with additional levels of annotation: communicative structure, reference tracking chains (indicating which phrases refer to the same objects) and discursive relations between illocutionary units. The candidate can use NLP to automatize these annotations, capitalizing on the project team experience in learning processes and bootstrapping. However, the main focus of the thesis is the theoretic part which should develop a model of communicative structure, and the descriptive part examining the correlation between communicative structure, macrosyntax and/or prosody. The thesis explores three main dimensions:

First, the communicative structure is still little understood, insufficiently formalised. There still exist few attempts at annotating this structure (Baumann et al. 2004, Ritz et al. 2008), unlike discursive structure (Parsad et al. 2008, Péry-Woodley et al. 2011) or reference tracking (Landragin 2011, Muzerelle et al. 2012) and most of all, unlike syntax (see e.g. the numerous treebanks annotated in UD on universaldependencies.org).

Second, the communicative structure plays a certain role in triggering some syntactic constructions (e.g. dislocation or clefting) and the prosodic structure of utterances. While one of the aims of the NaijaSynCor project is to study the link between syntax and prosody, they appear, from the study of French in the Rhapsodie Project (Belião et al. 2015), to be relatively independent and more complementary than fully aligned. Our hypothesis is that syntax and prosody are two distinct means of encoding the communicative structure, which can be used simultaneously or independently. Consequently, it is more promising to study the interface between communicative structure, syntax and prosody, rather than focus on the interface between syntax and prosody alone.

Third, the study of communicative structure is a challenge for Naija, which, like other creoles, has no flexional morphology, few formally marked syntactic structures, and many paratactic constructions. These we call macrosyntax, as opposed to microsynctactic constructions based on dependency. This thesis will provide an important descriptive element for the understanding of Naija. Such a study should become a reference for the description of other languages, including better studied languages such as French, for which there exists no reference for the combined study of syntax, prosody and communicative structure.

Cette thèse sera préparée entre la France et le Nigeria dans le cadre du projet ANR Naija SynCor (A Corpus-based Macro-Syntactic Study of Naija, Nigerian Pidgin, 2017-2020).  L’objectif du projet est de proposer une description de la macrosyntaxe et la prosodie du naija. Le naija est une langue très récente, à base lexicale anglaise, mais dont la grammaire est assez différente. Elle a connu une expansion fulgurante au cours des 50 dernières années et est déjà̀ parlée par 80M de personnes au Nigeria, dont 5M de locuteurs natifs (Caron 2009). Dans le cadre du projet, nous développons un corpus de 500 000 mots annotés en syntaxe et prosodie (annotation semi-automatique, 100 000 mots corriges manuellement), en s’appuyant notamment sur les schémas d’annotation développés dans le cadre de l’ANR Rhapsodie (2008-2012, www.projet-rhapsodie.fr) et appliqués au français parlé (Lacheret et al. 2014).

L’objectif de la thèse sera d’étudier la structure communicative (ou information packaging) du naija et l’interface entre la structure communicative, la syntaxe et la prosodie. La structure communicative est la structure interne d’une unité́ illocutoire, indiquant notamment quelle est l’information communiquée (rhème ou comment) et ce dont on parle (thème ou topic) (Lambrecht 1996, Vallduví & Engdahl 1996, Mel’čuk 2001, Erteschik-Shir 2007). L’étude s’appuiera sur notre corpus de naija, sur une partie duquel le doctorant pourra ajouter différents niveaux d’annotation : structure communicative, mais aussi chaines de coréférence (indiquant quels syntagmes réfèrent aux mêmes objets) et relations de discours entre unités illocutoires (Asher & Vieu 2005). Si le doctorant possède une formation en TAL, il pourra voir comment automatiser cette annotation, en profitant de l’expertise de l’équipe sur les techniques d’apprentissage et de bootstrapping. Le cœur de la thèse reste néanmoins la partie théorique concernant la modélisation de la structure communicative et la partie descriptive concernant l’étude des corrélations entre la structure communicative et la macrosyntaxe et/ou la prosodie. La thèse présente un triple enjeu.

Premièrement, la structure communicative reste encore mal comprise, insuffisamment formalisée et il existe aujourd’hui relativement peu d’expériences d’annotation de cette structure (Baumann et al. 2004, Ritz et al. 2008), moins que pour la structure discursive (Parsad et al. 2008, Péry-Woodley et al. 2011) ou les chaînes de coréférence (Landragin 2011, Muzerelle et al. 2012) et infiniment moins que pour la syntaxe (voir par ex. les nombreux treebanks annotés en UD sur universaldependencies.org).

Deuxièmement, la structure communicative joue un rôle certain dans le déclenchement de certaines constructions syntaxiques (comme la dislocation ou le clivage) et dans la structuration prosodique des énoncés. L’un des objectifs du projet NaijaSynCor est d’étudier les liens entre syntaxe et prosodie, mais comme nous l’avons déjà̀ montré pour le français dans le cadre du projet Rhapsodie (Belião et al. 2015), syntaxe et prosodie possèdent une certaine indépendance et se complètent plus qu’elles ne s’alignent. Nous postulons que syntaxe et prosodie sont deux moyens distincts d’encoder la structure communicative, qui peuvent être utilisés simultanément ou indépendamment l’un de l’autre. Il est donc probablement plus éclairant d’étudier l’interface structure communicative, syntaxe et prosodie, que d’étudier la seule interface syntaxe-prosodie.

Troisièmement, l’étude de la structure communicative est un enjeu particulier pour le naija, qui, comme les autres créoles, n’a pas de morphologie flexionnelle et possède une syntaxe peu marquée avec beaucoup de constructions parataxiques (ce que nous appelons la macrosyntaxe, par opposition aux constructions microsyntaxiques avec rection). Cette thèse permettra donc d’apporter un élément de description important pour la compréhension du fonctionnement de la langue naija. Une telle étude pourra également servir de référence pour la description d’autres langues, y compris des langues bien dotées comme le français, pour lequel il n’existe pas de ressource qui permette d’étudier à la fois syntaxe, prosodie et structure communicative.

Références

  • Asher, N., & Vieu, L. (2005). Subordinating and coordinating discourse relations. Lingua, 115(4), 591- 610.
  • Baumann, S., Brinckmann, C., Hansen-Schirra, S., Kruijff, G. J. M., Kruijff-Korbayova, I., Neumann, S., ... & Uszkoreit, H. (2004). The MULI Project: Annotation and Analysis of Information Structure in German and English. In Proceedings of LREC. 
  • Belião, J., Lacheret, A., & Kahane, S. (2015). Marqueurs intonosyntaxiques en français parlé et genres: compter pourquoi, compter quoi, compter comment? Langages, (1), 129153. 
  • Caron, B. (éd.) (2009). NAIJA: Proceedings of the Conference on Nigerian Pidgin, University of Ibadan, Nigeria. 
  • Erteschik-Shir, N. (2007). Information structure: The syntax- discourse interface (Vol. 3). Oxford University Press. 
  • Lacheret A., Kahane S., Beliao J., Dister A., Gerdes K., Goldman J.-P., Obin N., Pietrandrea P., Tchobanov A. (2014) Rhapsodie: un Treebank annoté pour l’étude de l’interface syntaxe-prosodie en français parlé, Actes du 4ème congrès mondial de linguistique française (CMLF), Berlin. 
  • Lambrecht, K. (1996). Information structure and sentence form: Topic, focus, and the mental representations of discourse referents (Vol. 71). Cambridge university press. 
  • Landragin, F. (2011). Une procédure d’analyse et d’annotation des chaînes de coréférence dans des textes écrits. Corpus, (10), 61-80. 
  • Mel’čuk, I. A. (2001). Communicative organization in natural language. John Benjamins. 
  • Muzerelle, J., Schang, E., Antoine, J. Y., Eshkol, I., Maurel, D., Boyer, A., & Nouvel, D. (2012). Annotations en chaînes de coréférences et anaphores dans un corpus de discours spontané en français. In SHS Web of Conferences (Vol. 1, pp. 2497-2516). EDP Sciences. 
  • Péry-Woodley M.-P., Afantenos S. D., Ho-Dac L.-M., Asher N. (2011). La ressource ANNODIS, un corpus enrichi d'annotations discursives. TAL 52(3), pp 71-101. 
  • Prasad, R., Dinesh, N., Lee, A., Miltsakaki, E., Robaldo, L., Joshi, A. K., & Webber, B. L. (2008). The Penn Discourse TreeBank 2.0. In Proceedings of LREC.
  • Ritz, J., Dipper, S., & Götze, M. (2008). Annotation of Information Structure: an Evaluation across different Types of Texts. In Proceedings of LREC.

Find us

IFRA
Institute of African Studies
University of Ibadan
Ibadan, Oyo State
Nigeria
+234 (0)8.147.616.463