mardi 28 février 2012

Forum des sciences cognitives


On peut trouver plus pluridisciplinaire que la linguistique informatique: les sciences cognitives, avec lesquelles nous avons de nombreux points de rencontre (savez-vous qu'il existe une option LI dans le cogmaster ?).

Le prochain forum des sciences cognitives, prévu le 31 mars prochain, à Paris, peut être une occasion de le vérifier...

La question posée cette année, qui donnera lieu à des "micro-conférences" qui s'annoncent passionnantes, ne peut pas laisser indifférents les linguistes nourris par les thèses de Chomsky depuis 50 ans: c'est la question de l'inné et de l'acquis... Avec plusieurs exposés de linguistes ou de psycho/neuro/linguistes prévus.



La participation est gratuite, mais pour faciliter la préparation de la logistique de cette manifestation, il est demandé de s'inscrire sur le site: http://forumsciencescognitives.com.

Le cursus Linguistique Informatique de Paris Diderot y tiendra un (petit) stand cette année.

jeudi 23 février 2012

Linguistique et Linguistique Computationnelle

L'évolution récente du domaine du TAL, où les méthodes à base statistique ont progressivement surpassé les méthodes à base de règles pour la grande majorité des tâches définies, conduit souvent les spécialistes à s'interroger sur la place qui va rester à la linguistique dans le TAL de demain...
Dans cette perspective, le numéro récent de la revue en ligne Linguistic Issues in Language Technology, titré "Interaction of Linguistics and Computational Linguistics" mérite d'être mentionné (déjà indiqué dans les "actualités du cursus LI"). Je trouve que les nouvelles y sont plutôt bonnes...
On y trouve d'excellents articles, écrits par de grands spécialistes de la linguistique computationnelle, qui ont le mérite à la fois de raconter l'histoire de la relation entre linguistique et TAL depuis l'origine et de montrer comment, malgré l'évolution récente du domaine vers de plus en plus de traitements à base de volumes massifs de données, à la fois le TAL et la linguistique peuvent tirer un grand bénéfice l'un de l'autre, y compris dans leurs développements les plus récents.
Je recopie ci-après le sommaire, et j'invite à lire en particulier l'article de Steve Abney, ainsi que celui de Mark Johnson et celui, savoureux, de Mark Steedman,  mais tous les articles sont intéressants, et relativement accessibles (l'introduction est très utile pour guider une lecture plus approfondie).

The Interaction between Linguistics and Computational Linguistics
Timothy Baldwin, Valia Kordoni
Data-Intensive Experimental Linguistics
Steven Abney
On Achieving and Evaluating Language-Independence in NLP
Emily M. Bender
Bootstrapping the Language Archive
Steven Bird
A Pendulum Swung too Far
Kenneth Church
Eva Haji?ova?
Mark Johnson
Martin Kay
Tracy Holloway King
Lori Levin
Mark Steedman

vendredi 17 février 2012

Recherche en LI: il n'y a pas que le TAL ! (I)

Les développements récents de la recherche en linguistique (au sens large) ouvrent des débouchés nouveaux (en recherche) pour les spécialistes de linguistique-informatique (je veux dire des spécialistes à la fois de linguistique et d'informatique). Au moins deux directions passionnantes ont pris de l'ampleur ces derniers temps : la "linguistique statistique" (voir ci dessous), et la "modélisation computationnelle de l'acquisition" (dans un prochain billet).

Linguistique statistique: je ne parle pas là de la bonne vieille linguistique de corpus, déjà ancienne: la recherche en linguistique de corpus demande juste de bons outils (concordanciers et outils statistiques) et de bonnes ressources (corpus annotés...), et (c'est le plus délicat) une bonne méthodologie. 
Je parle des travaux inspirés par l'article de Joan Bresnan de 2007, devenu une référence. L'article s'intéresse à l'alternance dative en anglais (on peut dire I gave him my money ou I gave my money to him) et propose un modèle prédictif de l'alternance, basé sur la technique de la régression linéaire, qui permet de mesurer l'influence respective des facteurs explicatifs qui font l'objet de disputes parmi les linguistes depuis très longtemps (contraintes lexicales, contraintes de poids syntaxique, contraintes informationnelles, discursives...). La problématique est purement linguistique, mais la méthode est statistique, très proche de ce qui se fait en TAL aujourd'hui. Depuis ces travaux-là, des questions variées comme l'étude statistique de la diachronie, ou des contacts entre langues, ou la dimension statistique de la compétence grammaticale, et d'autres encore qui touchent en particulier à une meilleure qualité des données empiriques sur lesquelles les linguistes basent leurs raisonnement, ont été abordées dans le laboratoire de syntaxe parlée. Ces travaux ont été une grande source d'inspiration pour la linguistique actuelle, y compris dans le laboratoire Alpage, où des recherches sur la place de l'adjectif en français ont été engagées dans le même esprit.
Cette approche de la langue a inspiré aussi de façon directe le projet experimental grammar from a cross-linguistic perspective récemment engagé (pour 10 ans...) dans le laboratoire d'excellence "Empirical Foundations of Linguistics".

dimanche 12 février 2012

Unix pratique pour les linguistes

Pour augmenter votre maîtrise d'Unix, rien de tel que de jouer avec des scripts et programmes directement orientés vers la linguistique. Il y a de quoi s'occuper sur ce blog, où l'on trouve aussi bien des scripts un peu sommaires, voire un peu démodés (inspirés du livre mythique de Kernighan et Pike, The Unix Programming Environment), mais encore très efficaces et si pratiques, que des outils beaucoup plus sophistiqués, qui peuvent être utiles pour les projets LI (entre autres).

vendredi 10 février 2012

On recherche sujets d'expérience (et encore et encore)

A faire circuler sans modération: pour ce genre d'expérience, on a besoin de beaucoup de sujets, et si possible pas seulement des linguistes !

Dans le cadre d'un projet de recherche en linguistique française (soutenu par le Fond National Suisse de la recherche scientifique, subside PBNEP1-134420), sont recherchés des adultes francophones natifs pour participer à une expérience en ligne (environ 10 mins). Il s'agit d'écrire la première phrase qui vient à l'esprit en utilisant un verbe donné.

Pour participer, il suffit de cliquer sur ce lien.

J'ajoute une autre annonce venant du même laboratoire:

Dans le cadre un projet de recherche en linguistique française (soutenu par le Fond National Suisse de la recherche scientifique, subside PBNEP1-134420), nous recherchons des adultes francophones natifs pour participer à une expérience en ligne (environ 15 mins). Il s'agit d'indiquer si le sens d'un verbe utilisé dans deux contextes différent vous semble proche sur une échelle de 0 à 7.

Pour participer, il suffit de cliquer sur ce lien.

Et encore une autre expérience, cette fois-ci pour les anglophones (mais il faut des milliers de sujets):

Call for participation in a small task for a big word association project
We are trying to set up a scientific study that is important for many researchers interested in semantics and cognitive science. It is a large-scale word association project, in which people are asked to participate in a small task that doesn't last longer than 5 minutes. Our goal is to build a global word association network that contains connections between about 40,000 words, the size of the lexicon of an average adult. Setting up such a network may teach us a lot about semantic memory, how it develops, and how it can deteriorate (like in Alzheimer's disease). Most people enjoy doing the task, but we need thousands of participants to succeed. That is why we address you. Would you be willing to participate, and/or distribute this call for participation to students, friends, family and other acquaintances who are fluent in English?

The task can be found on http://www.smallworldofwords.com.

The network will be freely available to all interested language researchers when it becomes substantial enough.

mardi 7 février 2012

Offre (indirecte) de post-doc, Barcelone

Une offre "indirecte", puisqu'il faut encore monter le dossier, et en plus il faut se dépêcher...
Mais le projet de recherche est très intéressant...

We are looking for a postdoc to be incorporated into a project "Compositionality of meaning and semantic operations at the syntax-semantics and grammar-cognition interface" which started in January                      
2012. We are looking for someone with the background in semantics, with the focus on experimental semantics/pragmatics.  One of the tasks within the project will be concerned with conducting experimental research, we can provide more detailed information on request.                                              

Since the position is not paid directly by the project, the interested person will have to apply for a grant in the Beatriu de Pinós program, which is open right now. The information about the grant (including formal requirements for the applicants, duration, salary, etc.) is available here.
The deadline for applications is February 27.                                                  

For any further information please contact
Olga.Borik -at- uab.cat or                                  
Teresa.Espinal -at- uab.cat.                                            

dimanche 5 février 2012

Projets LI : conseils

Les sujets de projet sont sortis, et je ne saurais trop recommander aux candidats de jeter encore une fois un coup d'oeil aux consignes que nous avons mises en ligne.
Je voudrais ajouter ici quelques conseils, inspirés par notre expérience des années précédentes.
  • une étape importante du projet est la spécification de l'architecture du projet: peut-on découper le travail en modules, et quelles sont les relations entre ces modules ? Ce travail doit se faire avant la programmation et aboutit généralement à une représentation sous forme de diagramme (genre flow chart ou data flow diagram).
  • une autre étape importante, de plus en plus, consiste à rechercher des outils, sous forme de modules ou de bibliothèques (libraries) qui peuvent contribuer à la réalisation de votre application. 
  • pour ce travail, vous pouvez partir de la page ressources qui se trouve sur le site li, bien incomplète, mais qui a le mérite d'exister. 
  • parmi les questions qu'il faut se poser dès le début (surtout pour les projets de M1), il y a la question de l'évaluation: comment allez-vous mesurer la qualité de votre programme ? Quelle métrique allez-vous utiliser ? 
  • n'oubliez pas que le programme doit tourner le jour de la soutenance: il faut pratiquer autant que possible une programmation incrémentale, avec une version simple et sûre, que vous rendez plus sophistiquée progressivement, de sorte qu'à chaque instant vous avez une version qui tourne.  
à propos de la pré-soutenance:
  • il faut préparer un exposé structuré, avec quelques transparents, et il est indispensable de faire des essais chronométrés pour garantir que vous respectez le temps imparti (en gros, 5 minutes par orateur). 
  • si vous êtes particulièrement efficace, vous pouvez espérer faire 2 transparents à la minute, mais le plus souvent, surtout s'ils sont un peu denses, vous ne pourrez pas mettre moins d'une minute par transparent. Conclusion: 5 slides max par personne !
à propos du rapport:
  • même s'il est rédigé à destination des encadrants, qui connaissent évidemment le sujet, il faut faire l'effort de décrire le projet, "avec vos mots", d'une manière compréhensible pour un lecteur qui ne connaitrait pas le projet. En particulier, il faut prendre le temps de décrire précisément :
    • l'objectif du projet
    • les techniques mises en oeuvre, qui en général sont données explicitement par l'encadrant ou proviennent d'articles (il faut donc citer les sources)
    • l'implémentation de ces techniques
  • veillez à citer les références sous la forme d'une bibliographie scientifique
  • l'organisation du rapport n'a aucune raison de suivre l'architecture de votre programme
  • les erreurs qui vous ont fait perdre le temps ne sont pas nécessairement les plus intéressantes à présenter, aussi bien dans le rapport que pendant l'exposé
à propos du code rendu:
  • il faut indiquer clairement, par exemple dans un README, la ligne de commande permettant de faire tourner le programme, éventuellement la ligne de commande donnant accès à l'aide en ligne ; 
  • en particulier pour les projets java: les enseignants ne testent pas dans Eclipse ou autre IDE: il faut un jar et la ligne de commande

mercredi 1 février 2012

Stage de Master 1 au LIMSI

L'offre de stage suivante est parue sur la liste ln (et je ne projette pas de mettre ici les annonces de la liste ln, il y en a trop, et il suffit de s'inscrire ). Mais je voudrais attirer l'attention sur cette offre particulière: 

Offre de stage de Master 1 à Orsay (91), au LIMSI
Sélection automatique de passage représentatif d'un événement


Mots-clés
/traitement automatique de la langue, analyse temporelle, événements/
Contexte
Entre autres objectifs, le projet ANR ChronoLines a pour but de créer de façon semi-automatique des chronologies à partir de dépêches d'agences.Étant donnés un thème fourni par l'utilisateur et un ensemble de textes, il s'agit de retrouver dans les documents les événements les plus importants concernant ce thème, puis de les ordonner et de les présenter à l'utilisateur pour validation. Par exemple, pour une demande sur un nom de personne, le système devra retracer les événements marquants de sa vie. Pour les négociations de paix au Moyen-Orient, les principales dates importantes s'y rattachant.Parmi les étapes nécessaires pour atteindre ce résultat, une phase consiste à sélectionner, parmi les événements détectés, ceux qui semblent les plus marquants, ou les plus centraux, par rapport au thèmede la requête. Pour chacun de ces événements, il faut ensuite choisir un texte caractéristique, expliquant de façon claire et concise de quoi il s'agit. Ce passage de texte est à choisir parmi un ensemble de nombreuses phrases décrivant l'événement.
Travail à réaliser
Durant ce stage, on partira d'un système existant. Ce système sélectionne les phrases qui correspondent, de façon plus ou moins précise, à chaque événement à insérer dans la chronologie. L'objectif du stage est de :

  • Parcourir la littérature scientifique sur le sujet (sélection de texte, résumé automatique, agrégation de résultats, etc.) pour identifier les techniques existantes susceptibles d'être adapter à notre problème.
  • Réaliser un outil permettant de choisir (ou éventuellement de générer) une phrase explicative d'un événement, à partir d'un ensemble de courts textes à son sujet.Le stagiaire devra avoir de bonnes compétences en informatique et un intérêt pour les problématiques du traitement de la langue.
  • Durée : environ 2 mois
  • Niveau : Master 1

Contacts :
Veronique.Moriceau[at]limsi.fr
Xavier.Tannier[at]limsi.fr