Jeux de construction de mots

1) Introduction

Les mots peuvent être décomposés en plusieurs parties, appelées monèmes, chacune porteuse d'une signification, et qui peuvent être recomposés à l'aide de règle de construction, permettant ainsi de construire de nouveaux mots.

Par exemple le site http://patrick.nadia.pagesperso-orange.fr/Nom%20grec.html propose une liste de prefixes et de suffixes d'origine grec, pour construire des noms grecs.

Préfixe
Signification
Eu
bien
Calli
beau
Agath(o)
bon
Arist(o)
excellent
Pro
en avant
Prot(o)
premier
Thé(o)
dieu
Di(o)
Zeus
Hér(o) ou (a)
Héra
Apoll(o)
Apollon
Héli(o)
Hélios
Herm(o)
Hermès
Phil(o)
qui aime
Tim(o)
honneur
Clé(o)
gloire
Nic(o)
victoire
Is(o)
égal
Dém(o)
peuple
Lys(i)
libération
Poly
nombreux
Iphi
avec force
Prax(i)
action
Andr(o)
homme (mâle)
Chrys(o)
or
Xén(o)
étranger
Ant(i)
en face
Hipp(o)
cheval
Lyc(o)
loup
Suffixe
Signification
phile
qui aime
time
honneur
cle
gloire
dème
peuple
andre
homme (mâle)
hippe
cheval
ide
« fils de » (ou diminutif)
gène
origine
gone
enfant
dore
cadeau
dote
donné
phane
lumineux
crate
force, puissance
sthène
force physique
phore
qui porte
arque
qui dirige
strate
armée
maque
combat
phron
intelligence
mède
préparer, inventer
crite
juge
phraste
expliquer
phon
son, voix
agore
assemblée
tèle
fin

Cela est trés amusant, et permet d'inventer des noms grecs nouveaux. Ces préfixes et suffixes sont des exemples de monèmes, et la règle de construction consiste en la composition d'un préfixe et d'un suffixe. Mais toutes les combinaisons ne sont pas autorisées. Il y a d'autres règles qui excluent les accords phonétiquement disharmonieux ou difficilement prononçables.

On défini le monème comme la plus petite unité, orthographique et phonologique, doté de sens. Dans le tableau ci-dessus certain préfixe peuvent se complèter d'une voyelle "a, i, o". Ainsi le monème peut avoir plusieurs formes orthographiques et phonologiques.

Pour mener une analyse sur l'ensemble des mots du langage, et découvrir les règles de construction, il nous faut constituer une base de données sur les mots. Et pour des raisons de facilité de développement, cette base doit être un fichier texte, lisible par un humain.

Voici différentes bases de données que l'on peut se procurer sur l'Internet :

Origine
Bases de données
Dictionnaire numérisé (1 Mo)
Encyclopédie numérisée (19 Mo)
Université Paris Descartes
LEXIQUE3
http://www.lexique.org/
Table de données lexicales (5 Mo)
Table de données de 11627 prénoms (66 Ko)
Corpus de 37 millions de mots (77 Mo)
Liste de 336531 mots français (77 Mo)
Université de Bourgogne
VOCOLEX
http://leadserv.u-bourgogne.fr/bases/vocolex/
Table de données lexicales (3 Mo)
Descriptif (64 Ko)
ABU (Association des Bibliophiles Universels)
http://abu.cnam.fr/DICO/
Liste de 300000 mots communs (2 Mo)
Liste de 12437 prénoms (26 Ko)
Liste de 39076 cités françaises (242 Ko)
INRIA, Université Paris 7
Benoît Sagot
http://alpage.inria.fr/~sagot/lefff.html
Base de données lexicales (6 Mo)
Table de données lexicales brut (3 Mo)
INRIA
Lionel Clément & Benoît Sagot

http://www.labri.fr/perso/clement/lefff
Table de données lexicales (3 Mo)
Table de données lexicales verbes (1 Mo)
Codage (30 Ko)
Dictionnaire DELA fléchi (5 Mo)

Université de Toulouse Le Mirail
ERSS
http://redac.univ-tlse2.fr/

Lexiques ...
Corpus ...
Lexique morphalou ...
Corpus ...

Voici différentes sources documentaires :

BnF (Bibliothèque nationale de France)
GALLICA, bibliothèque numérique

Une source documentaire du domaine publique : http://gallica.bnf.fr/
Université de Genève
ATHENA

Une source documentaire de textes classiques français http://athena.unige.ch/athena/admin/searchathena.html
Université catholique de Louvain
Une source documentaire du Latin : Liste, Intro, Reherche
Une source documentaire du Grec : Liste

Voici différents dictionnaires consultables en ligne :

Université de Caen
CRISCO

Dictionnaire des synonymes et antonymes : http://www.crisco.unicaen.fr/des/synonymes/
Université de Lorraine
ATILF (Analyse et Traitement Informatique de la Langue Française)
TLFi
- Trésor de la Langue Française informatisée : Consultation
TLF-Étym - Receuil étymologique de 304 mots : Consultation
DMF - Dictionnaire du Moyen Français (1330-1500) : Consultation
DECT - Dictionnaire électronique de Chétien de Troyes (12ème siècle) : Consultation
DERom - Dictionnaire Étymologique Roman : Consultation

Université de Chicago
The ARTFL Project
ATILF (Analyse et Traitement Informatique de la Langue Française)
Dictionnaires de l'Académie Française : http://portail.atilf.fr/dictionnaires/ACADEMIE
Encyclopédie de Diderot et d'Alembert (1751-1772) : http://portail.atilf.fr/encyclopedie/
Dictionaires d'autrefois : http://artfl.atilf.fr/dictionnaires
Dictionnaires des 17ème, 18ème, 19ème et 20ème siècles : http://artfl.atilf.fr/dictionnaires/onelook.htm
Dictionnaires de Jean Nicot (1606) : http://portail.atilf.fr/dictionnaires/TLF-NICOT

CNRTL (Centre National de Ressources Textuelles et Lexicales) : http://www.cnrtl.fr/
Dictionnaire de Trévoux (1740) : http://www.cnrtl.fr/dictionnaires/anciens/trevoux/menu1.php
Dictionnaire critique de la langue française de Jean-François Féraud (1787) : ATILF, ARTFL

Wikimedia France, association pour le partage de la connaissance
Wiktionnaire (Le dictionnaire libre) Accueil

Pour explorer ces bases de données, on va utiliser le langage de script, Ruby, un langage pur object particulièrement simple et puissant. On utilisera également le langage de scripte Javascript qui n'a pas la même puissance mais à l'avantage d'être exécutable par un navigateur internet sur les postes clients, l'internet constituant un vecteur efficace de propagande.

Il est opportun de forger nos premiers essais avec Ruby et Javascript, afin de pouvoir utiliser ces langages pleinement plus tard. Leur coté libre, gratuit et universelle, nous apportera un avantage certain en terme d'autonomie, d'interopérabilité, de communication....

On programme d'abord un jeux de procédures élémentaires, jugées fondamentales, qui constitura un framework, une boite à outils, standardisant un certain nombres de transformations et définissant un certain nombre de formats.

2) Framwork

Les deux premières opérations qu'il convient de programmer, sont la copie d'une liste d'éléments figurant en mémoire vers un fichier et inversement. On défini ainsi le concept de liste d'éléments. Comme nous ne manipulons pour l'instant que des caractères, les éléments sont posée être des suites de caractères ne comprenant pas de caractère fin de ligne ni de carctère fin de fichier. Le caractère fin de ligne "\n" est utilisé pour passer à la ligne. Le caractère fin de fichier est utilisé pour désigner la fin du fichier. Le caractère fin de ligne sera utilisé pour séparer les éléments dans un fichier texte.

En mémoire, une liste d'éléments sera contenue dans une variable telle que m sous forme d'un tableau. Délors m[i] accéde au i-ième élément de la liste.

2.1) Manpulation de liste avec Ruby

Le fichier contenant la liste est identifié par un nom tel que "Lexique372-C1.txt" et est placé dans le répertoire courant. On programme 2 procédures : listGet qui lit un fichier, et listPut qui écrit un fichier.

L'appel listGet(s) retourne un tableau contenant la liste des éléments du fichier de nom s.

L'appel listPut(m,s) écrit dans le fichier s la liste des éléments du tableau m.

Synopsie
Corps
m = listGet("Lexique372-C1.txt")
# Lit la liste contenue dans le fichier Lexique375-C1.txt
# et la met dans le tableau m
p m[1]
# affiche le premier élément de la liste listPut(m,"Lexique372-C1.txt")
# Ecrit la liste m dans le fichier Lexique375-C1.txt
def listGet(s)
  m=[]
  f=File.open(s, "r:iso-8859-1:utf-8") 
  i=1  
  f.each_line {|x| m[i]=x.chop; i+=1} 
  f.close
  return m
end

def listPut(m,s)
  f = File.open(s, "w:iso-8859-1:utf-8")
  m.each { |x| f.write x+"\n"}
  f.close
end

Noter que, en Ruby1.9.1, on peut spécifier l'encodage des caractères du fichier en iso-8859-1 et l'encodage utilisé par le programme en utf-8, opérant ainsi un transcodage. Pour plus de détaille voir http://nuclearsquid.com/writings/ruby-1-9-encodings/

Voici un exemple de petit programme calculant un histogramme, le nombre de mots de même longueur dans la liste de mots de Lexique372 :

m=listGet("Lexique372-C1.txt")
# Lit la liste des mots qui sont dans le fichier Lexique372-C1.txt

mm = m.reject {|x| x.include?("-") or x.include?(" ")} 
# enlève les mots doubles utilisant un caractère " " ou "-"

h=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0] 
# Initialise l'histogramme

mm.each{|x| h[x.size]+=1 }                       
# Calcule l'histogramme 

Cela donne :

Nombre
de lettres
Nombre
de mots
1
53
2
174
3
780
4
2771
5
7066
6
13313
7
19177
8
22809
9
22041
10
18388
11
13429
12
8553
13
4884
14
2472
15
1169
16
508
17
181
18
77
19
37
20
12
21
3
22
1
23
1
24
0
25
1

2.2) Manipulation de liste avec Javascript

En Javascript, le script s'exécute sur le poste client, et le fichier se trouve sur un serveur web distant. Le fichier est téléchargé grace à la commande javascript XMLHttpRequest puis est mis dans une variable javascript. L'écriture d'un fichier est plus délicate, elle nécessite un script coté serveur qui peut être écrit en php. On programme la procédure listGet qui lit un fichier.

L'appel listGet(s) retourne un tableau contenant la liste des éléments du fichier de nom s.

Synopsie
Corps
m = listGet("Lexique372-C1.txt")
# Lit la liste contenue dans le fichier Lexique372-C1.txt
# et la met dans m
p m[1]
# affiche le premier élément de la liste
function listGet(s){
  var r = new XMLHttpRequest()
  r.open("GET", s, false)
  r.send(null)
  return r.responseText.split("\n")
}

Voici un exemple de petit programme calculant un histogramme, le nombre de mots de même longueur dans la liste de mots de Lexique372 :

m=listGet("Lexique372-C1.txt")
# Lit la liste des mots qui sont dans le fichier Lexique372-C1.txt

e=/[ ,-]/g
# Expression régulière pour repérer les mots doubles utilisant un caractère " " ou "-" mm=new Array n=m.length for(i=0;i<n;i++) if (!m[i].match(e)) mm.push(m[i]) # enlève les mots doubles utilisant un caractère " " ou "-" h=new Array(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) # Initialise l'histogramme n=mm.length for(i=0;i<n;i++) h(mm[i].length)+=1 # Calcule l'histogramme

---- 9 Décembre 2012 ----


 

2) La phonologie

La phonologie n'a pas besoin de décrire les sons de la parole avec une aussi grande précision que la phonétique, car elle n'intervient que pour construire les mots et les phrases à partir d'éléments phoniques de définition plus large. C'est pourquoi elle utillise beaucoup moins de symbôles que la phonétique. Elle décrit les sons de la parole non pas comme des unités physiologiques avec toutes leurs variétés possibles, mais comme de simples éléments d'une structure construisant les mots et les phrases. La phonologie possède une notation propre à chaque langue, voir à chaque accent régional, et nous pourrions dire aussi à chaque point de vue linguistique.

Code
API
Codes
Lexique
Codes
VoCoLex
Code
réduit
Exemples
Appellation
Qualité1
Qualité2
Quallité3
Qualité4
Qualité5
Qualité6
p
p
p
p
père, soupe
p
Consonne occlusive bilabiale   sourde
b
b
b
b
bon, robe
b
Consonne occlusive bilabiale   voisée
t
t
t
t
terre, vite
t
Consonne occlusive dentale   sourde
d
d
d
d
dans, aide
d
Consonne occlusive dentale   voisée
k
k
k
k
carré, laque
k
Consonne occlusive vélaire   sourde
g
g
g
g
gare, bague
g
Consonne occlusive vélaire   voisée
f
f
f
f
feu, neuf
f
Consonne fricative labio-dentale   voisée
v
v
v
v
vous, rêve
v
Consonne fricative labio-dentale   sourde
s
s
s
s
sale, dessous
s
Consonne fricative alvéolaire   sourde
z
z
z
z
zéro, maison
z
Consonne fricative alvéolaire   voisée
S
S
ch
chat, tâche
ch
Consonne fricative post-alvéolaire   sourde
ʒ
Z
Z
j
gilet, mijoter
ge
Consonne fricative post-alvéolaire   voisée
m
m
m
m
main, femme
m
Consonne nasale bilabiale   voisée
n
n
n
n
nous, tonne
n
Consonne nasale alvéolaire   voisée
ɲ
N
N
gn
agneau, vigne
gn
Consonne nasale palatale   voisée
l
l
l
l
lent, sol
l
Consonne latérale alvéolaire   voisée
liquide
r
R
R
r
rue, venir
R
Consonne fricative uvulaire   voisée
x
x
x
r
jota
jota
Consonne fricative vélaire   sourde
espagnole
ŋ
G
G
ng
camping, mah-jong
ng
Consonne nasale vélaire   voisée
anglaise
j
j
j
y
lieu, paille
y
Semi-voyelle spirante palatale   sonnore
ɥ
8
8
u
huit, lui
ui
Semi-voyelle spirante labio-palatale   sonnore
w
w
w
ou
oui, nouer
w
Semi-voyelle spirante labio-vélaire   sonnore
ɑ, a
a
a
a
bat, plat
a
voyelle anterieur ouverte  
non arrondie
i
i
i
i
lit, émis
i
voyelle anterieur fermé  
non arrondie
y
y
y
u
lu, mur
u
voyelle anterieur fermé  
arrondie
u
u
u
ou
roue, cou
ou
voyelle postérieur fermé  
arrondie
o
o
O
o
peau, mot
o fermé
voyelle posterieur mi-fermé   arrondie
ɔ
O
O
o
éloge, fort
o ouvert
voyelle postérieur mi-ouverte  
arrondie
e
e
e
ê
église, nez
e fermé
voyelle anterieur mi-fermé  
non arrondie
ε
E
E
ê
paire, mère
e ouvert
voyelle anterieur mi-ouverte  
non arrondie
ə
°
*
e
abordera, fermeté, parvenu
schwa
voyelle centrale moyenne  
ø
2
2
e
deux, peu
eu fermé
voyelle antérieur mi-fermé  
arrondie
œ
9
9
e
œuf, peur
eu ouvert
voyelle anterieur mi-ouverte  
arrondie
ɛ̃
5
5
in
cinq, linge
in
voyelle nasale anterieur pré-ouverte  
non arrondie
œ̃
1
1
in
parfum, brun
un
voyelle nasale antérieur pré-ouverte  
non arrondie
ɑ̃
@
@
an
ange, franc
an
voyelle nasale postérieur ouverte  
arrondie
ɔ̃
§
§
on
savon, monde
on
voyelle nasale postérieur mi-fermée  
arrondie

voir http://alis.isoc.org/glossaire/phonetique.htm

à revoir selon le Grevisse


site parent : http://mabboux.net/

---- 19 Août 2012 ----


 

 

 

 

 

2) Description de la base de données LEXIQUE3.72

New B., Pallier C., Ferrand L., Matos R. (2001) Une base de données lexicales du français contemporain sur internet: LEXIQUE, L'Année Psychologique, 101, 447-462. http://www.lexique.org

New, B., Pallier, C., Brysbaert, M., Ferrand, L. (2004) Lexique 2 : A New French Lexical Database. Behavior Research Methods, Instruments, & Computers, 36 (3), 516-524.

La base de données lexicales consiste en un tableau de 35 colonnes :

Titre de la colonne
Déscription
1 ortho Mot
2 phon Forme phonologique
3 lemme Lemme
4 cgram Catégorie grammaticale
5 genre Genre
6 nombre Nombre
7 freqlemfilms2 Fréquence du lemme selon le corpus de sous-titres (par million d'occurences)
8 freqlemlivres Fréquence du lemme selon le corpus de livres (par million d'occurences)
9 freqfilms2 Fréquence du mot selon le corpus de sous-titres (par million d'occurences)
10 freqlivres Fréquence du mot selon le corpus de livres (par million d'occurences)
11 infover Modes, temps, et personnes possibles pour les verbes
12 nbhomogr Nombre d'homographes
13 nbhomoph Nombre d'homophones
14 islem Indique si c'est un lemme ou pas
15 nblettres Nombre de lettres
16 nbphons Nombre de phonèmes
17 cvcv Structure orthographique
18 p_cvcv Structure phonologique
19 voisorth Nombre de voisins orthographiques
20 voisphon Nombre de voisins phonologiques
21 puorth Point d'unicité orthographique
22 puphon Point d'unicité phonologique
23 syll Forme phonologique syllabée
24 nbsyll Nomre de syllabes
25 cv-cv Structure phonologique syllabée
26 orthrenv Forme orthographique inversée
27 phonrenv Forme phonologique inversée
28 orthosyll Forme orthographique syllabée
29 cgramortho Liste des catégories grammaticales possibles
30 deflem Pourcentage de personnes connaissant ce mot
31 defobs Nombre de personnes qui ont répondus au teste de connaisance de ce mot.
32 old20 Distance de Levenshtein moyenne des 20 mots les plus proches.
33 pld20 Distance de Levenshtein moyenne des 20 formes phonologiques les plus proches.
34 morphoder Décomposition en morphèmes dérivationnels d'un mot
35 nbmorph Nombre de morphèmes

 

Lemme : Le lemme est la forme canonique, c’est à dire l’infinitif pour un verbe, le masculin singulier pour un nom ou un adjectif. Par exemple, le mot chienne a pour lemme chien.

Codes des catégories grammaticales :

Codes
Catégorie grammaticale
Exemple
ADJ
Adjectif
Un chat bleu
ADJ:dem
Adjectif démonstratif
Ce chat
ADJ:ind
Adjectif indéfini
Aucun chat
ADJ:int
Adjectif interrogatif
Quel chat ?
ADJ:num
Adjectif numérique
Deux chats
ADJ:pos
Adjectif possessif
Son chat
ADV
Adverbe
Mange vite
ART:def Article défini Le chat
ART:ind Article indéfini Un chat
AUX Auxilière Il a parlé
CON Conjonction mais, ou, et, donc...
LIA Liaison euphonique Va-t-il dormir ?
NOM Nom commun Le chat
ONO Onomatopée Boum
PRE Préposition derrière le chat
PRO:dem Pronom démonstratif Celui qui mange
PRO:ind Pronom indéfini Quelqu'un vient
PRO:int Pronom interrogatif Qui vient ?
PRO:per Pronom personnel Il vient
PRO:pos Pronom possessif Le mien est noir
PRO:rel Pronom relatif Le chat qui dort
VER Verbe Mange

Genre (genre) : Un mot peut être masculin (m) ou féminin (f).

Nombre (nombre) : Un mot peut être singulier (s) ou pluriel (p)

Fréquence du lemme : Cela correspond à la somme des fréquences des formes fléchies de chaque lemme. Exemple : freq (arbre) = freq ("arbre") + freq ("arbres")

Informations verbales (infover) : Ce sont les informations de mode, de temps, et de personne que sont susceptibles de prendre les formes verbales

Mode
ind Indicatif
cnd Conditionnel
sub Subjonctif
par Participe
inf Infinitif
imp Impératif
Temps
pre Présent
fut Futur
imp Imparfait
pas Passé
Personne
1s je
2s tu
3s il
1p nous
2p vous
3p ils

Nombre d'homographes (nbhomogr) : Nombre d'entrées ayant la même forme orthographique mais pouvant différer de par leur catégorie grammaticale ou de par leur lemme.

Nombre d'homophones (nbhomoph) : Nombre d'entrées ayant la même forme phonologique.

Nombre de lettres (nblettres) :

Nombre de phonèmes (nbphons) :

Structure orthographique (cvcv) : Elle décrit la structure orthographique. Les voyelles sont notées V, les consonnes sont notées par C. Ainsi chienne est représentée par ccvvccv.

Structure de la forme phonologique (p-cvcv) : C'est un découpage du mot en voyelles (V) et consonnes (C) selon sa représentation phonologique.

Nombre de voisins orthographiques (voisorth) : Le nombre de voisins orthographiques calculés à partir toutes les entrées de la base. Les voisins orthographiques d’un mot sont les mots qui peuvent être créés en changeant une lettre sans modifier pour autant la position des autres lettres (Coltheart, Davelaar, Jonasson et Besner, 1977). Par exemple, les mots vidé, et aidé sont tous des voisins orthographiques du mot aidé. Les différents voisins de chaque mot sont présentés dans la table Voisins (que l'on peut télécharger sur http://www.lexique.org).

Nombre de voisins phonologiques (voisphon) : Les voisins phonologiques d'un mot sont des mots qui peuvent être créés en changeant un phonème sans modifier les autres. Ils ont aussi été calculés à partir de toutes les entrées phonologiques de la base Lexique3.

Point d’unicité orthographique (puorth) : Le point d’unicité orthographique correspond au rang de la lettre en partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté. Nous avons calculé les points d'unicité sur la base des lemmes pour que les formes plurielles ne parasitent pas les calculs (sinon toutes les formes ayant un pluriel ont un point d'unicité égale à leur longueur). Pour les formes orthographiques n'étant pas lemmes, le point d'unicité orthographique est de 0.[avant la version 2.60 les voisins n’étaient pas calculés sur les lemmes mais sur toutes les entrées de Lexique3s]

Point d’unicité phonologique (puphon) : Le point d’unicité phonologique correspond au rang du phonème en partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté. Le point d'unicité phonologique a aussi été calculé sur la base des lemmes. Pour certains lemmes très rares nous n'avions pas leurs représentations phonologiques (les représentations phonologiques ont été calculées sur les formes orthographiques). Pour les formes orthographiques n'étant pas lemmes, le point d'unicité phonologique est de 0.

Syllabation (syll) : Les formes phonologiques ont été syllabées selon un algorithme de syllabation décrit dans Dufour, Peereman, Pallier et Radeau (sous presse). Une version mise à jour de l’article décrivant l’algorithme utilisé est présente à l’adresse suivante En résumé, nous avons retenu la syllabation adoptée par Pallier (1994). La syllabation est calculée sur la représentation phonologique présente dans Lexique dont on a enlevé les schwas finaux. Cette syllabation est basée sur le principe général d'une segmentation syllabique entre deux consonnes sauf dans les cas des occlusives + liquides ou d'une fricative labio-dentale suivie d'une liquide. Le script de syllabation (syllabation.awk) est distribué avec lexique.

Nombre de syllabes (nbsyll)

Structure phonologique syllabique (cv-cv) : Elle décrit la structure phonologique du mot syllabé. Les consonnes sont notées C, les voyelles sont notées V et les semi-voyelles Y

Représentation orthographique inversée (orthrenv) : Ex: erbra (arbre). Ce type de champs, une fois trié, est très utile pour les personnes travaillant sur les terminaisons (p.ex. en morphologie)

Représentation phonologique inversée (phonrenv) : Ex: RbRa (aRbR). Même champs que précédemment mais pour la représentation phonologique.

Représentation orthographique syllabée (orthosyll): Champs encore expérimental donnant la représentation orthographique syllabée (Ex mai-son). L'algorithme utilisé montre quelque différences avec l'algorithme de syllabation utilisée sur les formes phonologiques (p.ex. les schwas finaux sont comptés comme des voyelles). Il fait notamment des erreurs sur les mots composés et quand deux voyelles se suivent (pays, yaourt, voyant, truand).

Catégories grammaticales possibles de la forme orthographique (cgramortho): Champs qui indique les différentes catégories grammaticales possibles pour une représentation orthographique donnée. P.ex. danse sera catégorisée comme "NOM,VER" c'est-à-dire un mot qui peut être soit un nom, soit un verbe.

Pourcentage de personnes connaissant la définition du lemme (deflem). Ce champs indique le pourcentage de personnes ayant dit qu’il connaissait le lemme du mot sur le site « Combien de mots connaissez-vous ? ». Cet indicateur peut donc constituer une sorte de fréquence subjective objective en quelques sortes ;-).

Nombre de personnes ayant répondu pour la définition de ce lemme (defobs). Ce champs indique le nombre de personnes à partir duquel nous avons construit le pourcentage du champs précédent (deflem).

Distance de Levenshtein orthographique (old20) Récemment Yarkoni, Balota et Yap (2008) ont essayé d'améliorer l'indice de voisinage donné par le nombre de voisins. Pour cela, pour un mot donné, ils ont calculé sa distance de Levenshtein en fonction de tous les autres mots. Enfin, ils ont calculé la distance moyenne des 20 mots les plus proches. Dans une série de régressions multiples ils trouvent que cette distance de Levenshtein moyenne explique davantage de variance que le nombre de voisins orthographiques. Nous avons ici calculé la distance de Levenshtein des 20 mots les plus proches en ayant calculé préalablement la distance de Levenshtein de chaque mot avec les 125 653 entrées orthographiquement différentes de la base Lexique 3.6. La distance de Levenshtein est le nombre de transformations (ajout, suppression, remplacement) pour arriver d'une chaîne de caractères à une autre. Par exemple la distance de Levenshtein entre jupe et juge est de 1 et de 2 entre jupe et juger.

Distance de Levenshtein phonologique (pld20) Ce champs est l'équivalent de la distance de Levenshtein orthographique appliqué à la représentation phonologique. (calculé en fonction des 71 358 formes phonologiques différentes de Lexique 3.6.

Morphologie Dérivationnelle (morphoder) Ce champs donne la décomposition en morphèmes dérivationnels d'un mot donné. Ainsi plumage est décomposé en plume-age. Ce champs est le résultat du programme Dérif (Namer, 2003; http://www.cnrtl.fr/outils/DeriF/). Attention pour la version actuelle de ce programme de nombreux suffixes et préfixes étant encore non traités ou traités partiellement). Par exemple, abandonner n'est pas ségmenté comme abandon-er mais comme un monomorphémique (abandonner). Nous sommes donc vivement intéressés par toute contribution concernant ce champs.

Nombre de morphèmes (dérivationnels) (nbmorph) C'est le nombre de morphèmes dérivationnels directement calculé à partir du champs précédent.

 

Déscription des codes utilisés dans LeFFF

Codage proche de celui utilisé par le LADL. Un code indiquant le mode et le temp : P, F, I, J, T, Y, Z, S, C, K, G, W

Code Mode Temps Exemple
P indicatif présent  
F indicatif futur  
I indicatif imparfait  
J indicatif passé-simple  
C conditionnel présent  
Y impératif présent  
S subjonctif présent  
T subjonctif imparfait  
K participe passé  
G participe présent  
W infinitif présent  

Un code indiquant la personne, le genre et le nombre.

    Lettre Signification
    1 1re personne
    2 2e personne
    3 3e personne
    m genre masculin
    f genre féminin
    s nombre singulier
    p nombre pluriel

Lorsque plusieurs codes de même nature se suivent, cela signifie que la forme est commune aux valeurs en question. Exemple : PSs12 = présent de l'indicatif ou du subjonctif, à la 1re ou 2e personne du singulier.

Description vocolex

Les champs informatifs de VoCoLex

 

Champs généraux

-phon : code phonétique

-hom : champ mentionnant s’il existe ou non des autres entrées homophoniques (hétérographiques ou non). Valeurs : 1= mot homophone ; 0= mot non-homophone.

-graph : représentation orthographique du mot

-graphies : représentations orthographiques des entrées homophoniques

-cgram : classe grammaticale (NO: nom; AJ: adjectif; VB: verbe; AV: adverbe; CO: conjonction; LO: locution; PN: pronom; IN: interjection; AR: article; PR: preposition).

-cgramH : classes grammaticales des homophones

-nphons : nombre de phonèmes

-Franfreqpm: fréquence formelle (selon LEXIQUE) de l’entrée orthographique (arrondie à l’unité par million)

-Frecum : fréquences cumulées des entrées orthographiques homophones (fréquence de la forme phonologique)

-nsyll : nombre de syllabe

-psylpal : segmentation syllabique. Les transitions syllabiques sont représentées par le signe “ - ”

Calculs de Cohorte 

(rmq. Le mot cible n’est jamais comptabilisé dans les différentes cohortes. Il s’agit donc des nombres de mots “ compétiteurs ”)

PU: point d'unicité du mot

PUS : point d’unicité du mot calculé par rapport aux mots possédant la même première syllabe

CoPty2 à CoPty9 : nombre de candidats dans la cohorte au Xe phonème. La 9e position correspond au silence suivant la fin du mot pour les mots de 8 phonèmes. La cohorte sur le 1er phonème n’est pas fournie (elle correspond au nombre de mots ayant un premier phonème identique). Sigles : Co= cohorte ; P= phonologique ; ty= calculs par type
CoPto2 à CoPto9: idem que CoPty2 à CoPty9 mais par token. Il s’agit donc de la fréquence cumulée des mots présents dans la cohorte.
Sigle: to = calcul par token

HfCoPty2 à HfCoPty9 : idem que CoPty2 à CoPty9 en ne considérant que les mots plus fréquents que le mot cible. Il s’agit donc d’une fraction de la cohorte considérée dans CoPty2 à CoPty9. Sigle : Hf= haute fréquence
HfCoPto2 à HfCopto9 : idem que HfCoPty2 à HfCopto9 mais par token. Il s’agit donc de la fréquence cumulée des mots plus fréquents dans la cohorte.

SCoPty2 à ScoPty9 : nombre de candidats dans la cohorte ayant la même première syllabe que le mot cible. Il s’agit d’un sous ensemble de la cohorte telle que calculée en CoPty2 à CoPty9. Sigle : S=syllabe
SCoPto2 à ScoPto9 : idem que SCoPty2 à ScoPty9 mais par token. Il s’agit donc de la fréquence cumulée des mots de la cohorte ayant une même première syllabe

HfSCoPty2 à HfSCoPty9 : idem que SCoPty2 à ScoPty9 mais en ne considérant que les mots plus fréquents
HfSCoPto2 à HfSCoPto9 : idem que HfSCoPty2 à HfSCoPty9 par token. Il s’agit donc de la fréquence cumulée des mots de la cohorte qui sont plus fréquents que la cible, et ayant la même première syllabe

Calculs de Voisinage 

Le voisinage est déterminé en prenant en compte:
-les voisins par substitution d’un caractère phonétique
-les voisins par addition d’un caractère
-les voisins par délétion d’un caractère

Les calculs déterminent:
-le nombre total de voisins
-le nombre total de voisins plus fréquents
-le nombre de voisins par substitution
-le nombre de voisins par addition
-le nombre de voisins par délétion

(tous les calculs ci-dessus sont réalisés par type et par token)

en outre, les valeurs par type sont fournies pour:
-le nombre de voisins par substitution pour chaque position
-le nombre de voisins par addition pour chaque position
-le nombre de voisins par délétion pour chaque position

Les différents champs informatifs sont les suivants:

-voty: nbr de voisins total par type (somme des trois sortes de voisins). Sigle: vo = voisin
-voto: idem par token

-vohfty: nbre de voisins total plus fréquents par type
-vohfto: idem par token

-voSty : nombre de voisins par substitution, par type. Sigle : S = substitution
-voSto : idem par token

-voAty : idem pour les voisins par addition. Sigle : A = addition
-voAto : idem par token

-voDty : idem pour les voisins par délétion. Sigle : D = délétion
-voDto : idem par token

-voSty1 à voSty8: nombre de voisin par substitution pour chaque position, par type.
-voAty1 à voAty8: idem pour les voisins par addition.
-voDty1 à voDty8: idem pour les voisins par délétion.

-voHSty1 à voHSty8: nombre de voisin par substitution plus fréquents pour chaque position, par type. Sigle : H = voisin de plus Haute fréquence
-voHAty1 à voHAty8: idem pour les voisins par addition.
-voHDty1 à voHDty8: idem pour les voisins par délétion.

http://patrick.nadia.pagesperso-orange.fr/Devinettes_classesdesmots.html