Les mots peuvent être décomposés en plusieurs parties, appelées monèmes, chacune porteuse d'une signification, et qui peuvent être recomposés à l'aide de règle de construction, permettant ainsi de construire de nouveaux mots.
Par exemple le site http://patrick.nadia.pagesperso-orange.fr/Nom%20grec.html propose une liste de prefixes et de suffixes d'origine grec, pour construire des noms grecs.
Préfixe
Signification Eu bien Calli beau Agath(o) bon Arist(o) excellent Pro en avant Prot(o) premier Thé(o) dieu Di(o) Zeus Hér(o) ou (a) Héra Apoll(o) Apollon Héli(o) Hélios Herm(o) Hermès Phil(o) qui aime Tim(o) honneur Clé(o) gloire Nic(o) victoire Is(o) égal Dém(o) peuple Lys(i) libération Poly nombreux Iphi avec force Prax(i) action Andr(o) homme (mâle) Chrys(o) or Xén(o) étranger Ant(i) en face Hipp(o) cheval Lyc(o) loup
Suffixe Signification phile qui aime time honneur cle gloire dème peuple andre homme (mâle) hippe cheval ide « fils de » (ou diminutif) gène origine gone enfant dore cadeau dote donné phane lumineux crate force, puissance sthène force physique phore qui porte arque qui dirige strate armée maque combat phron intelligence mède préparer, inventer crite juge phraste expliquer phon son, voix agore assemblée tèle fin
Cela est trés amusant, et permet d'inventer des noms grecs nouveaux. Ces préfixes et suffixes sont des exemples de monèmes, et la règle de construction consiste en la composition d'un préfixe et d'un suffixe. Mais toutes les combinaisons ne sont pas autorisées. Il y a d'autres règles qui excluent les accords phonétiquement disharmonieux ou difficilement prononçables.
On défini le monème comme la plus petite unité, orthographique et phonologique, doté de sens. Dans le tableau ci-dessus certain préfixe peuvent se complèter d'une voyelle "a, i, o". Ainsi le monème peut avoir plusieurs formes orthographiques et phonologiques.
Pour mener une analyse sur l'ensemble des mots du langage, et découvrir les règles de construction, il nous faut constituer une base de données sur les mots. Et pour des raisons de facilité de développement, cette base doit être un fichier texte, lisible par un humain.
Voici différentes bases de données que l'on peut se procurer sur l'Internet :
Origine |
Bases de données |
Dictionnaire numérisé (1 Mo) Encyclopédie numérisée (19 Mo) |
|
Table de données lexicales (5 Mo) Table de données de 11627 prénoms (66 Ko) Corpus de 37 millions de mots (77 Mo) |
|
Christophe Pallier http://www.pallier.org/ressources/dicofr/dicofr.html |
Liste de 336531 mots français (77 Mo) |
Table de données lexicales (3 Mo) Descriptif (64 Ko) |
|
Liste de 300000 mots communs (2 Mo) Liste de 12437 prénoms (26 Ko) Liste de 39076 cités françaises (242 Ko) |
|
Base de données lexicales (6 Mo) Table de données lexicales brut (3 Mo) |
|
Table de données lexicales (3 Mo) Table de données lexicales verbes (1 Mo) Codage (30 Ko) |
|
Université Paris-Est Marne-la-Vallée http://ladl.univ-mlv.fr/ http://infolingu.univ-mlv.fr/DonneesLinguistiques/... |
Dictionnaire DELA fléchi (5 Mo) |
Université de Toulouse Le Mirail |
Lexiques ... Corpus ... |
Lexique morphalou ... Corpus ... |
Voici différentes sources documentaires :
BnF (Bibliothèque nationale de France) GALLICA, bibliothèque numérique Une source documentaire du domaine publique : http://gallica.bnf.fr/ |
Université de Genève ATHENA Une source documentaire de textes classiques français http://athena.unige.ch/athena/admin/searchathena.html |
Université catholique de Louvain Une source documentaire du Latin : Liste, Intro, Reherche Une source documentaire du Grec : Liste |
Voici différents dictionnaires consultables en ligne :
Université de Caen CRISCO Dictionnaire des synonymes et antonymes : http://www.crisco.unicaen.fr/des/synonymes/ |
|
Université de Lorraine ATILF (Analyse et Traitement Informatique de la Langue Française) TLFi - Trésor de la Langue Française informatisée : Consultation TLF-Étym - Receuil étymologique de 304 mots : Consultation DMF - Dictionnaire du Moyen Français (1330-1500) : Consultation DECT - Dictionnaire électronique de Chétien de Troyes (12ème siècle) : Consultation DERom - Dictionnaire Étymologique Roman : Consultation |
|
Université de Chicago |
|
CNRTL (Centre National de Ressources Textuelles et Lexicales) : http://www.cnrtl.fr/ Dictionnaire de Trévoux (1740) : http://www.cnrtl.fr/dictionnaires/anciens/trevoux/menu1.php Dictionnaire critique de la langue française de Jean-François Féraud (1787) : ATILF, ARTFL |
|
Wikimedia France, association pour le partage de la connaissance |
Pour explorer ces bases de données, on va utiliser le langage de script, Ruby, un langage pur object particulièrement simple et puissant. On utilisera également le langage de scripte Javascript qui n'a pas la même puissance mais à l'avantage d'être exécutable par un navigateur internet sur les postes clients, l'internet constituant un vecteur efficace de propagande.
Il est opportun de forger nos premiers essais avec Ruby et Javascript, afin de pouvoir utiliser ces langages pleinement plus tard. Leur coté libre, gratuit et universelle, nous apportera un avantage certain en terme d'autonomie, d'interopérabilité, de communication....
On programme d'abord un jeux de procédures élémentaires, jugées fondamentales, qui constitura un framework, une boite à outils, standardisant un certain nombres de transformations et définissant un certain nombre de formats.
Les deux premières opérations qu'il convient de programmer, sont la copie d'une liste d'éléments figurant en mémoire vers un fichier et inversement. On défini ainsi le concept de liste d'éléments. Comme nous ne manipulons pour l'instant que des caractères, les éléments sont posée être des suites de caractères ne comprenant pas de caractère fin de ligne ni de carctère fin de fichier. Le caractère fin de ligne "\n" est utilisé pour passer à la ligne. Le caractère fin de fichier est utilisé pour désigner la fin du fichier. Le caractère fin de ligne sera utilisé pour séparer les éléments dans un fichier texte.
En mémoire, une liste d'éléments sera contenue dans une variable telle que m sous forme d'un tableau. Délors m[i] accéde au i-ième élément de la liste.
Le fichier contenant la liste est identifié par un nom tel que "Lexique372-C1.txt" et est placé dans le répertoire courant. On programme 2 procédures : listGet qui lit un fichier, et listPut qui écrit un fichier.
L'appel listGet(s) retourne un tableau contenant la liste des éléments du fichier de nom s.
L'appel listPut(m,s) écrit dans le fichier s la liste des éléments du tableau m.
Synopsie Corps m = listGet("Lexique372-C1.txt") # Lit la liste contenue dans le fichier Lexique375-C1.txt
# et la met dans le tableau m p m[1]
# affiche le premier élément de la liste listPut(m,"Lexique372-C1.txt")
# Ecrit la liste m dans le fichier Lexique375-C1.txt def listGet(s) m=[] f=File.open(s, "r:iso-8859-1:utf-8") i=1 f.each_line {|x| m[i]=x.chop; i+=1} f.close return m end def listPut(m,s) f = File.open(s, "w:iso-8859-1:utf-8") m.each { |x| f.write x+"\n"} f.close end
Noter que, en Ruby1.9.1, on peut spécifier l'encodage des caractères du fichier en iso-8859-1 et l'encodage utilisé par le programme en utf-8, opérant ainsi un transcodage. Pour plus de détaille voir http://nuclearsquid.com/writings/ruby-1-9-encodings/
Voici un exemple de petit programme calculant un histogramme, le nombre de mots de même longueur dans la liste de mots de Lexique372 :
m=listGet("Lexique372-C1.txt") # Lit la liste des mots qui sont dans le fichier Lexique372-C1.txt mm = m.reject {|x| x.include?("-") or x.include?(" ")} # enlève les mots doubles utilisant un caractère " " ou "-" h=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0] # Initialise l'histogramme mm.each{|x| h[x.size]+=1 } # Calcule l'histogramme
Cela donne :
Nombre
de lettres Nombre
de mots 1 53 2 174 3 780 4 2771 5 7066 6 13313 7 19177 8 22809 9 22041 10 18388 11 13429 12 8553 13 4884 14 2472 15 1169 16 508 17 181 18 77 19 37 20 12 21 3 22 1 23 1 24 0 25 1
En Javascript, le script s'exécute sur le poste client, et le fichier se trouve sur un serveur web distant. Le fichier est téléchargé grace à la commande javascript XMLHttpRequest puis est mis dans une variable javascript. L'écriture d'un fichier est plus délicate, elle nécessite un script coté serveur qui peut être écrit en php. On programme la procédure listGet qui lit un fichier.
L'appel listGet(s) retourne un tableau contenant la liste des éléments du fichier de nom s.
Synopsie Corps m = listGet("Lexique372-C1.txt") # Lit la liste contenue dans le fichier Lexique372-C1.txt
# et la met dans m p m[1]
# affiche le premier élément de la liste function listGet(s){ var r = new XMLHttpRequest() r.open("GET", s, false) r.send(null) return r.responseText.split("\n") }
Voici un exemple de petit programme calculant un histogramme, le nombre de mots de même longueur dans la liste de mots de Lexique372 :
m=listGet("Lexique372-C1.txt") # Lit la liste des mots qui sont dans le fichier Lexique372-C1.txt e=/[ ,-]/g
# Expression régulière pour repérer les mots doubles utilisant un caractère " " ou "-" mm=new Array n=m.length for(i=0;i<n;i++) if (!m[i].match(e)) mm.push(m[i]) # enlève les mots doubles utilisant un caractère " " ou "-" h=new Array(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) # Initialise l'histogramme n=mm.length for(i=0;i<n;i++) h(mm[i].length)+=1 # Calcule l'histogramme
---- 9 Décembre 2012 ----
La phonologie n'a pas besoin de décrire les sons de la parole avec une aussi grande précision que la phonétique, car elle n'intervient que pour construire les mots et les phrases à partir d'éléments phoniques de définition plus large. C'est pourquoi elle utillise beaucoup moins de symbôles que la phonétique. Elle décrit les sons de la parole non pas comme des unités physiologiques avec toutes leurs variétés possibles, mais comme de simples éléments d'une structure construisant les mots et les phrases. La phonologie possède une notation propre à chaque langue, voir à chaque accent régional, et nous pourrions dire aussi à chaque point de vue linguistique.
Code API |
Codes Lexique |
Codes VoCoLex |
Code réduit |
Exemples |
Appellation |
Qualité1 |
Qualité2 |
Quallité3 |
Qualité4 |
Qualité5 |
Qualité6
|
p |
p |
p |
p |
père,
soupe |
p |
Consonne | occlusive | bilabiale | sourde | ||
b |
b |
b |
b |
bon,
robe |
b |
Consonne | occlusive | bilabiale | voisée | ||
t |
t |
t |
t |
terre,
vite |
t |
Consonne | occlusive | dentale | sourde | ||
d |
d |
d |
d |
dans,
aide |
d |
Consonne | occlusive | dentale | voisée | ||
k |
k |
k |
k |
carré,
laque |
k |
Consonne | occlusive | vélaire | sourde | ||
g |
g |
g |
g |
gare,
bague |
g |
Consonne | occlusive | vélaire | voisée | ||
f |
f |
f |
f |
feu,
neuf |
f |
Consonne | fricative | labio-dentale | voisée | ||
v |
v |
v |
v |
vous,
rêve |
v |
Consonne | fricative | labio-dentale | sourde | ||
s |
s |
s |
s |
sale,
dessous |
s |
Consonne | fricative | alvéolaire | sourde | ||
z |
z |
z |
z |
zéro,
maison |
z |
Consonne | fricative | alvéolaire | voisée | ||
∫ |
S |
S |
ch |
chat,
tâche |
ch |
Consonne | fricative | post-alvéolaire | sourde | ||
ʒ |
Z |
Z |
j |
gilet,
mijoter |
ge |
Consonne | fricative | post-alvéolaire | voisée | ||
m |
m |
m |
m |
main,
femme |
m |
Consonne | nasale | bilabiale | voisée | ||
n |
n |
n |
n |
nous,
tonne |
n |
Consonne | nasale | alvéolaire | voisée | ||
ɲ |
N |
N |
gn |
agneau,
vigne |
gn |
Consonne | nasale | palatale | voisée | ||
l |
l |
l |
l |
lent,
sol |
l |
Consonne | latérale | alvéolaire | voisée | liquide |
|
r |
R |
R |
r |
rue,
venir |
R |
Consonne | fricative | uvulaire | voisée | ||
x |
x |
x |
r |
jota |
jota |
Consonne | fricative | vélaire | sourde | espagnole |
|
ŋ |
G |
G |
ng |
camping,
mah-jong |
ng |
Consonne | nasale | vélaire | voisée | anglaise |
|
j |
j |
j |
y |
lieu,
paille |
y |
Semi-voyelle | spirante | palatale | sonnore | ||
ɥ |
8 |
8 |
u |
huit,
lui |
ui |
Semi-voyelle | spirante | labio-palatale | sonnore | ||
w |
w |
w |
ou |
oui,
nouer |
w |
Semi-voyelle | spirante | labio-vélaire | sonnore | ||
ɑ, a |
a |
a |
a |
bat,
plat |
a |
voyelle | anterieur | ouverte | non arrondie |
||
i |
i |
i |
i |
lit,
émis |
i |
voyelle | anterieur | fermé | non arrondie |
||
y |
y |
y |
u |
lu,
mur |
u |
voyelle | anterieur | fermé | arrondie |
||
u |
u |
u |
ou |
roue,
cou |
ou |
voyelle | postérieur | fermé | arrondie |
||
o |
o |
O |
o |
peau,
mot |
o fermé |
voyelle | posterieur | mi-fermé | arrondie | ||
ɔ |
O |
O |
o |
éloge,
fort |
o ouvert |
voyelle | postérieur | mi-ouverte | arrondie |
||
e |
e |
e |
ê |
église,
nez |
e fermé |
voyelle | anterieur | mi-fermé | non arrondie |
||
ε |
E |
E |
ê |
paire,
mère |
e ouvert |
voyelle | anterieur | mi-ouverte | non arrondie |
||
ə |
° |
* |
e |
abordera,
fermeté,
parvenu |
schwa |
voyelle | centrale | moyenne | |||
ø |
2 |
2 |
e |
deux,
peu |
eu fermé |
voyelle | antérieur | mi-fermé | arrondie |
||
œ |
9 |
9 |
e |
œuf,
peur |
eu ouvert |
voyelle | anterieur | mi-ouverte | arrondie |
||
ɛ̃ |
5 |
5 |
in |
cinq,
linge |
in |
voyelle | nasale | anterieur | pré-ouverte | non arrondie |
|
œ̃ |
1 |
1 |
in |
parfum,
brun |
un |
voyelle | nasale | antérieur | pré-ouverte | non arrondie |
|
ɑ̃ |
@ |
@ |
an |
ange,
franc |
an |
voyelle | nasale | postérieur | ouverte | arrondie |
|
ɔ̃ |
§ |
§ |
on |
savon,
monde |
on |
voyelle | nasale | postérieur | mi-fermée | arrondie |
voir http://alis.isoc.org/glossaire/phonetique.htm
à revoir selon le Grevisse
site parent : http://mabboux.net/
---- 19 Août 2012 ----
New B., Pallier C., Ferrand L., Matos R. (2001) Une base de données lexicales du français contemporain sur internet: LEXIQUE, L'Année Psychologique, 101, 447-462. http://www.lexique.org
New, B., Pallier, C., Brysbaert, M., Ferrand, L. (2004) Lexique 2 : A New French Lexical Database. Behavior Research Methods, Instruments, & Computers, 36 (3), 516-524.
La base de données lexicales consiste en un tableau de 35 colonnes :
Titre de la colonne |
Déscription |
|
1 | ortho | Mot |
2 | phon | Forme phonologique |
3 | lemme | Lemme |
4 | cgram | Catégorie grammaticale |
5 | genre | Genre |
6 | nombre | Nombre |
7 | freqlemfilms2 | Fréquence du lemme selon le corpus de sous-titres (par million d'occurences) |
8 | freqlemlivres | Fréquence du lemme selon le corpus de livres (par million d'occurences) |
9 | freqfilms2 | Fréquence du mot selon le corpus de sous-titres (par million d'occurences) |
10 | freqlivres | Fréquence du mot selon le corpus de livres (par million d'occurences) |
11 | infover | Modes, temps, et personnes possibles pour les verbes |
12 | nbhomogr | Nombre d'homographes |
13 | nbhomoph | Nombre d'homophones |
14 | islem | Indique si c'est un lemme ou pas |
15 | nblettres | Nombre de lettres |
16 | nbphons | Nombre de phonèmes |
17 | cvcv | Structure orthographique |
18 | p_cvcv | Structure phonologique |
19 | voisorth | Nombre de voisins orthographiques |
20 | voisphon | Nombre de voisins phonologiques |
21 | puorth | Point d'unicité orthographique |
22 | puphon | Point d'unicité phonologique |
23 | syll | Forme phonologique syllabée |
24 | nbsyll | Nomre de syllabes |
25 | cv-cv | Structure phonologique syllabée |
26 | orthrenv | Forme orthographique inversée |
27 | phonrenv | Forme phonologique inversée |
28 | orthosyll | Forme orthographique syllabée |
29 | cgramortho | Liste des catégories grammaticales possibles |
30 | deflem | Pourcentage de personnes connaissant ce mot |
31 | defobs | Nombre de personnes qui ont répondus au teste de connaisance de ce mot. |
32 | old20 | Distance de Levenshtein moyenne des 20 mots les plus proches. |
33 | pld20 | Distance de Levenshtein moyenne des 20 formes phonologiques les plus proches. |
34 | morphoder | Décomposition en morphèmes dérivationnels d'un mot |
35 | nbmorph | Nombre de morphèmes |
Lemme : Le lemme est la forme canonique, c’est à dire l’infinitif pour un verbe, le masculin singulier pour un nom ou un adjectif. Par exemple, le mot chienne a pour lemme chien.
Codes des catégories grammaticales :
Codes |
Catégorie grammaticale
|
Exemple |
ADJ |
Adjectif |
Un chat bleu |
ADJ:dem |
Adjectif démonstratif |
Ce chat |
ADJ:ind |
Adjectif indéfini |
Aucun chat |
ADJ:int |
Adjectif interrogatif |
Quel chat ? |
ADJ:num |
Adjectif numérique |
Deux chats |
ADJ:pos |
Adjectif possessif |
Son chat |
ADV |
Adverbe |
Mange vite |
ART:def | Article défini | Le chat |
ART:ind | Article indéfini | Un chat |
AUX | Auxilière | Il a parlé |
CON | Conjonction | mais, ou, et, donc... |
LIA | Liaison euphonique | Va-t-il dormir ? |
NOM | Nom commun | Le chat |
ONO | Onomatopée | Boum |
PRE | Préposition | derrière le chat |
PRO:dem | Pronom démonstratif | Celui qui mange |
PRO:ind | Pronom indéfini | Quelqu'un vient |
PRO:int | Pronom interrogatif | Qui vient ? |
PRO:per | Pronom personnel | Il vient |
PRO:pos | Pronom possessif | Le mien est noir |
PRO:rel | Pronom relatif | Le chat qui dort |
VER | Verbe | Mange |
Genre (genre) : Un mot peut être masculin (m) ou féminin (f).
Nombre (nombre) : Un mot peut être singulier (s) ou pluriel (p)
Fréquence du lemme : Cela correspond à la somme des fréquences des formes fléchies de chaque lemme. Exemple : freq (arbre) = freq ("arbre") + freq ("arbres")
Informations verbales (infover) : Ce sont les informations de mode, de temps, et de personne que sont susceptibles de prendre les formes verbales
|
|
|
Nombre d'homographes (nbhomogr) : Nombre d'entrées ayant la même forme orthographique mais pouvant différer de par leur catégorie grammaticale ou de par leur lemme.
Nombre d'homophones (nbhomoph) : Nombre d'entrées ayant la même forme phonologique.
Nombre de lettres (nblettres) :
Nombre de phonèmes (nbphons) :
Structure orthographique (cvcv) : Elle décrit la structure orthographique. Les voyelles sont notées V, les consonnes sont notées par C. Ainsi chienne est représentée par ccvvccv.
Structure de la forme phonologique (p-cvcv) : C'est un découpage du mot en voyelles (V) et consonnes (C) selon sa représentation phonologique.
Nombre de voisins orthographiques (voisorth) : Le nombre de voisins orthographiques calculés à partir toutes les entrées de la base. Les voisins orthographiques d’un mot sont les mots qui peuvent être créés en changeant une lettre sans modifier pour autant la position des autres lettres (Coltheart, Davelaar, Jonasson et Besner, 1977). Par exemple, les mots vidé, et aidé sont tous des voisins orthographiques du mot aidé. Les différents voisins de chaque mot sont présentés dans la table Voisins (que l'on peut télécharger sur http://www.lexique.org).
Nombre de voisins phonologiques (voisphon) : Les voisins phonologiques d'un mot sont des mots qui peuvent être créés en changeant un phonème sans modifier les autres. Ils ont aussi été calculés à partir de toutes les entrées phonologiques de la base Lexique3.
Point d’unicité orthographique (puorth) : Le point d’unicité orthographique correspond au rang de la lettre en partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté. Nous avons calculé les points d'unicité sur la base des lemmes pour que les formes plurielles ne parasitent pas les calculs (sinon toutes les formes ayant un pluriel ont un point d'unicité égale à leur longueur). Pour les formes orthographiques n'étant pas lemmes, le point d'unicité orthographique est de 0.[avant la version 2.60 les voisins n’étaient pas calculés sur les lemmes mais sur toutes les entrées de Lexique3s]
Point d’unicité phonologique (puphon) : Le point d’unicité phonologique correspond au rang du phonème en partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté. Le point d'unicité phonologique a aussi été calculé sur la base des lemmes. Pour certains lemmes très rares nous n'avions pas leurs représentations phonologiques (les représentations phonologiques ont été calculées sur les formes orthographiques). Pour les formes orthographiques n'étant pas lemmes, le point d'unicité phonologique est de 0.
Syllabation (syll) : Les formes phonologiques ont été syllabées selon un algorithme de syllabation décrit dans Dufour, Peereman, Pallier et Radeau (sous presse). Une version mise à jour de l’article décrivant l’algorithme utilisé est présente à l’adresse suivante En résumé, nous avons retenu la syllabation adoptée par Pallier (1994). La syllabation est calculée sur la représentation phonologique présente dans Lexique dont on a enlevé les schwas finaux. Cette syllabation est basée sur le principe général d'une segmentation syllabique entre deux consonnes sauf dans les cas des occlusives + liquides ou d'une fricative labio-dentale suivie d'une liquide. Le script de syllabation (syllabation.awk) est distribué avec lexique.
Nombre de syllabes (nbsyll)
Structure phonologique syllabique (cv-cv) : Elle décrit la structure phonologique du mot syllabé. Les consonnes sont notées C, les voyelles sont notées V et les semi-voyelles Y
Représentation orthographique inversée (orthrenv) : Ex: erbra (arbre). Ce type de champs, une fois trié, est très utile pour les personnes travaillant sur les terminaisons (p.ex. en morphologie)
Représentation phonologique inversée (phonrenv) : Ex: RbRa (aRbR). Même champs que précédemment mais pour la représentation phonologique.
Représentation orthographique syllabée (orthosyll): Champs encore expérimental donnant la représentation orthographique syllabée (Ex mai-son). L'algorithme utilisé montre quelque différences avec l'algorithme de syllabation utilisée sur les formes phonologiques (p.ex. les schwas finaux sont comptés comme des voyelles). Il fait notamment des erreurs sur les mots composés et quand deux voyelles se suivent (pays, yaourt, voyant, truand).
Catégories grammaticales possibles de la forme orthographique (cgramortho): Champs qui indique les différentes catégories grammaticales possibles pour une représentation orthographique donnée. P.ex. danse sera catégorisée comme "NOM,VER" c'est-à-dire un mot qui peut être soit un nom, soit un verbe.
Pourcentage de personnes connaissant la définition du lemme (deflem). Ce champs indique le pourcentage de personnes ayant dit qu’il connaissait le lemme du mot sur le site « Combien de mots connaissez-vous ? ». Cet indicateur peut donc constituer une sorte de fréquence subjective objective en quelques sortes ;-).
Nombre de personnes ayant répondu pour la définition de ce lemme (defobs). Ce champs indique le nombre de personnes à partir duquel nous avons construit le pourcentage du champs précédent (deflem).
Distance de Levenshtein orthographique (old20) Récemment Yarkoni, Balota et Yap (2008) ont essayé d'améliorer l'indice de voisinage donné par le nombre de voisins. Pour cela, pour un mot donné, ils ont calculé sa distance de Levenshtein en fonction de tous les autres mots. Enfin, ils ont calculé la distance moyenne des 20 mots les plus proches. Dans une série de régressions multiples ils trouvent que cette distance de Levenshtein moyenne explique davantage de variance que le nombre de voisins orthographiques. Nous avons ici calculé la distance de Levenshtein des 20 mots les plus proches en ayant calculé préalablement la distance de Levenshtein de chaque mot avec les 125 653 entrées orthographiquement différentes de la base Lexique 3.6. La distance de Levenshtein est le nombre de transformations (ajout, suppression, remplacement) pour arriver d'une chaîne de caractères à une autre. Par exemple la distance de Levenshtein entre jupe et juge est de 1 et de 2 entre jupe et juger.
Distance de Levenshtein phonologique (pld20) Ce champs est l'équivalent de la distance de Levenshtein orthographique appliqué à la représentation phonologique. (calculé en fonction des 71 358 formes phonologiques différentes de Lexique 3.6.
Morphologie Dérivationnelle (morphoder) Ce champs donne la décomposition en morphèmes dérivationnels d'un mot donné. Ainsi plumage est décomposé en plume-age. Ce champs est le résultat du programme Dérif (Namer, 2003; http://www.cnrtl.fr/outils/DeriF/). Attention pour la version actuelle de ce programme de nombreux suffixes et préfixes étant encore non traités ou traités partiellement). Par exemple, abandonner n'est pas ségmenté comme abandon-er mais comme un monomorphémique (abandonner). Nous sommes donc vivement intéressés par toute contribution concernant ce champs.
Nombre de morphèmes (dérivationnels) (nbmorph) C'est le nombre de morphèmes dérivationnels directement calculé à partir du champs précédent.
Codage proche de celui utilisé par le LADL. Un code indiquant le mode et le temp : P, F, I, J, T, Y, Z, S, C, K, G, W
Code | Mode | Temps | Exemple |
---|---|---|---|
P | indicatif | présent | |
F | indicatif | futur | |
I | indicatif | imparfait | |
J | indicatif | passé-simple | |
C | conditionnel | présent | |
Y | impératif | présent | |
S | subjonctif | présent | |
T | subjonctif | imparfait | |
K | participe | passé | |
G | participe | présent | |
W | infinitif | présent |
Un code indiquant la personne, le genre et le nombre.
Lettre | Signification |
---|---|
1 | 1re personne |
2 | 2e personne |
3 | 3e personne |
m | genre masculin |
f | genre féminin |
s | nombre singulier |
p | nombre pluriel |
Lorsque plusieurs codes de même nature se suivent, cela signifie que la forme est commune aux valeurs en question. Exemple : PSs12 = présent de l'indicatif ou du subjonctif, à la 1re ou 2e personne du singulier.
Les champs informatifs de VoCoLex
Champs généraux
-phon : code phonétique
-hom : champ mentionnant s’il existe ou non des autres entrées homophoniques (hétérographiques ou non). Valeurs : 1= mot homophone ; 0= mot non-homophone.
-graph : représentation orthographique du mot
-graphies : représentations orthographiques des entrées homophoniques
-cgram : classe grammaticale (NO: nom; AJ: adjectif; VB: verbe; AV: adverbe; CO: conjonction; LO: locution; PN: pronom; IN: interjection; AR: article; PR: preposition).
-cgramH : classes grammaticales des homophones
-nphons : nombre de phonèmes
-Franfreqpm: fréquence formelle (selon LEXIQUE) de l’entrée orthographique (arrondie à l’unité par million)
-Frecum : fréquences cumulées des entrées orthographiques homophones (fréquence de la forme phonologique)
-nsyll : nombre de syllabe
-psylpal : segmentation syllabique. Les transitions syllabiques sont représentées par le signe “ - ”
Calculs de Cohorte
(rmq. Le mot cible n’est jamais comptabilisé dans les différentes cohortes. Il s’agit donc des nombres de mots “ compétiteurs ”)
PU: point d'unicité du mot
PUS : point d’unicité du mot calculé par rapport aux mots possédant la même première syllabe
CoPty2
à CoPty9 : nombre de candidats dans la cohorte au Xe phonème. La 9e position
correspond au silence suivant la fin du mot pour les mots de 8 phonèmes. La
cohorte sur le 1er phonème n’est pas fournie (elle correspond au nombre de mots
ayant un premier phonème identique). Sigles : Co= cohorte ; P=
phonologique ; ty= calculs par type
CoPto2 à CoPto9: idem que CoPty2 à CoPty9 mais par token. Il s’agit donc de
la fréquence cumulée des mots présents dans la cohorte. Sigle: to = calcul par token
HfCoPty2
à HfCoPty9 : idem que CoPty2 à CoPty9 en ne considérant que les mots plus
fréquents que le mot cible. Il s’agit donc d’une fraction de la cohorte considérée
dans CoPty2 à CoPty9. Sigle : Hf= haute fréquence
HfCoPto2
à HfCopto9 : idem que HfCoPty2 à HfCopto9 mais par token. Il s’agit donc
de la fréquence cumulée des mots plus fréquents dans la cohorte.
SCoPty2
à ScoPty9 : nombre de candidats dans la cohorte ayant la même première
syllabe que le mot cible. Il s’agit d’un sous ensemble de la cohorte telle que
calculée en CoPty2 à CoPty9. Sigle : S=syllabe
SCoPto2
à ScoPto9 : idem que SCoPty2 à ScoPty9 mais par token. Il s’agit donc de
la fréquence cumulée des mots de la cohorte ayant une même première syllabe
HfSCoPty2
à HfSCoPty9 : idem que SCoPty2 à ScoPty9 mais en ne considérant que les
mots plus fréquents
HfSCoPto2
à HfSCoPto9 : idem que HfSCoPty2 à HfSCoPty9 par token. Il s’agit donc
de la fréquence cumulée des mots de la cohorte qui sont plus fréquents que la
cible, et ayant la même première syllabe
Calculs de Voisinage
Le
voisinage est déterminé en prenant en compte:
-les
voisins par substitution d’un caractère phonétique
-les voisins
par addition d’un caractère
-les
voisins par délétion d’un caractère
Les
calculs déterminent:
-le
nombre total de voisins
-le
nombre total de voisins plus fréquents
-le
nombre de voisins par substitution
-le
nombre de voisins par addition
-le
nombre de voisins par délétion
(tous les calculs ci-dessus sont réalisés par type et par token)
en
outre, les valeurs par type sont fournies pour:
-le
nombre de voisins par substitution pour chaque position
-le
nombre de voisins par addition pour chaque position
-le
nombre de voisins par délétion pour chaque position
Les différents champs informatifs sont les suivants:
-voty:
nbr de voisins total par type (somme des trois sortes de voisins). Sigle:
vo = voisin
-voto:
idem par token
-vohfty:
nbre de voisins total plus fréquents par type
-vohfto:
idem par token
-voSty :
nombre de voisins par substitution, par type. Sigle : S = substitution
-voSto :
idem par token
-voAty :
idem pour les voisins par addition. Sigle : A = addition
-voAto :
idem par token
-voDty :
idem pour les voisins par délétion. Sigle : D = délétion
-voDto :
idem par token
-voSty1
à voSty8: nombre de voisin par substitution pour chaque position, par type.
-voAty1
à voAty8: idem pour les voisins par addition.
-voDty1
à voDty8: idem pour les voisins par délétion.
-voHSty1
à voHSty8: nombre de voisin par substitution plus fréquents pour chaque position,
par type. Sigle : H = voisin de plus Haute fréquence
-voHAty1 à
voHAty8: idem pour les voisins par addition.
-voHDty1
à voHDty8: idem pour les voisins par délétion.
http://patrick.nadia.pagesperso-orange.fr/Devinettes_classesdesmots.html