Transcription numérique des caractères chinois
By Matthieu on Friday, November 11 2011, 00:29 - Linguistique - Permalink
L’écriture idéographique pose de multiples défis originaux aux habitudes occidentales. Pas d’alphabet donc pas d’ordre alphabétique ! Les dictionnaires du chinois préfèrent la méthode de classement par nombre de traits, ce qui permet de retrouver dans un dictionnaire un caractère inconnu en comptant les coups de crayon qui le composent. Depuis les latinisations des caractères, et plus récemment la définition du Pinyin officiel, les dictionnaires peuvent maintenant proposer un classement alphabétique suivant la transcription latine. Mais cela n’a d’utilité que si la prononciation est déjà connue du lecteur, ce qui n’est pas sur dans le cas d’une rencontre dans un texte !
Par ailleurs depuis l’arrivée des ordinateurs, le chinois peut s’écrire de nombreuses façons. La plus courante consiste à écrire le forme latinisée en Pinyin et à sélectionner le caractères recherché, ou bien laisser l’ordinateur suggérer lui-même le caractère le plus probable étant donne le contexte. Cette méthode a le mérite d’utiliser le clavier alphabétique disponible. D’autres systèmes de saisie à peine différents utilisent un syllabaire comme à Taiwan, ou bien des fragments de syllabe afin d’optimiser la vitesse de saisie.
Ce qui m’intéresse aujourd’hui ce sont les modes de saisie basées sur les séquences de traits. En effet, mon téléphone me propose d’écrire les caractères à l’aide de 5 traits : 1=horizontal , 2=vertical, 3=biais gauche, 4=biais droit, 5=crochet. Puisque l’ordre dans lequel le chinois se trace est clairement défini par des règles, chacun des 50,000+ caractères peut être retrouvé par cette séquence de chiffres !
Par exemple :
一 = 1
二 = 11
工 = 121
八 ou 入 ou人 = 34
六 = 4134
亅 ou 了= 5
马 = 2551
Comme le montre le code 34, cette transcription produit des « homonymes » et donc n’est pas réversible. L’ordinateur pousse ce système plus loin avec la définition d’autres types de traits : 6=crochet droit, 7=croix, 8=carre.
Exemples :
十 = 7
义 = 47
木 = 734
口 = 8 (ou « 251 » sur mon téléphone)
品 = 888
七 ou匸 = 16
女 = 631 ( !? Je croyais que ce serait 136…)
Là ou ce codage par chiffre devient passionnant, c’est qu’un nombre peut se composer d’une partie entière et décimale, sépares par une virgule : 12345,6789 . Cela colle bien avec le fait que les caractères chinois présentent souvent 2 parties distinctes : la racine (rôle plutôt phonétique) et la clef (rôle sémantique, venant dériver la racine). Puisque la clef s’écrit (presque ?) toujours à gauche ou en haut, elle se trace en premier. Cela signifie que les chiffres désignant ces clefs se trouveront au début du nombre transcrivant le caractère. Il ne reste plus qu’à placer la virgule pour clairement délimiter la clef et la racine.
Exemples (classiques !) :
吗 = 8,2551
骂 = 88,2551
妈 = 631,2551
杩 = 734,2551
Ainsi la transcription numérique se rapproche de la façon visuelle dont on perçoit le caractère : la partie graphique commune se traduit par une redondance de séquence numérique.
Pour en revenir au dictionnaire, il pourrait proposer un classement par ordre numérique, soit de la partie entière (classement plutôt sémantique), soit de la partie décimale (classement plutôt phonétique).