Eyas Naif Assaf : Avec Jendoubi, Ooredoo Tunisie mise sur l'excellence et la fierté nationale    Mohamed Ali ben Hafsia – Ooredoo Tunisie : Avec Jendoubi, Ooredoo soutient la Tunisie vers l'or et la fierté olympique    L'Université de Sfax et l'Université algérienne Abbes Laghrour Khenchela signent une convention de coopération    Lotfi Ben Haj Kacem annonce le rebranding de Hayett Assurances et fixe le cap des prochaines années    Nouvelair lance une offre exclusive dédiée à son programme de fidélité Jasmin    Nouveau projet de loi : bientôt accessible à toutes les femmes, sans condition d'enfants    Ooredoo Tunisie Sponsor Officiel du Champion du monde Mohamed Khalil Jendoubi    Dattes à prix abordables : deux points de vente directe bientôt à Tunis et Monastir    Dry January : un mois sans alcool face au déni tunisien    The Aviator Institute rejoint le réseau Airbus et positionne la Tunisie comme hub de formation aéronautique    Mahindra Tunisie lance le nouveau 3XO: Une nouvelle référence dans le segment des SUV compacts    Le ministère du Commerce avertit : dites NON au café non contrôlé !    Causes et facteurs de risque du pancréas    Intempéries aujourd'hui : écoles fermées à Béja    La FIFA en mission en Tunisie pour évaluer l'usage du VAR    70 ans de relations Tunisie–Allemagne : Elisabeth Wolbers trace les perspectives d'une coopération renforcée    La Tunisie au Conseil de Sécurité : Rien n'a changé dans les territoires palestiniens occupés, le cessez-le-feu reste violé par la puissance occupante (Vidéo)    Maledh Marrakchi - IA en 2026: D'après Stanford, l'heure des comptes a sonné    Match Tunisie vs Algérie : où regarder la demi-finale de la CAN Handball 2026    Philip Morris Tunisie confirme son leadership RH : 8e certification Top Employer    Constituants sans constitutionnalisme, thème des Journées Abdelfettah Amor    Météo en Tunisie : temps pluvieux au nord    Le Forum Chokri Belaid des Arts se déroule dans sa 9ème édition du 1er au 7 février 2026    Les experts confirment : la Tunisie peut-elle connaître des ouragans ?    Rapport entre monde de la recherche et monde de la pratique: La recherche collaborative    L'Inde fête sa République à Tunis aux côtés de partenaires tunisiens    Le cirque Paparouni s'installe à Carthage durant les vacances scolaires et présente Jungle Book    D'où vient un trésor historique découvert à Houaria ?    Forum Chawki Gaddes pour les droits numériques - Journée d'étude sur la protection des données personnelles : Mercredi 28 janvier 2026, faculté des sciences juridiques, politiques et sociales de Tunis    Les judokas Tunisiens remportent 5 médailles dont 2 en or à l'Open international seniors de judo à Casablanca    Décès d'une star du football, Mahfoudh Benzarti : une carrière singulière    Inondations : Kaïs Saïed appelle à des mesures concrètes et à une mobilisation nationale    Vagues géantes à Nabeul : des vestiges antiques dévoilés après les tempêtes    Baker Ben Fredj revient avec l'exposition 'Le Reste' à la galerie Archivart après 20 ans d'absence    Kais Saied reçoit l'ambassadrice de Pologne à l'occasion de la fin de sa mission en Tunisie    Intempéries : fermeture temporaire du Palais Ennejma Ezzahra    Justice : trois ans et demi de prison pour Borhan Bsaies et Mourad Zeghidi    Document – Le discours-évènement du Premier ministre canadien Mark Carney à Davos : privilégier les valeurs, face à la domination    Tahar Bekri: Saule majeur    Penser le futur par le passé: Carthage antique et le boomerang colonial dans la géopolitique du Groenland    Abdellaziz Ben-Jebria – Mes périples et maisons : lieux en souvenir    Professeur Amor Toumi: Père de la pharmacie et du médicament en Tunisie    Programme Ceinture Verte en Tunisie : reboisement pour lutter contre la dégradation des sols et la désertification    Khadija Taoufik Moalla: Mourad Wahba, le philosophe qui voulait réconcilier raison, foi et humanité    USA: La suspension de la délivrance de visas affecte-t-elle un visa en cours de validité et s'applique-t-elle aux visas de tourisme ? Voici la réponse    Secousse tellurique en Tunisie, au nord de Béja ressentie par les habitants    L'Université de Sousse et le Centre Universitaire de Maghnia (Algérie) scellent un partenariat stratégique    Tunisie–Mali (1-1, tab. 2-3): Une élimination frustrante    







Merci d'avoir signalé!
Cette image sera automatiquement bloquée après qu'elle soit signalée par plusieurs personnes.



La journée internationale de la langue maternelle
Publié dans Tunivisions le 21 - 02 - 2018


Dr. Wafa Touihri Manchoul
Enseignante universitaire de sociologie
A l'occasion de la journée internationale de la langue materne
Je vous propose de consulter mon essai d'étude info linguistique sur ma langue maternelle : la langue arabe.
Reconnaissance des carctères arabes manuscrits
⦁ La recherche sur la reconnaissance automatique des caractères arabes est un axe épistémologique scientifique récent pour réussir à surmonter une multitude d'obstacles et de difficultés. En effet, avec l'air de l'Internet, du multimédia, la reconnaissance de l'arabe est utile de contribuer comme ses disciplines proches, la reconnaissance de l'écriture latine, la reconnaissance vocale et de traitement de vision, dans les applications actuelles autour des bibliothèques numériques, la sécurité des documents et dans le traitement des données numériques en général.
La reconnaissance de l'écriture arabe s'intègre dans le cadre général de la reconnaissance de l'écriture cursive, avec des spécificités et des problèmes qui lui sont propres.
⦁ Difficultés spécifiques au texte arabe
Ecrit de droite à gauche, le texte arabe se compose de 29 caractères (vingt-huit si l'on exclut la hamza, qui se comporte, soit comme une lettre à part entière, soit comme un diacritique), sans majuscules ou minuscules d'une manière cursive.
Plusieurs et différentes formes caractérisent les lettres arabes .Une lettre arabe peut avoir jusqu'à quatre formes différentes de base selon la position de la lettre dans le mot, comme le montre le tableau.


Formes des caractères arabes
La première colonne donne le numéro du caractère, la deuxième représente le signe d'un caractère isolé, le troisième étant Son apparition au début du mot, la quatrième et cinquième colonne représentent leur apparition au milieu et à la fin du mot, respectivement.
Dans les caractères arabes, les points jouent un rôle important. La forme de certains caractères est similaire, mais la différence se pose avec la position et le nombre des points, cela peut se produire soit au-dessus ou en dessous des caractères. Par exemple, trois caractères tels que (ب, ت, ث) caractères qui ont une forme similaire. L'écriture des points est différente : ils peuvent apparaître sous la forme de deux points distincts ou peuvent être connectés en ligne dans des textes manuscrits. En outre, des marques courtes comme un «hamza», peuvent être placées au-dessus ou au-dessous de cinq caractères particuliers ou peuvent apparaître comme des caractères isolés. Une autre spécificité, certains caractères arabes ont une boucle, comme (ص, ف, و). De plus, le texte arabe est cursif; Ce qui signifie que les caractères d'un mot sont reliés par une ligne horizontale imaginaire appelée ligne de base. En outre, il y a des lignes qui apparaissent au-dessus et au-dessous de la ligne de base, appelé ascendants et descendants.
En outre, il existe six caractères (ا, د, ذ, ر, ز, و) qui n'ont pas de forme au début et au milieu du mot.
Par conséquent, ces caractères ne se connectent pas au caractère suivant dans un mot et cela provoque une séparation du mot en parties. Ces parties sont appelées sous-mots. Les espaces séparent les mots et les espaces courts séparent les sous-mots.
Les styles et les tailles de caractères dans le même mot dans un texte écrit à la main en arabe diffèrent pour le même auteur ainsi que pour différents auteurs.
En outre, deux ou plusieurs caractères dans la langue arabe manuscrite peuvent être combinés verticalement et représentés par différentes formes. Ce chevauchement entre les caractères voisins est appelé une ligature et signifie que le second caractère peut apparaître avant le premier dans certains cas. Une ligature peut se produire lorsque des caractères tels que (ح, خ, ج, م, ل) apparaissent après certains autres caractères.
Dans les textes arabes manuscrits, Il existe des différences entre la longueur et la largeur des caractères arabes, par exemple (ا, ب). Le même caractère peut sembler différent dans ses diverses formes, telles que غ. En outre, la grande similitude entre certains des caractères manuscrits rend la classification de ces caractères un autre défi.
⦁ Les difficultés de traitement de la langue arabe de point de vue linguistique
La reconnaissance d'écriture manuscrite hors ligne se rapporte au processus de reconnaissance des mots qui ont été numérisés à partir d'une surface (telle qu'une feuille de papier) et sont stockés numériquement au format d'échelle de gris. Après avoir été stocké, il est classique d'effectuer un traitement ultérieur pour permettre une reconnaissance supérieure.
La reconnaissance des caractères hors ligne peut être regroupée en deux types:
ˉ Reconnaissance des caractères magnétiques (MCR)
ˉ Reconnaissance optique des caractères (OCR)
Dans MCR, les caractères sont imprimés avec de l'encre magnétique. Le dispositif de lecture peut reconnaître les caractères selon le champ magnétique unique de chaque caractère. MCR est principalement utilisé dans les banques pour l'authentification par chèque. OCR traite de la reconnaissance des caractères d'acquisition par des moyens optiques, généralement un scanner ou une caméra. Les caractères sont sous forme d'images pixellisées et peuvent être imprimés ou manuscrits, de n'importe quelle taille, forme ou orientation.
L'OCR peut être subdivisé en reconnaissance des caractères manuscrite et en reconnaissance des caractères imprimés. La reconnaissance des caractères manuscrits est plus difficile à mettre en œuvre que la reconnaissance des caractères imprimée en raison des divers styles d'écriture humaine et les coutumes. Dans la reconnaissance des caractères imprimés, les images à traiter sont dans les formes des polices standards comme Times New Roman, Arial, Courier, etc.
⦁ Difficultés liées à l'OCR arabe
Les caractéristiques morphologiques de l'écriture arabe, compliquent la tâche de l'OCR à différents niveaux du traitement. Les difficultés de la reconnaissance de cette écriture sont présentes dans toutes étapes chronologiques du système OCR général.
⦁ Prétraitement
A ce stade, le problème classique est lié aux boucles qui risquent d'être bouchées ou ouvertes et aux points diacritiques qui peuvent être éliminés à la suite de certaines opérations de prétraitement ou encore confondus avec le bruit.

Exemples de caractères avec boucles
En effet, les prétraitements risquent d'altérer surtout la forme des points diacritiques de manière à les confondre avec le bruit s'ils sont trop amincis, ou à induire en erreur quant à la détection de leur nombre par la méthode des densités, si leur taille à considérablement augmenté par filtrage, par exemple. Les points risquent également d'être accolés au corps du caractère associé à cause d'une dégradation ou d'une normalisation de taille. Un autre problème typique rencontré à la suite d'une mauvaise squelettisation, particulièrement dans le cas du manuscrit, provient de la confusion de deux points diacritiques avec un seul point, très souvent, dans les deux cas, nous obtenons un segment de droite.
⦁ La segmentation
Le problème majeur se ramène à la détection de la ligne base à la segmentation des chaînes de caractères
Les méthodes de segmentation en ligne de texte se basent souvent sur la projection horizontale pour extraire les lignes. Cependant la présence des points diacritiques complique cette extraction et conduit parfois à la fusion des paragraphes. Dans certaines fontes, deux ou trois caractères peuvent se chevaucher verticalement. Très peu de travaux ont tenté à résoudre le problème de la ligature (16). El Badr et Al considèrent les lieux des ligatures verticales parmi l'ensemble des formes préalablement apprises au système (17). A l'issue de l'analyse de ces algorithmes de segmentation, nous retenons les points suivants :
les liaisons entre les caractères sont variables, elles sont soit trop courtes soit, au contraire, relativement longues, ce qui occulte les marques de séparations ; l'existence de caractères ligaturés verticalement complique la tâche de segmentation, souvent, des caractères sont segmentés comme une seule entité (problème de sous segmentation) ;
des points de segmentation indésirables peuvent apparaître dans le tracé de l'écriture. En effet, une dégradation du document peut introduire des irrégularités sur le tracé.
⦁ L'extraction de caractéristiques
En reconnaissance de l'écriture cursive, il a été montré que la plupart de l'information discriminante est contenue dans la partie primaire du mot cursif (ascendant, descendant, les boucles). Par ailleurs, les boucles constituent les primitives les plus informatives dans la zone centrale du mot. Pour la reconnaissance des caractères, le calcul des moments, les projections, les concavités et les convexités sont appliqués dans un nombre relativement important de travaux (19), (20).
Dans le cas du manuscrit, notamment omni-scripteurs sans contraintes, les formes sont innombrables et difficiles à modéliser. De plus, certaines caractéristiques des lettres, particulièrement les points diacritiques et les boucles, sont sensibles au bruit et à la dégradation(21). Donc, on peut dire qu'il existe un manque d'étude préliminaire permettant de sélectionner les primitives les plus discriminantes, pour un style et une qualité donnée d'écriture, et les mieux appropriées relativement au type de classifieur retenu.
⦁ Solutions : Approche de réseau Neurale
Plusieurs méthodes de former et de modeler un système de reconnaissance d'écriture ont été utilisées comme les réseaux neuraux, cachés Markov le modèle (HMM), k- nearest voisin, des systèmes experts et d'autres techniques. Ces méthodes peuvent être divisées dans deux classes principales :
Syntaxe : la classe qui implique la description des formes de caractère d'une façon abstraite.
Statistique : où le système apprend des données directement, sans explicitement spécifier la structure de connaissance de système. Des réseaux neuraux ont été utilisés dans le système de reconnaissance d'écriture avec succès. Cependant, comparé à d'autres approches, il exige plus de calculs.
Un réseau neural est classificateur statistique qui exige des fonctions vectorielles avec la taille fixe. En raison de ces propriétés, il est considéré comme une approche efficace à la reconnaissance de caractère et graphèmes.
Un réseau neural est composé de deux parties : TDNN et MLP. Un MLP est composé par trois couches : couche d'apport, couches cachées et une couche de production. Chaque neurone est connecté à tous les autres neurones de la couche inférieure pour construire un réseau entièrement connecté.

Vidéo1

Vidéo2


Cliquez ici pour lire l'article depuis sa source.