Belhassen Trabelsi échappe encore à la justice tunisienne    Un nouveau marché s'ouvre à l'huile d'olive tunisienne    State of Play Japan : toutes les nouveautés et annonces Xbox dédiée aux jeux japonais et asiatiques    Match Tunisie vs Mauritanie : où regarder le match amical préparatif à la CAN Maroc 2025 du 12 novembre?    À partir d'aujourd'hui, la circulation chamboulée sur l'avenue Taïeb Mhiri pour six mois    Où et quand suivre Tunisie–Mauritanie, le match amical de ce mercredi ?    Drones en Tunisie : des mesures pour encadrer leur usage    Non-allaitement: Un silence couteux que la Tunisie ne peut plus se permettre    Ooredoo Tunisie s'associe à Dora Chamli pour promouvoir le padel et le talent tunisien sur la scène mondiale    1 Tunisien sur 6 touché par le diabète : un appel urgent à la sensibilisation    Météo en Tunisie : temps partiellement nuageux, températures en légère hausse    La BTE franchit une étape stratégique: migration réussie vers le standard international SWIFT ISO 20022    Nouvelle taxe sur la richesse : ce que les Tunisiens doivent savoir    Tougaï quitte le rassemblement des Fennecs    Démographie: Radioscopie d'une Tunisie en profonde mutation    Ooredoo Tunisie s'associe à Dora Chamli pour promouvoir le padel et le talent tunisien sur la scène mondiale    Une première intervention de chirurgie robotique en Tunisie réalisée avec succès à l'hôpital Charles-Nicolle de Tunis    Marathon COMAR de Tunis-Carthage dans une 38e édition : Courons pour une Tunisie plus verte    Hikma Tunisie ouvre sa troisième unité de production à Tunis : Hikma Pharmaceuticals renforce sa présence en Tunisie    Hafida Ben Rejeb Latta ce vendredi à Al Kitab Mutuelleville pour présenter son livre « Une fille de Kairouan »    Tunis, prépare-toi : les matchs amicaux des Aigles se jouent plus tôt    Tunisie : 2000 bâtiments menacent la vie des habitants !    Quand Mohamed Salah Mzali encourageait Aly Ben Ayed    Météo du mardi : douceur et ciel partiellement voilé sur la Tunisie    La pièce Les Fugueuses de Wafa Taboubi remporte le Prix de la meilleure oeuvre de la 3e édition du Festival National du Théâtre Tunisien    Amina Srarfi : Fadl Shaker absent des festivals tunisiens    Dhafer L'Abidine à la Foire du Livre de Sharjah : Les histoires doivent transcender les frontières    Météo en Tunisie : averses isolées au nord    Sarkozy fixé ce soir sur sa libération    Tunisie: Financement de projets d'excellence scientifique    Décès du Pr Abdellatif Khemakhem    Match EST vs CA : où regarder le derby tunisien du dimanche 09 novembre 2025?    La Fête de l'arbre: Un investissement stratégique dans la durabilité de la vie sur terre    Nouvelles directives de Washington : votre état de santé pourrait vous priver du visa américain    Justice tunisienne : 1 600 millions pour lancer les bracelets électroniques    Tunisie : Le budget de la Culture progresse de 8 % en 2026    L'Université de la Manouba organise la 12è édition du symposium interdisciplinaire "Nature/Culture"    Qui est le nouvel ambassadeur de Palestine en Tunisie, Rami Farouk Qaddoumi    Secousse tellurique en Tunisie enregistrée à Goubellat, gouvernorat de Béja    Suspension du Bureau tunisien de l'OMCT pour un mois : les activités à l'arrêt    Elyes Ghariani: Comment la résolution sur le Sahara occidental peut débloquer l'avenir de la région    Mondher Khaled: Le paradigme de la post-vérité sous la présidence de Donald Trump    Congrès mondial de la JCI : la Poste Tunisienne émet un timbre poste à l'occasion    Attirant plus de 250 000 visiteurs par an, la bibliothèque régionale d'Ariana fait peau neuve    Le CSS ramène un point du Bardo : Un énorme sentiment de gâchis    Ligue 1 – 11e Journée – EST-CAB (2-0) : L'Espérance domine et gagne    New York en alerte : décès de deux personnes suite à de fortes précipitations    Lettre manuscrite de l'Emir du Koweït au président Kaïs Saïed    







Merci d'avoir signalé!
Cette image sera automatiquement bloquée après qu'elle soit signalée par plusieurs personnes.



Intelligence artificielle : "TUNIZI", Un "dataset" pour l'analyse du sentiment en dialecte purement tunisien
Publié dans WMC actualités le 23 - 11 - 2020

Reconnaitre vocalement un mot du dialecte tunisien comme par exemple le mot "3asselama" et le traduire facilement et correctement sur Google, en anglais ou en d'autres langues, pourrait être, désormais, possible!
C'est l'un des objectifs du projet de "dataset " baptisé "Tunizi", et développé par la start-up tunisienne " iCompass ", spécialisée dans l'intelligence artificielle, et plus particulièrement dans le domaine du traitement du langage naturel (TLN).
Il s'agit d'une base de données qui comporte 9000 phrases écrites en dialecte tunisien et qui regroupe le premier grand ensemble de données d'analyse du sentiment, utilisé sur les réseaux sociaux.
La finalité du projet et d'autres projets similaires en voie de développement en Afrique et dans le monde arabe est de créer des bases de données annotées et développer et soumettre des ensembles de données de tout dialecte sous-desservi et sous-représenté en vue de les utiliser dans les futures applications de NLP comme la traduction automatique, les agents conversationnels (Chatbot) ou la reconnaissance vocale.
Pour l'intelligence artificielle, cette démarche est nécessaire parce que les ensembles de données annotés conditionnent désormais la réussite des algorithmes utilisés comme base d'apprentissage.
De l'Arabizi" à "Tunizi"
En effet, les internautes adeptes des réseaux sociaux et du "chat" dans le monde arabe ont tendance à s'exprimer, dans leurs dialectes locaux, auxquels les égyptiens ont choisi le nom " Arabizi ", un mot prononcé en arabe en mixant arabe et anglais (ÇäÌáíÒí+ÚÑÈí) .
Les études analytiques cherchent à explorer et à reconnaître les opinions en ligne dans le but de les exploiter à des fins de planification et de prédiction telles que la mesure de la satisfaction du client et l'établissement de stratégies de vente et de marketing. Cependant, ces études basées sur le Deep Learning sont gourmandes en données.
Or, les langues et dialectes africains y compris le dialecte tunisien, sont considérés comme des langues à faibles ressources.
Jusqu'à ce jour, il n'existe aucun ensemble de données de taille significative annotées sur le dialecte tunisien, selon " iCompass ".
Dans une enquête réalisée en 2018 pour évaluer la disponibilité des ensembles de données du dialecte tunisien, citée par iCompass, les auteurs ont conclu que tous les ensembles de données tunisiens existants utilisent des lettres arabes et qu'il y a un manque d'ensembles de données annotés sur " l'Arabizi tunisien ".
En 2014, un recueil multidialectal de cinq dialectes arabes : égyptien, tunisien, jordanien, palestinien et syrien afin d'identifier les similitudes et les différences possibles entre eux, les résultats ont révélé que le dialecte tunisien a le moins de ressources et qu'il est nécessaire de créer des ensembles de données tunisiens pour des études analytiques.
Rendre le dialecte tunisien assimilable par les systèmes informatiques
Concrètement, " iCompass " a procédé à la collecte de données à partir des commentaires sur le réseau social Youtube.
Les vidéos choisies comprenaient des sports, de la politique, de la comédie, des émissions de télévision, des séries télévisées, des arts et des vidéos musicales tunisiennes de sorte que l'ensemble de données soit représentatif et contienne différents types d'âge, de formation, d'écriture, etc.
Selon Ahmed Nouisser, Co-fondateur et CEO d'iCompass, "le principe général est d'offrir à l'écosystème tunisien, maghrébin et africain plus de datas annotés, appelés "datasets", pour les exploiter dans le développement des recherches (sociales, scientifiques, humaines et autres…) ".
" Notre rôle est de travailler sur les langues et dialectes en Afrique pour rapprocher les peuples du continent à l'évolution technologique et à l'innovation ", a-t-il dit.
Il a expliqué à TAP, que l'intelligence artificielle ne peut se développer que s'il existe des datas annotées d'une taille significative, organisées et précises.
La start-up tunisienne œuvre, à cet effet, à développer " Tunizi " pour le rendre un très large Dataset annoté et le mettre à la disposition des chercheurs, des universités et d'autres structures d'analyses à travers les systèmes informatiques et l'intelligence artificielle, a encore indiqué Ahmed Nouisser.


Cliquez ici pour lire l'article depuis sa source.