Bourse de Tunis : Suspension de la cotation "UADH" et "GIF FILTER"    Amour, Gloire et Karama la série revient en force au Bardo    Perspectives: Le moment de la mise à niveau des entreprises    Tribune: «Il n'y a pas de volonté politique de réformer un système fiscal grossièrement injuste»    Ligue 1 Pro : Taha Yassine Khenissi devient le meilleur buteur de l'histoire    Vaccination anti-Covid-19, 300 000 citoyens inscrits    Tunisie: En images, des conducteurs de taxis à Béja en sit-in pour obtenir des licences    Huile végétale subventionnée: Introuvable dans les points de vente    Le marché boursier perd 0,53% à la fin de la séance    L'ITCEQ lance son portail sur la compétitivité de l'économie tunisienne    Tunisie: Le FMI juge que les autorités tunisiennes ont su répondre aux enjeux de la pandémie    REMERCIEMENTS: Hédia AOUALI veuve Hachemi Ben HENDA    Ligue 1 – Matches avancés de la 10e journée: L'EST survole l'OB, le CSS revient de loin !    LIGUE 1 — 10E JOURNEE | CA-USM : sortir de l'ombre    JSK: Ne plus traîner en chemin    Analyse constitutionnelle et politique: Conseil de sécurité Versus remaniement ministériel    Un jour difficile    Météo | Vents forts et pluies éparses en fin de journée    Tunisie-ARP: Rached Ghannouchi défend les députés Al Karama    Des malversations dans un centre postal spécialisé, selon l'INLUCC    Retour au calme à Sbeïtla    Théâtre| « Martyr » de Fadhel Jaïbi: Explosion nihiliste dans une structure morte    18e édition du Festival des cinémas d'Afrique du pays d'Apt (Fcapa) — Table ronde «Circulation immatérielle des films»: L'expérience collective du grand écran avant tout    Démarrage du cycle euro-tunisien destiné aux professionnels de la culture    Tunisie- Yassine Ayari rappelle les mesures prises par le gouvernement au profit des classes aisées    Tunisie : Le gouvernement Mechichi II franchit l'écueil du Parlement !    Conflit d'intérêts au sein de la Caisse des dépôts et consignations    Tunisie [Audio +Photos]: Déclarations après match Espérance Sportive de Tunis contre Olympique de Béja    Tunisie- Une guerre où tout le monde a tort et tout le monde sera perdant !    Bloqués en Malaisie, des Algériens menacent de saisir l'ONU    Ligue 1 : L'Espérance de Tunis s'amuse avant le derby    Amine Mahfoudh évoque le flou constitutionnel qui entoure les remaniements ministériels    Covid-19 | Sousse : 8 décès et 62 nouvelles contaminations    Espérance de Tunis : le Ghanéen Khaled Abdelbasset espérantiste jusqu'en 2023    Débats houleux à l'ARP, levée de la séance plénière    Le premier ministre italien présente sa démission    Commémoration du 40e jour de son décès : Abdelwahab Bouhdiba, le sociologue émérite    Contrepoint | Culture... et interrogations    Tunisie-Ligue 1 (J10): les matches de ce mardi et programme TV    Ramadan 2021: Nouvelle série "Kan Ya Makanesh" d'Abdelhamid Bouchnak avec Hatem Belhaj    Exposition collective "Géographie de l'intime" à la station d'art B7L9 du 29 janvier au 7 mars    [TRIBUNE] #Jeunesse #Espoir !    Covid-19 : Joe Biden durcit les règles d'entrée aux Etats-Unis    Voici pourquoi la souche britannique pourrait provoquer une mortalité accrue    Etats-Unis: Le procès de Trump devant le sénat débutera le 8 février    Mustapha El Haddad: L'embrigadement des jeunes pour le jihad «Le paradoxe tunisien»    Etats-Unis-Investiture: Kais Saied félicite Joe Biden    De Trump à Biden: la force de la symbolique    







Merci d'avoir signalé!
Cette image sera automatiquement bloquée après qu'elle soit signalée par plusieurs personnes.





Intelligence artificielle : "TUNIZI", un dataset pour l'analyse du sentiment en dialecte tunisien
Publié dans L'expert le 24 - 11 - 2020

Reconnaître vocalement un mot du dialecte tunisien comme par exemple le mot "3asselama" et le traduire facilement et correctement sur Google, en anglais ou en d'autres langues, pourrait être désormais possible.
C'est l'un des objectifs du projet de "dataset" baptisé "Tunizi", et développé par la start-up tunisienne iCompass, spécialisée dans l'intelligence artificielle, plus particulièrement dans le domaine du traitement du langage naturel (TLN).
Il s'agit d'une base de données qui comporte 9 000 phrases écrites en dialecte tunisien et qui regroupe le premier grand ensemble de données d'analyse du sentiment, utilisé sur les réseaux sociaux.
La finalité du projet et bien d'autres en voie de développement en Afrique et dans le monde arabe est de créer des bases de données annotées et développer et soumettre des ensembles de données de tout dialecte sous-desservi et sous-représenté en vue de les utiliser dans les futures applications de NLP comme la traduction automatique, les agents conversationnels (Chatbot) ou la reconnaissance vocale.
Pour l'intelligence artificielle, cette démarche est nécessaire parce que les ensembles de données annotés conditionnent désormais la réussite des algorithmes utilisés comme base d'apprentissage.
De l'Arabizi à "Tunizi"
En effet, les internautes adeptes des réseaux sociaux et du "chat" dans le monde arabe ont tendance à s'exprimer, dans leurs dialectes locaux, auxquels les égyptiens ont choisi le nom " Arabizi ", un mot prononcé en arabe en mixant arabe et anglais (ÇäÌáíÒí+ÚÑÈí) .
Les études analytiques cherchent à explorer et à reconnaître les opinions en ligne dans le but de les exploiter à des fins de planification et de prédiction telles que la mesure de la satisfaction du client et l'établissement de stratégies de vente et de marketing. Cependant, ces études basées sur le Deep Learning sont gourmandes en données.
Or, les langues et dialectes africains y compris le dialecte tunisien, sont considérés comme des langues à faibles ressources.
Jusqu'à ce jour, il n'existe aucun ensemble de données de taille significative annotées sur le dialecte tunisien, selon iCompass.
Dans une enquête réalisée en 2018 pour évaluer la disponibilité des ensembles de données du dialecte tunisien, citée par iCompass, les auteurs ont conclu que tous les ensembles de données tunisiens existants utilisent des lettres arabes et qu'il y a un manque d'ensembles de données annotés sur l'Arabizi tunisien.
En 2014, un recueil multidialectal de cinq dialectes arabes (égyptien, tunisien, jordanien, palestinien et syrien) afin d'identifier les similitudes et les différences possibles entre eux, les résultats ont révélé que le dialecte tunisien a le moins de ressources et qu'il est nécessaire de créer des ensembles de données tunisiens pour des études analytiques.
Rendre le dialecte tunisien assimilable par les systèmes informatiques
Concrètement, iCompass a procédé à la collecte de données à partir des commentaires sur le réseau social Youtube.
Les vidéos choisies comprenaient des sports, de la politique, de la comédie, des émissions de télévision, des séries télévisées, des arts et des vidéos musicales tunisiennes de sorte que l'ensemble de données soit représentatif et contienne différents types d'âge, de formation, d'écriture, etc.
Selon Ahmed Nouisser, co-fondateur et CEO d'iCompass, "le principe général est d'offrir à l'écosystème tunisien, maghrébin et africain plus de datas annotés, appelés "datasets", pour les exploiter dans le développement des recherches (sociales, scientifiques, humaines et autres...) ".
" Notre rôle est de travailler sur les langues et dialectes en Afrique pour rapprocher les peuples du continent à l'évolution technologique et à l'innovation ", a-t-il dit.
Il a expliqué à TAP, que l'intelligence artificielle ne peut se développer que s'il existe des datas annotées d'une taille significative, organisées et précises.
La start-up tunisienne œuvre, à cet effet, à développer Tunizi pour le rendre un très large Dataset annoté et le mettre à la disposition des chercheurs, des universités et d'autres structures d'analyses à travers les systèmes informatiques et l'intelligence artificielle, a encore indiqué Ahmed Nouisser.
Avec TAP


Cliquez ici pour lire l'article depuis sa source.