Patrouiller et saluer les gens ne suffit pas pour rassurer les populations civiles : il faut les écouter, les informer et mériter leur confiance (Album photos)    La France fait don de vingt véhicules militaires à l'armée tunisienne    Netanyahu propose une trêve pour désarmer Gaza… ou l'écraser    Macron plaide pour une reconnaissance commune de l'Etat de Palestine avec Londres    En vidéos - Tempête de sable impressionnante à Tozeur    Tébourba : la piscine municipale reprend vie après 15 ans d'abandon    Le Tunisien Wajih Rekik nommé VP de l'organisation nord-américaine de l'huile d'olive    Tabarka : lancement d'une formation tuniso-algérienne en plongée    L'initiative Michael Cracknell, un héritage traduit en actes de solidarité    Quatre hôpitaux universitaires par an : ce que coûte la subvention du pain    Baccalauréat 2025 : un taux global de 52,59 %    Oued El Hejar, décharge à ciel ouvert : Kaïs Saied dénonce une catastrophe écologique    Galaxy Z Flip7 : le smartphone pliable nouvelle génération révélé lors du Galaxy Unpacked à Brooklyn    Commerce tuniso-émirati : 350 millions $ d'échanges non pétroliers en 2024    Retrait de confiance d'un élu à Mahdia : une première en Tunisie, relève Mansri    Libye - Tripoli au bord de l'embrasement : l'ONU appelle au retrait des forces armées    CS Sfaxien : Trois renforts étrangers pour renforcer l'effectif    Juin 2025 : la Tunisie parmi le top 10 africain selon le classement FIFA    Para-athlétisme : Rouay Jebabli s'impose à Rennes et bat son record sur 800 m    Ooredoo Tunisie donne le rythme et annonce son partenariat officiel avec le Festival International de Carthage pour la quatrième année consécutive    Données personnelles : Le ministère de l'Enseignement supérieur réagit à l'affaire de la fuite d'informations    Conseillers fiscaux : une profession à part entière et non une simple qualification, rappelle Dhouha Bahri    Festival de Carthage : Mekdad Sehili dénonce l'utilisation de son nom sans accord    UNESCO : Trois sites africains retirés de la Liste du patrimoine mondial en péril    Le ministère du Tourisme Tunisien interdit les restrictions vestimentaires et les pratiques abusives dans le secteur touristique    Abdelaziz Kacem: Vulgarité, mensonge et gangstérisme    Salsabil Houij, première Tunisienne sélectionnée pour une mission spatiale orbitale en 2029    Hamdi Hached : l'Onas manque de moyens pour faire face à la pollution    Distribution des médicaments : la Tunisie mise sur une gouvernance rigoureuse et sécurisée    La piscine du Belvédère revoit ses prix : jusqu'à -50 % sur les locations pour mariages    Nader Kazdaghli : les chauffeurs de taxi travaillent à perte depuis 2022    Météo en Tunisie : Ciel peu nuageux, pluies éparses l'après-midi    Kaïs Saïed : ceux qui manquent à leurs obligations doivent en assumer pleinement la responsabilité    De fortes secousses ressenties dans le nord de l'Inde    Les festivals doivent s'inscrire dans le cadre de la lutte pour la libération menée par la Tunisie, selon Kaïs Saïed    Attijari Bank signe la plus belle publicité qui touche le cœur des Tunisiens de l'étranger    Flottille maghrébine « Soumoud » : une mobilisation maritime pour briser le blocus de Gaza    Festival de Carthage 2025 : le concert d'Hélène Ségara annulé    59ème édition du festival de Carthage : Des couacs de communications inacceptables !    La Tunisie s'apprête à organiser son premier festival international de rap    Habib Touhami: François Perroux, l'homme et le penseur    Mercato : Le Club Africain renforce sa défense avec Houssem Ben Ali    Nor.be et l'Orchestre de Barcelone font vibrer Dougga entre tradition et création    Rana Taha, nouvelle coordonnatrice-résidente des Nations unies en Tunisie    Tunisie Telecom félicite Walid Boudhiaf pour son nouveau record national à -118 mètres    Tunisie Telecom félicite Walid Boudhiaf pour son nouveau record national à -118 mètres    Tunisie - Walid Boudhiaf établit un nouveau record national à -118 mètres    Diogo Jota est mort : choc dans le monde du football    







Merci d'avoir signalé!
Cette image sera automatiquement bloquée après qu'elle soit signalée par plusieurs personnes.



Intelligence artificielle : "TUNIZI", un dataset pour l'analyse du sentiment en dialecte tunisien
Publié dans L'expert le 24 - 11 - 2020

Reconnaître vocalement un mot du dialecte tunisien comme par exemple le mot "3asselama" et le traduire facilement et correctement sur Google, en anglais ou en d'autres langues, pourrait être désormais possible.
C'est l'un des objectifs du projet de "dataset" baptisé "Tunizi", et développé par la start-up tunisienne iCompass, spécialisée dans l'intelligence artificielle, plus particulièrement dans le domaine du traitement du langage naturel (TLN).
Il s'agit d'une base de données qui comporte 9 000 phrases écrites en dialecte tunisien et qui regroupe le premier grand ensemble de données d'analyse du sentiment, utilisé sur les réseaux sociaux.
La finalité du projet et bien d'autres en voie de développement en Afrique et dans le monde arabe est de créer des bases de données annotées et développer et soumettre des ensembles de données de tout dialecte sous-desservi et sous-représenté en vue de les utiliser dans les futures applications de NLP comme la traduction automatique, les agents conversationnels (Chatbot) ou la reconnaissance vocale.
Pour l'intelligence artificielle, cette démarche est nécessaire parce que les ensembles de données annotés conditionnent désormais la réussite des algorithmes utilisés comme base d'apprentissage.
De l'Arabizi à "Tunizi"
En effet, les internautes adeptes des réseaux sociaux et du "chat" dans le monde arabe ont tendance à s'exprimer, dans leurs dialectes locaux, auxquels les égyptiens ont choisi le nom " Arabizi ", un mot prononcé en arabe en mixant arabe et anglais (ÇäÌáíÒí+ÚÑÈí) .
Les études analytiques cherchent à explorer et à reconnaître les opinions en ligne dans le but de les exploiter à des fins de planification et de prédiction telles que la mesure de la satisfaction du client et l'établissement de stratégies de vente et de marketing. Cependant, ces études basées sur le Deep Learning sont gourmandes en données.
Or, les langues et dialectes africains y compris le dialecte tunisien, sont considérés comme des langues à faibles ressources.
Jusqu'à ce jour, il n'existe aucun ensemble de données de taille significative annotées sur le dialecte tunisien, selon iCompass.
Dans une enquête réalisée en 2018 pour évaluer la disponibilité des ensembles de données du dialecte tunisien, citée par iCompass, les auteurs ont conclu que tous les ensembles de données tunisiens existants utilisent des lettres arabes et qu'il y a un manque d'ensembles de données annotés sur l'Arabizi tunisien.
En 2014, un recueil multidialectal de cinq dialectes arabes (égyptien, tunisien, jordanien, palestinien et syrien) afin d'identifier les similitudes et les différences possibles entre eux, les résultats ont révélé que le dialecte tunisien a le moins de ressources et qu'il est nécessaire de créer des ensembles de données tunisiens pour des études analytiques.
Rendre le dialecte tunisien assimilable par les systèmes informatiques
Concrètement, iCompass a procédé à la collecte de données à partir des commentaires sur le réseau social Youtube.
Les vidéos choisies comprenaient des sports, de la politique, de la comédie, des émissions de télévision, des séries télévisées, des arts et des vidéos musicales tunisiennes de sorte que l'ensemble de données soit représentatif et contienne différents types d'âge, de formation, d'écriture, etc.
Selon Ahmed Nouisser, co-fondateur et CEO d'iCompass, "le principe général est d'offrir à l'écosystème tunisien, maghrébin et africain plus de datas annotés, appelés "datasets", pour les exploiter dans le développement des recherches (sociales, scientifiques, humaines et autres...) ".
" Notre rôle est de travailler sur les langues et dialectes en Afrique pour rapprocher les peuples du continent à l'évolution technologique et à l'innovation ", a-t-il dit.
Il a expliqué à TAP, que l'intelligence artificielle ne peut se développer que s'il existe des datas annotées d'une taille significative, organisées et précises.
La start-up tunisienne œuvre, à cet effet, à développer Tunizi pour le rendre un très large Dataset annoté et le mettre à la disposition des chercheurs, des universités et d'autres structures d'analyses à travers les systèmes informatiques et l'intelligence artificielle, a encore indiqué Ahmed Nouisser.
Avec TAP


Cliquez ici pour lire l'article depuis sa source.