Entretien téléphonique entre Kais Saied et Emmanuel Macron    Daily brief national du 26 avril 2024: Saïed s'entretient au téléphone avec Emmanuel Macron    La BTK annonce un résultat net de plus de huit millions de dinars en 2023    Miguel Cardoso : Détermination absolue avant la bataille contre Mamelodi Sundowns    Ons Jabeur se qualifie pour le 3ème tour    Les chinois chargés de remettre à niveau le Stade d'El Menzah : Dans le vif du sujet    Expatriés : Derby County sur Driss Mizouni    La liste de Mohamed Wassef Jlaiel rejetée : Une décision et des interrogations    Les préparateurs en pharmacie porteront le brassard rouge à partir du 3 juin    Intrusion dans un domicile à Zeramdine, trois frères blessés par balle    Abdelkader Nasri : les prélèvements sur les pensions de retraite doivent être définitivement suspendus    Indice Couscous – Avril 2024 : Combien Coûte un plat de couscous pour 4 personnes en Tunisie ?    Daily brief régional du 26 avril 2024: Naufrage d'un bateau de pêche à Monastir: Cinq morts, cinq secourus    Plages de Ghar El Melh : Parking gratuit pour l'été 2024    Le statut de l'artiste exige une classification fiscale    En bref    Chawki Tabib : merci aux avocats présents à mon audition !    Nabil Ammar participe à la 11e session du Comité mixte tuniso-camerounais à Yaoundé    La lutte contre la corruption, toujours une priorité nationale pour Kais Saied    Kais Saied réaffirme l'indépendance financière de la Tunisie lors de sa rencontre avec le gouverneur de la BCT    Météo : Températures maximales comprises entre 19 et 25 °C    Tunisair affiche un chiffre d'affaires en hausse et une amélioration de la ponctualité    Attaf: La réunion consultative entre les 3 pays était une "réussite"    Démission d'une porte-parole du Département d'Etat américain en protestation contre la politique à Gaza    Violence – France : Le ministre de l'interieur Gérald soutient le couvre-feu pour les mineurs de moins de 13 ans    France – Scandale sanitaire chez Perrier : destruction massive de bouteilles contaminées    ByteDance refuse de céder aux USA et vendre TikTok malgré les pressions    Kaïs Saïed, Emmanuel Macron, affaire de complot… Les 5 infos de la journée    AMEN BANK : Assemblée Générale Ordinaire 2023 — Renforcement général et excellent rendement    Changement climatique: Ces régions seront inhabitables, d'ici 2050, selon la NASA    Hamma Hammami : Kaïs Saïed opère de la même façon que Zine El Abidine Ben Ali    Volée il y a 30 ans, une statue de Ramsès II récupérée par l'Egypte    Kenizé Mourad au Palais Nejma Ezzahra à Sidi Bou Said : «Le Parfum de notre Terre» ou le roman boycotté    Safi Said poursuivi suite à son projet pour Djerba    L'Espérance de Tunis vs Al Ahly d'Egypte en demi-finale de la Coupe d'Afrique des clubs Oran 2024    OneTech : clôture de la cession de son activité d'emballage pharmaceutique Helioflex au profit du groupe Aluflexpack AG    Météo : Temps passagèrement nuageux et températures entre 18 et 26 degrés    Artes : chiffre d'affaires en hausse de près de 22%    La Tunisie invitée d'honneur au Festival international du film de femmes d'Assouan 2024 : En l'honneur du cinéma féminin    L'EST demande une augmentation des billets pour ses supporters    Nominations au ministère de l'Industrie, des Mines et de l'Energie    Le Chef de la diplomatie reçoit l'écrivain et professeur italo-Tunisien "Alfonso CAMPISI"    Géologie de la Séparation : un film tuniso-italien captivant et poétique à voir au CinéMadart    Hospitalisation du roi d'Arabie saoudite    L'homme qui aimait la guerre    Foire internationale du livre de Tunis : vers la prolongation de la FILT 2024 ?    Soutien à Gaza - Le ministère des Affaires religieuse change le nom de 24 mosquées    Un pôle d'équilibre nécessaire    







Merci d'avoir signalé!
Cette image sera automatiquement bloquée après qu'elle soit signalée par plusieurs personnes.



Intelligence artificielle : "TUNIZI", Un "dataset" pour l'analyse du sentiment en dialecte purement tunisien
Publié dans WMC actualités le 23 - 11 - 2020

Reconnaitre vocalement un mot du dialecte tunisien comme par exemple le mot "3asselama" et le traduire facilement et correctement sur Google, en anglais ou en d'autres langues, pourrait être, désormais, possible!
C'est l'un des objectifs du projet de "dataset " baptisé "Tunizi", et développé par la start-up tunisienne " iCompass ", spécialisée dans l'intelligence artificielle, et plus particulièrement dans le domaine du traitement du langage naturel (TLN).
Il s'agit d'une base de données qui comporte 9000 phrases écrites en dialecte tunisien et qui regroupe le premier grand ensemble de données d'analyse du sentiment, utilisé sur les réseaux sociaux.
La finalité du projet et d'autres projets similaires en voie de développement en Afrique et dans le monde arabe est de créer des bases de données annotées et développer et soumettre des ensembles de données de tout dialecte sous-desservi et sous-représenté en vue de les utiliser dans les futures applications de NLP comme la traduction automatique, les agents conversationnels (Chatbot) ou la reconnaissance vocale.
Pour l'intelligence artificielle, cette démarche est nécessaire parce que les ensembles de données annotés conditionnent désormais la réussite des algorithmes utilisés comme base d'apprentissage.
De l'Arabizi" à "Tunizi"
En effet, les internautes adeptes des réseaux sociaux et du "chat" dans le monde arabe ont tendance à s'exprimer, dans leurs dialectes locaux, auxquels les égyptiens ont choisi le nom " Arabizi ", un mot prononcé en arabe en mixant arabe et anglais (ÇäÌáíÒí+ÚÑÈí) .
Les études analytiques cherchent à explorer et à reconnaître les opinions en ligne dans le but de les exploiter à des fins de planification et de prédiction telles que la mesure de la satisfaction du client et l'établissement de stratégies de vente et de marketing. Cependant, ces études basées sur le Deep Learning sont gourmandes en données.
Or, les langues et dialectes africains y compris le dialecte tunisien, sont considérés comme des langues à faibles ressources.
Jusqu'à ce jour, il n'existe aucun ensemble de données de taille significative annotées sur le dialecte tunisien, selon " iCompass ".
Dans une enquête réalisée en 2018 pour évaluer la disponibilité des ensembles de données du dialecte tunisien, citée par iCompass, les auteurs ont conclu que tous les ensembles de données tunisiens existants utilisent des lettres arabes et qu'il y a un manque d'ensembles de données annotés sur " l'Arabizi tunisien ".
En 2014, un recueil multidialectal de cinq dialectes arabes : égyptien, tunisien, jordanien, palestinien et syrien afin d'identifier les similitudes et les différences possibles entre eux, les résultats ont révélé que le dialecte tunisien a le moins de ressources et qu'il est nécessaire de créer des ensembles de données tunisiens pour des études analytiques.
Rendre le dialecte tunisien assimilable par les systèmes informatiques
Concrètement, " iCompass " a procédé à la collecte de données à partir des commentaires sur le réseau social Youtube.
Les vidéos choisies comprenaient des sports, de la politique, de la comédie, des émissions de télévision, des séries télévisées, des arts et des vidéos musicales tunisiennes de sorte que l'ensemble de données soit représentatif et contienne différents types d'âge, de formation, d'écriture, etc.
Selon Ahmed Nouisser, Co-fondateur et CEO d'iCompass, "le principe général est d'offrir à l'écosystème tunisien, maghrébin et africain plus de datas annotés, appelés "datasets", pour les exploiter dans le développement des recherches (sociales, scientifiques, humaines et autres…) ".
" Notre rôle est de travailler sur les langues et dialectes en Afrique pour rapprocher les peuples du continent à l'évolution technologique et à l'innovation ", a-t-il dit.
Il a expliqué à TAP, que l'intelligence artificielle ne peut se développer que s'il existe des datas annotées d'une taille significative, organisées et précises.
La start-up tunisienne œuvre, à cet effet, à développer " Tunizi " pour le rendre un très large Dataset annoté et le mettre à la disposition des chercheurs, des universités et d'autres structures d'analyses à travers les systèmes informatiques et l'intelligence artificielle, a encore indiqué Ahmed Nouisser.


Cliquez ici pour lire l'article depuis sa source.