Kaïs Saïed, Emmanuel Macron, affaire de complot… Les 5 infos de la journée    La dette française sous la loupe : Inquiétudes accrues avant la révision des agences de notation    Renforcement de la lutte anticorruption : Engagement ferme de Kais Saied    Tunisie – Saïed s'entretient au téléphone avec Emmanuel Macron    Tunisie – Saïed appelle à mieux contrôler les financements étrangers illégaux des partis    Audition de Khouloud Mabrouk : les précisions du parquet    Tunisie – La situation épidémiologique de la rage est effrayante et le ministère de la santé préconise l'intensification de l'abattage des chiens errants    Tunisie – Démarrage de l'exploitation du nouveau service des archives du ministère de l'intérieur    Le Croissant Rouge met en garde contre la propagation de maladies infectieuses à G-a-z-a    Les ministères de l'éducation et des technologies unis dans la lutte contre la fraude aux examens nationaux    Hamma Hammami : Kaïs Saïed opère de la même façon que Zine El Abidine Ben Ali    Changement climatique: Ces régions seront inhabitables, d'ici 2050, selon la NASA    Allergies aux pollens : Que faire pour s'en protéger ?    Près de 6 000 mères ont été tuées à G-a-z-a, laissant 19 000 enfants orphelins    Kais Saied reçoit les lettres de créance du nouvel ambassadeur du Bahreïn    En 2023, le coût par élève est passé à 2014,7 dinars    Volée il y a 30 ans, une statue de Ramsès II récupérée par l'Egypte    Kenizé Mourad au Palais Nejma Ezzahra à Sidi Bou Said : «Le Parfum de notre Terre» ou le roman boycotté    Centre de promotion des Exportations : Une mission d'affaires à Saint-Pétersbourg    Tunisair : Modification des vols en provenance et à destination de la France pour aujourd'hui 25 avril 2024    Pourquoi | De la pluie au bon moment...    Accidents de travail : Sur les chantiers de tous les dangers    Vandalisme à l'ambassade de France à Moscou : une fresque controversée soulève des tensions    Echos de la Filt | Au pavillon de l'Italie, invitée d'honneur : Giuseppe Conte, un parcours marqué par de multiples formes expressives et une poésie romanesque    Safi Said poursuivi suite à son projet pour Djerba    BH Assurance: Distribution d'un dividende de 1,500 dinar par action à partir du 02 mai    L'Espérance de Tunis vs Al Ahly d'Egypte en demi-finale de la Coupe d'Afrique des clubs Oran 2024    WTA 1000 Madrid : Ons Jabeur défie Slovaque Schmiedlová    Artes : chiffre d'affaires en hausse de près de 22%    OneTech : clôture de la cession de son activité d'emballage pharmaceutique Helioflex au profit du groupe Aluflexpack AG    Volley | La Mouloudia de Bousalem vice-champion d'Afrique : Un cas édifiant !    Le ST reçoit l'USM samedi : Un virage majeur    Météo : Temps passagèrement nuageux et températures entre 18 et 26 degrés    Mahdia : recherches en cours de pêcheurs disparus en mer    Ligue des champions – Demi-finale retour – Mamelodi Sundowns-EST (demain à 19h00) : Pleine mobilisation…    CONDOLEANCES : Feu Abdelhamid MAHJOUB    Mabrouk Korchid : aucune interview que je donne n'est un crime !    La Tunisie invitée d'honneur au Festival international du film de femmes d'Assouan 2024 : En l'honneur du cinéma féminin    Aujourd'hui, ouverture de la 9e édition du Festival International de Poésie de Sidi Bou Saïd : Un tour d'horizon de la poésie d'ici et d'ailleurs    L'EST demande une augmentation des billets pour ses supporters    Nominations au ministère de l'Industrie, des Mines et de l'Energie    Le Chef de la diplomatie reçoit l'écrivain et professeur italo-Tunisien "Alfonso CAMPISI"    Géologie de la Séparation : un film tuniso-italien captivant et poétique à voir au CinéMadart    Hospitalisation du roi d'Arabie saoudite    L'homme qui aimait la guerre    Foire internationale du livre de Tunis : vers la prolongation de la FILT 2024 ?    Soutien à Gaza - Le ministère des Affaires religieuse change le nom de 24 mosquées    Un pôle d'équilibre nécessaire    







Merci d'avoir signalé!
Cette image sera automatiquement bloquée après qu'elle soit signalée par plusieurs personnes.



Intelligence artificielle : "TUNIZI", un dataset pour l'analyse du sentiment en dialecte tunisien
Publié dans L'expert le 24 - 11 - 2020

Reconnaître vocalement un mot du dialecte tunisien comme par exemple le mot "3asselama" et le traduire facilement et correctement sur Google, en anglais ou en d'autres langues, pourrait être désormais possible.
C'est l'un des objectifs du projet de "dataset" baptisé "Tunizi", et développé par la start-up tunisienne iCompass, spécialisée dans l'intelligence artificielle, plus particulièrement dans le domaine du traitement du langage naturel (TLN).
Il s'agit d'une base de données qui comporte 9 000 phrases écrites en dialecte tunisien et qui regroupe le premier grand ensemble de données d'analyse du sentiment, utilisé sur les réseaux sociaux.
La finalité du projet et bien d'autres en voie de développement en Afrique et dans le monde arabe est de créer des bases de données annotées et développer et soumettre des ensembles de données de tout dialecte sous-desservi et sous-représenté en vue de les utiliser dans les futures applications de NLP comme la traduction automatique, les agents conversationnels (Chatbot) ou la reconnaissance vocale.
Pour l'intelligence artificielle, cette démarche est nécessaire parce que les ensembles de données annotés conditionnent désormais la réussite des algorithmes utilisés comme base d'apprentissage.
De l'Arabizi à "Tunizi"
En effet, les internautes adeptes des réseaux sociaux et du "chat" dans le monde arabe ont tendance à s'exprimer, dans leurs dialectes locaux, auxquels les égyptiens ont choisi le nom " Arabizi ", un mot prononcé en arabe en mixant arabe et anglais (ÇäÌáíÒí+ÚÑÈí) .
Les études analytiques cherchent à explorer et à reconnaître les opinions en ligne dans le but de les exploiter à des fins de planification et de prédiction telles que la mesure de la satisfaction du client et l'établissement de stratégies de vente et de marketing. Cependant, ces études basées sur le Deep Learning sont gourmandes en données.
Or, les langues et dialectes africains y compris le dialecte tunisien, sont considérés comme des langues à faibles ressources.
Jusqu'à ce jour, il n'existe aucun ensemble de données de taille significative annotées sur le dialecte tunisien, selon iCompass.
Dans une enquête réalisée en 2018 pour évaluer la disponibilité des ensembles de données du dialecte tunisien, citée par iCompass, les auteurs ont conclu que tous les ensembles de données tunisiens existants utilisent des lettres arabes et qu'il y a un manque d'ensembles de données annotés sur l'Arabizi tunisien.
En 2014, un recueil multidialectal de cinq dialectes arabes (égyptien, tunisien, jordanien, palestinien et syrien) afin d'identifier les similitudes et les différences possibles entre eux, les résultats ont révélé que le dialecte tunisien a le moins de ressources et qu'il est nécessaire de créer des ensembles de données tunisiens pour des études analytiques.
Rendre le dialecte tunisien assimilable par les systèmes informatiques
Concrètement, iCompass a procédé à la collecte de données à partir des commentaires sur le réseau social Youtube.
Les vidéos choisies comprenaient des sports, de la politique, de la comédie, des émissions de télévision, des séries télévisées, des arts et des vidéos musicales tunisiennes de sorte que l'ensemble de données soit représentatif et contienne différents types d'âge, de formation, d'écriture, etc.
Selon Ahmed Nouisser, co-fondateur et CEO d'iCompass, "le principe général est d'offrir à l'écosystème tunisien, maghrébin et africain plus de datas annotés, appelés "datasets", pour les exploiter dans le développement des recherches (sociales, scientifiques, humaines et autres...) ".
" Notre rôle est de travailler sur les langues et dialectes en Afrique pour rapprocher les peuples du continent à l'évolution technologique et à l'innovation ", a-t-il dit.
Il a expliqué à TAP, que l'intelligence artificielle ne peut se développer que s'il existe des datas annotées d'une taille significative, organisées et précises.
La start-up tunisienne œuvre, à cet effet, à développer Tunizi pour le rendre un très large Dataset annoté et le mettre à la disposition des chercheurs, des universités et d'autres structures d'analyses à travers les systèmes informatiques et l'intelligence artificielle, a encore indiqué Ahmed Nouisser.
Avec TAP


Cliquez ici pour lire l'article depuis sa source.