Par Amine Ben Gamra : La baisse des coûts mondiaux des denrées alimentaires pourrait présenter des opportunités positives pour le redressement économique tunisien    La Tunisie en Force: 19 Médailles, Dont 7 Ors, aux Championnats Arabes d'Athlétisme    Tunisie-Bac 2025 : Dates clés des épreuves du bac blanc et de la session principale    Infrastructures routières : le Parlement examine demain un accord de prêt avec la BAD    Reprise des négociations dans le privé : qui sont les envoyés de l'UGTT ?    Classement WTA : Ons Jabeur chute à la 36e place après son élimination à Madrid    CAN U20 – Groupe B – 2e journée Tunisie-Kenya (3-1) : Quel talent et quelle abnégation !    Dates limites pour la déclaration fiscale en Tunisie selon les catégories de contribuables    Amy Pope, directrice de l'OIM, en déplacement en Tunisie    Ridha Chkoundali : la disparition du chèque a entraîné une baisse de la consommation    Classement WTA : Ons Jabeur quitte le top 30    Météo en Tunisie : Fortes pluies et orages attendus au Nord-Ouest et au Centre    Syrie : Après L'Exclusion De Soulef Fawakherji, Mazen Al Natour Ecarté Du Syndicat    GAT VIE : Une belle année 2024 marquée par de bonnes performances.    ARP : discussion d'une proposition de loi sur le travail des huissiers notaires    Tragique accident à Bouficha: un camion prend feu, le chauffeur décède sur le coup    Tunisie : Alerte sur l'Emploi à l'Etranger    Un séisme de magnitude 4,9 secoue le nord du Chili    Saïda Garrach : l'Etat juste est celui qui sanctionne, non celui qui justifie    Réserves en devises : 22 469 MD couvrant 99 jours d'importation    FITA 2025 à Tunis les 6 et 7 mai : une opportunité stratégique pour les entreprises tunisiennes à la conquête de l'Afrique    À l'approche du pèlerinage, Riyad durcit le ton contre les violations des consignes    Houcine Rhili : amélioration des réserves en eau, mais la vigilance reste de mise    Guerre commerciale : Le Japan hausse le ton et conditionne tout accord avec USA à une révision totale des taxes de Trump    Train Annaba-Tunis : une bonne nouvelle pour les familles et les voyageurs    Trafic international de drogue : un gardien de handball remis en liberté    Lors d'un entretien téléphonique avec le premier ministre Irakien : Saïed appelle à une position arabe unie face à l'occupant sioniste    USA – Trump veut taxer à 100 % les films étrangers : une nouvelle offensive commerciale en marche    Ce que les astres vous réservent ce 5 mai 2025 : une journée sous le signe des choix    Kaïs Saïed réaffirme son soutien à la cause palestinienne lors d'un échange avec le Premier ministre irakien    Foire du livre de Tunis : affluence record, mais ventes en baisse    Stand de La Presse à la FILT: Capter l'émotion en direct    Victoire capitale pour la Tunisie face au Kenya (3-1) en Coupe d'Afrique U20    Tunisie – Affaire de torture à la prison de Bizerte : le ministère de la Justice met fin aux rumeurs    Un nouveau séisme frappe la Turquie    Fake news, crise des médias… Zied Dabbar propose un fonds pour protéger l'information professionnelle en Tunisie    Coupe de Tunisie de Handball : Où voir la demi-finale entre Club Africain et l'Espérance de Tunis ?    Un missile tiré depuis le Yémen s'écrase près du principal aéroport d'Israël    Décès du journaliste Boukhari Ben Salah: Hommage émouvant du SNJT    «Mon Pays, la braise et la brûlure», de Tahar Bekri    France : un Prince qatari se baladait à Cannes avec une montre à 600 000 €, ça a failli mal tourner    Le chanteur libanais Rayan annonce sa guérison et rend hommage à la Tunisie    Décès du producteur Walid Mostafa, époux de la chanteuse Carole Samaha    Le Canal de Panama: Champ de bataille de la rivalité sino-américaine    Tunisie : Découverte archéologique majeure à Sbiba (Photos)    Gymnastique rythmique : la Tunisie en lice au Championnat d'Afrique au Caire    Drame en Inde : une influenceuse de 24 ans se suicide après une perte de followers    La Liga: Le Rwanda désormais un sponsor de l'Atlético de Madrid    







Merci d'avoir signalé!
Cette image sera automatiquement bloquée après qu'elle soit signalée par plusieurs personnes.



Intelligence artificielle : "TUNIZI", un dataset pour l'analyse du sentiment en dialecte tunisien
Publié dans L'expert le 24 - 11 - 2020

Reconnaître vocalement un mot du dialecte tunisien comme par exemple le mot "3asselama" et le traduire facilement et correctement sur Google, en anglais ou en d'autres langues, pourrait être désormais possible.
C'est l'un des objectifs du projet de "dataset" baptisé "Tunizi", et développé par la start-up tunisienne iCompass, spécialisée dans l'intelligence artificielle, plus particulièrement dans le domaine du traitement du langage naturel (TLN).
Il s'agit d'une base de données qui comporte 9 000 phrases écrites en dialecte tunisien et qui regroupe le premier grand ensemble de données d'analyse du sentiment, utilisé sur les réseaux sociaux.
La finalité du projet et bien d'autres en voie de développement en Afrique et dans le monde arabe est de créer des bases de données annotées et développer et soumettre des ensembles de données de tout dialecte sous-desservi et sous-représenté en vue de les utiliser dans les futures applications de NLP comme la traduction automatique, les agents conversationnels (Chatbot) ou la reconnaissance vocale.
Pour l'intelligence artificielle, cette démarche est nécessaire parce que les ensembles de données annotés conditionnent désormais la réussite des algorithmes utilisés comme base d'apprentissage.
De l'Arabizi à "Tunizi"
En effet, les internautes adeptes des réseaux sociaux et du "chat" dans le monde arabe ont tendance à s'exprimer, dans leurs dialectes locaux, auxquels les égyptiens ont choisi le nom " Arabizi ", un mot prononcé en arabe en mixant arabe et anglais (ÇäÌáíÒí+ÚÑÈí) .
Les études analytiques cherchent à explorer et à reconnaître les opinions en ligne dans le but de les exploiter à des fins de planification et de prédiction telles que la mesure de la satisfaction du client et l'établissement de stratégies de vente et de marketing. Cependant, ces études basées sur le Deep Learning sont gourmandes en données.
Or, les langues et dialectes africains y compris le dialecte tunisien, sont considérés comme des langues à faibles ressources.
Jusqu'à ce jour, il n'existe aucun ensemble de données de taille significative annotées sur le dialecte tunisien, selon iCompass.
Dans une enquête réalisée en 2018 pour évaluer la disponibilité des ensembles de données du dialecte tunisien, citée par iCompass, les auteurs ont conclu que tous les ensembles de données tunisiens existants utilisent des lettres arabes et qu'il y a un manque d'ensembles de données annotés sur l'Arabizi tunisien.
En 2014, un recueil multidialectal de cinq dialectes arabes (égyptien, tunisien, jordanien, palestinien et syrien) afin d'identifier les similitudes et les différences possibles entre eux, les résultats ont révélé que le dialecte tunisien a le moins de ressources et qu'il est nécessaire de créer des ensembles de données tunisiens pour des études analytiques.
Rendre le dialecte tunisien assimilable par les systèmes informatiques
Concrètement, iCompass a procédé à la collecte de données à partir des commentaires sur le réseau social Youtube.
Les vidéos choisies comprenaient des sports, de la politique, de la comédie, des émissions de télévision, des séries télévisées, des arts et des vidéos musicales tunisiennes de sorte que l'ensemble de données soit représentatif et contienne différents types d'âge, de formation, d'écriture, etc.
Selon Ahmed Nouisser, co-fondateur et CEO d'iCompass, "le principe général est d'offrir à l'écosystème tunisien, maghrébin et africain plus de datas annotés, appelés "datasets", pour les exploiter dans le développement des recherches (sociales, scientifiques, humaines et autres...) ".
" Notre rôle est de travailler sur les langues et dialectes en Afrique pour rapprocher les peuples du continent à l'évolution technologique et à l'innovation ", a-t-il dit.
Il a expliqué à TAP, que l'intelligence artificielle ne peut se développer que s'il existe des datas annotées d'une taille significative, organisées et précises.
La start-up tunisienne œuvre, à cet effet, à développer Tunizi pour le rendre un très large Dataset annoté et le mettre à la disposition des chercheurs, des universités et d'autres structures d'analyses à travers les systèmes informatiques et l'intelligence artificielle, a encore indiqué Ahmed Nouisser.
Avec TAP


Cliquez ici pour lire l'article depuis sa source.