Soupçons de torture à Bizerte : l'Ordre des avocats répond au ministère de la Justice    Houcine Rhili : amélioration des réserves en eau, mais la vigilance reste de mise    Classement WTA : Ons Jabeur chute à la 36e place    Guerre commerciale : Le Japan hausse le ton et conditionne tout accord avec USA à une révision totale des taxes de Trump    Prévisions météo pour ce début de semaine    Tunisie – Bac 2025 : démarrage du bac blanc pour près de 144 000 candidats    Lors d'un entretien téléphonique avec le premier ministre Irakien : Saïed appelle à une position arabe unie face à l'occupant sioniste    Train Annaba-Tunis : une bonne nouvelle pour les familles et les voyageurs    Trafic international de drogue : un gardien de handball remis en liberté    USA – Trump veut taxer à 100 % les films étrangers : une nouvelle offensive commerciale en marche    L'hydrogène vert d'Oman trace un corridor énergétique vers l'Europe    Kaïs Saïed réaffirme son soutien à la cause palestinienne lors d'un échange avec le Premier ministre irakien    Ce que les astres vous réservent ce 5 mai 2025 : une journée sous le signe des choix    Kaïs Saïed, Rayan Khalfi, Sherifa Riahi… Les 5 infos du week-end    Foire du livre de Tunis : affluence record, mais ventes en baisse    Vers une intégration bancaire maghrébine : les recommandations du Forum international de Tunis    Stand de La Presse à la FILT: Capter l'émotion en direct    Tunisie – Demain dernier délai de payement de la vignette pour ce type de véhicules    Handball – Coupe de Tunisie : L'Espérance remporte le derby face au Club Africain et file en finale    Tunisie – Augmentation des ventes des voitures pour le premier trimestre 2025    Victoire capitale pour la Tunisie face au Kenya (3-1) en Coupe d'Afrique U20    Amnesty International: La liberté de la presse au Bénin menacée, un appel à réformer le Code du numérique    Ligue 1 – 28e journée : Le CAB et le Club Africain dos à dos à la mi-temps    Un bon procès n'est pas uniquement un verdict mais aussi et surtout des procédures et des réponses    Deux bateaux chavirent en Chine : environ 70 personnes à l'eau    Un nouveau séisme frappe la Turquie    Fake news, crise des médias… Zied Dabbar propose un fonds pour protéger l'information professionnelle en Tunisie    Kasserine : Saisie de matériel de tricherie destiné aux examens à la frontière    La FAJ appelle à une utilisation responsable de l'IA pour protéger le journalisme en Afrique    Coupure d'électricité aujourd'hui dans plusieurs régions en raison de travaux de maintenance    Un missile tiré depuis le Yémen s'écrase près du principal aéroport d'Israël    Aujourd'hui : les températures atteindront jusqu'à 37°C    L'Allemagne, première destination des compétences tunisiennes en 2025    Décès du journaliste Boukhari Ben Salah: Hommage émouvant du SNJT    Les exportations turques atteignent un niveau record de 265 milliards de dollars    «Mon Pays, la braise et la brûlure», de Tahar Bekri    France : un Prince qatari se baladait à Cannes avec une montre à 600 000 €, ça a failli mal tourner    Le chanteur libanais Rayan annonce sa guérison et rend hommage à la Tunisie    GAT VIE : une belle année 2024 marquée par de bonnes performances    Décès du producteur Walid Mostafa, époux de la chanteuse Carole Samaha    Le Canal de Panama: Champ de bataille de la rivalité sino-américaine    Tunisie : Découverte archéologique majeure à Sbiba (Photos)    Gymnastique rythmique : la Tunisie en lice au Championnat d'Afrique au Caire    Drame en Inde : une influenceuse de 24 ans se suicide après une perte de followers    Nouveau communiqué du comité de l'ESS    La Liga: Le Rwanda désormais un sponsor de l'Atlético de Madrid    Foire internationale du livre de Tunis 2025 : hommages, oeuvres et auteurs primés au Kram    Décès de la doyenne de l'humanité, la Brésilienne Inah Canabarro Lucas à 116 ans    







Merci d'avoir signalé!
Cette image sera automatiquement bloquée après qu'elle soit signalée par plusieurs personnes.



Intelligence artificielle : "TUNIZI", Un "dataset" pour l'analyse du sentiment en dialecte purement tunisien
Publié dans WMC actualités le 23 - 11 - 2020

Reconnaitre vocalement un mot du dialecte tunisien comme par exemple le mot "3asselama" et le traduire facilement et correctement sur Google, en anglais ou en d'autres langues, pourrait être, désormais, possible!
C'est l'un des objectifs du projet de "dataset " baptisé "Tunizi", et développé par la start-up tunisienne " iCompass ", spécialisée dans l'intelligence artificielle, et plus particulièrement dans le domaine du traitement du langage naturel (TLN).
Il s'agit d'une base de données qui comporte 9000 phrases écrites en dialecte tunisien et qui regroupe le premier grand ensemble de données d'analyse du sentiment, utilisé sur les réseaux sociaux.
La finalité du projet et d'autres projets similaires en voie de développement en Afrique et dans le monde arabe est de créer des bases de données annotées et développer et soumettre des ensembles de données de tout dialecte sous-desservi et sous-représenté en vue de les utiliser dans les futures applications de NLP comme la traduction automatique, les agents conversationnels (Chatbot) ou la reconnaissance vocale.
Pour l'intelligence artificielle, cette démarche est nécessaire parce que les ensembles de données annotés conditionnent désormais la réussite des algorithmes utilisés comme base d'apprentissage.
De l'Arabizi" à "Tunizi"
En effet, les internautes adeptes des réseaux sociaux et du "chat" dans le monde arabe ont tendance à s'exprimer, dans leurs dialectes locaux, auxquels les égyptiens ont choisi le nom " Arabizi ", un mot prononcé en arabe en mixant arabe et anglais (ÇäÌáíÒí+ÚÑÈí) .
Les études analytiques cherchent à explorer et à reconnaître les opinions en ligne dans le but de les exploiter à des fins de planification et de prédiction telles que la mesure de la satisfaction du client et l'établissement de stratégies de vente et de marketing. Cependant, ces études basées sur le Deep Learning sont gourmandes en données.
Or, les langues et dialectes africains y compris le dialecte tunisien, sont considérés comme des langues à faibles ressources.
Jusqu'à ce jour, il n'existe aucun ensemble de données de taille significative annotées sur le dialecte tunisien, selon " iCompass ".
Dans une enquête réalisée en 2018 pour évaluer la disponibilité des ensembles de données du dialecte tunisien, citée par iCompass, les auteurs ont conclu que tous les ensembles de données tunisiens existants utilisent des lettres arabes et qu'il y a un manque d'ensembles de données annotés sur " l'Arabizi tunisien ".
En 2014, un recueil multidialectal de cinq dialectes arabes : égyptien, tunisien, jordanien, palestinien et syrien afin d'identifier les similitudes et les différences possibles entre eux, les résultats ont révélé que le dialecte tunisien a le moins de ressources et qu'il est nécessaire de créer des ensembles de données tunisiens pour des études analytiques.
Rendre le dialecte tunisien assimilable par les systèmes informatiques
Concrètement, " iCompass " a procédé à la collecte de données à partir des commentaires sur le réseau social Youtube.
Les vidéos choisies comprenaient des sports, de la politique, de la comédie, des émissions de télévision, des séries télévisées, des arts et des vidéos musicales tunisiennes de sorte que l'ensemble de données soit représentatif et contienne différents types d'âge, de formation, d'écriture, etc.
Selon Ahmed Nouisser, Co-fondateur et CEO d'iCompass, "le principe général est d'offrir à l'écosystème tunisien, maghrébin et africain plus de datas annotés, appelés "datasets", pour les exploiter dans le développement des recherches (sociales, scientifiques, humaines et autres…) ".
" Notre rôle est de travailler sur les langues et dialectes en Afrique pour rapprocher les peuples du continent à l'évolution technologique et à l'innovation ", a-t-il dit.
Il a expliqué à TAP, que l'intelligence artificielle ne peut se développer que s'il existe des datas annotées d'une taille significative, organisées et précises.
La start-up tunisienne œuvre, à cet effet, à développer " Tunizi " pour le rendre un très large Dataset annoté et le mettre à la disposition des chercheurs, des universités et d'autres structures d'analyses à travers les systèmes informatiques et l'intelligence artificielle, a encore indiqué Ahmed Nouisser.


Cliquez ici pour lire l'article depuis sa source.