Excel n'arrêtera jamais de me surprendre. Cet outil que l'on a presque tous est utilisé dans des conditions ou des cas d'usages qui peuvent être surprenants. Parmi les cas les plus intéressants, il y en a quelques-uns dans le domaine de la santé et de la recherche. Ce n'est peut-être qu'un tableur, mais il peut avoir des conséquences réelles pour certaines personnes.
Excel, l'outil à tout faire, y compris analyser le génome humain
Un des cas les plus illustres dans ce domaine concerne les recherches génétiques. La simplicité et la puissance d'Excel en font, depuis des années, un outil de choix de la communauté scientifique pour les analyses génétiques, notamment sur les génomes.
Spoiler : le souci a depuis été réglé dans Excel, mais il a duré plus de 20 ans !
Une histoire de conversion
L'origine du problème est aussi vieille que le monde de la donnée : la conversion de type de données.
Un gène est une séquence spécifique d'ADN qui contient les instructions nécessaires à la fabrication des protéines, les molécules essentielles au fonctionnement de l’organisme. Chaque gène code une protéine ou un ensemble de protéines, qui vont jouer des rôles spécifiques, comme la construction de tissus, la régulation des processus cellulaires, ou la défense contre les maladies. Le code du gène est une sorte d'étiquette unique qui permet de l'identifier : par exemple, le gène SEPT2
contient les informations pour produire une protéine impliquée dans de nombreuses activités cellulaires.
Les plus expérimentés d'entre vous auront compris le problème en un coup d'œil : En lisant SEPT2
, a-t-on affaire à une chaîne de caractères ou à une date ? Ici, Excel, essayant de vous aider, va convertir cette entrée de texte en date.
Est-ce réellement un problème ?
Après tout, on pourrait se dire que ce n'est pas réellement un souci. Le texte reste tout de même lisible, non ?
En réalité, pas vraiment. La conversion en date n'est qu'un des problèmes de conversions qui existe. Ces "erreurs" peuvent non seulement poser des soucis d'analyse et d'interprétation, mais peuvent également rendre les études scientifiques "non-reproductibles".
Une étude de 2016 indique que 1/5ème des publications scientifiques dans le domaine de la génétique contiennent des erreurs dues à Excel. Une autre étude de 2021 indique que - alors que la communauté scientifique est bien au fait de ces soucis - 30% des publications ont des erreurs dans les annexes. Un institut de Melbourne édite même un rapport mensuel. En octobre 2024, sur un peu plus de 3000 publications, 20.61 % contenaient des erreurs de conversion.
Si Excel ne vient pas à toi, tu iras à Excel
Ce souci de conversion dans Excel est devenu tellement important qu'en 2020, le HGNC - le comité international de nomenclature des gènes - a publié de nouvelles directives afin, entre autres, d'éviter les erreurs de conversion automatiques par les tableurs. Par exemple, SEPT1
, souvent converti en 1er Septembre par Excel, est remplacé par SEPTIN1
. Idem pour MARCH1
, qui devient MARCHF1
.
Tout vient à point
En 2023, Microsoft a introduit des fonctionnalités permettant aux utilisateurs de désactiver certains types de conversions automatiques. Cette mise à jour, disponible sur Windows et Mac, permet aux utilisateurs d’Excel de spécifier quels types de données (dates, notation scientifique, etc.) ne doivent pas être convertis automatiquement. En accédant à Options > Données > Conversion de Données Automatique dans Excel, les utilisateurs peuvent maintenant choisir d’ignorer certaines transformations, garantissant une meilleure préservation des noms de gènes.
Références
- KC Lemson (Principal PM on Excel) Threads post about the update
- Nature: Guidelines for human gene nomenclature - HUGO Gene Nomenclature Committee (HGNC).
- Microsoft Tech Community: Control data conversions in Excel for Windows and Mac - Microsoft 365 Insider Blog.
- SEPTIN2 Gene symbol report