Principes
Les données de la recherche peuvent être très variées. Selon la définition de l’OCDE, ce sont des « enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche ».
Gérer correctement les données de la recherche permet à la fois de se faciliter le travail au quotidien, mais aussi de répondre aux exigences de certains financeurs. D’une manière plus large, bien gérer et partager ses données de la recherche présentent de nombreux bénéfices : Consultez la vidéo
On peut ainsi isoler différentes étapes du « cycle de vie de la données », chacune présentant ses spécificités :
Enfin, les principes guidant la gestion des données de la recherche sont résumés par l’acronyme FAIR (Findable, Accessible, Interoperable, Reusable), qui impliquent notamment :
- l’attribution d’identifiants pérennes (DOI, handle) ;
- la production de métadonnées normalisées et interopérables ;
- l’utilisation de formats ouverts et documentés ;
- la définition claire des conditions de réutilisation (licences adaptées).
Le Plan de gestion de données
Le Plan de gestion de données (PDG) ou Data Management Plan (DMP) est un document formalisé qui décrit et documente la manière dont seront gérées les données d’un projet ou d’une structure. Il couvre toutes les étapes du cycle de vie de la donnée, de la création ou collecte jusqu’au partage et à l’éventuel archivage. C’est un document évolutif qui a vocation à être régulièrement mis à jour.
Les agences de financement, en premier lieu l’ANR et la Commission européenne, demandent qu’un PGD soit fourni et suivi tout au long du projet. Cependant, c’est aussi un outil de gestion très utile qui permet d’anticiper les différentes questions liées aux données de la recherche qui ne manqueront pas de surgir au fil du projet, qu’il s’agisse d’aspects techniques (collecte, stockage, traitement), juridiques (RGPD, données sensibles, etc.) ou budgétaires.
Différents outils permettent d’aider à rédiger un PGD, notamment DMP OPIDoR.
Les entrepôts de données
Les entrepôts permettent de déposer, décrire, conserver et partager les jeux de données. Dans le cycle de vie de la donnée, ils apparaissent à la fois au début (on peut y trouver des jeux de données à exploiter dans le cadre d’un projet) et à la fin (on peut y déposer ses jeux de données pour mieux les rendre visible et les partager).
Ces entrepôts peuvent être généralistes, comme Recherche Data Gouv ou Zenodo, ou encore disciplinaires, comme Nakala, réservé aux SHS. Vous pouvez utiliser le répertoire re3data.org pour identifier l’entrepôt le plus approprié pour déposer vos jeux de données. Consultez la vidéo
La gestion des données de la recherche implique d’anticiper les questions juridiques et éthiques, qui peuvent porter sur la question des données personnelles et sensibles, ou encore sur les conditions juridiques de réutilisation des données.
Vous pouvez utiliser le logigramme suivant pour identifier les démarches à entreprendre lors du traitement de données personnelles et reconnaitre les situations pour lesquelles vous devez demander le consentement des personnes et/ou consulter un comité d’éthique de la recherche : https://doranum.fr/wp-content/uploads/Logigrammes_interactifs_questions_juridiques/story.html
Algorithmes, codes et logiciels
Les logiciels, algorithmes et codes sources représentent le troisième « angle » du triangle données / code / publication. Devenus indispensables à la recherche scientifique, ils sont à la fois un outil de recherche, une source de données et une production scientifique. Leur diffusion participe donc à la transparence méthodologique, à la reproductibilité des analyses et à la réutilisation des travaux par la communauté scientifique
Tout comme les publications et les données, leur ouverture est nécessaire à la reproductibilité de la recherche et à son ouverture. Les principes FAIR s’appliquent aussi à eux :
Nous encourageons les enseignants-chercheurs à adopter de bonnes pratiques de développement, incluant le versionnement du code (notamment via des systèmes de gestion distribuée tels que Git), la documentation des dépendances logicielles, la structuration des dépôts et la traçabilité des évolutions. Le recours à des forges logicielles permet d’organiser le travail collaboratif, d’assurer le suivi des modifications (issues, tickets), de gérer les contributions et de publier des versions stabilisées du code.
Afin de garantir la pérennité et la citabilité des logiciels de recherche, il est recommandé d’archiver les versions publiées dans des infrastructures dédiées permettant l’attribution d’un identifiant pérenne (DOI) et leur conservation à long terme. L’initiative Software Heritage assure notamment l’archivage et la préservation du patrimoine logiciel scientifique.
Le choix d’une licence libre ou open source (par exemple de type permissive ou copyleft) permet de préciser les conditions d’utilisation, de modification et de redistribution du code. Cette décision doit être prise en tenant compte du cadre juridique applicable, des partenariats éventuels et des objectifs de diffusion du projet.
La citation des logiciels, au même titre que celle des publications et des jeux de données, contribue à leur reconnaissance académique.