Ressources numériques, intégrité scientifique et intelligence artificielle

RESSOURCES NUMÉRIQUES, INTÉGRITÉ SCIENTIFIQUE ET INTELLIGENCE ARTIFICIELLE

L'avènement de l'intelligence artificielle générative marque un tournant décisif dans les pratiques de recherche et de publication académiques. Dans ce contexte de transformation rapide, l'accès équitable aux ressources numériques traditionnelles – bibliothèques électroniques, bases de données spécialisées et corpus numérisés – s'impose comme un rempart essentiel au maintien de l'intégrité scientifique. Cette relation, souvent négligée dans les débats actuels, mérite une attention particulière tant ses implications touchent aux fondements mêmes de la production du savoir. L'analyse comparative de contextes institutionnels contrastés permet d'en mesurer les enjeux concrets.

Les outils d'intelligence artificielle, notamment les grands modèles de langage, proposent désormais une voie apparemment simplifiée vers la synthèse documentaire et la rédaction scientifique. Toutefois, ces technologies présentent des limites structurelles bien documentées : hallucinations factuelles, biais de représentation dans les données d'entraînement, et absence de transparence quant aux sources mobilisées. Face à ces écueils, l'accès direct aux ressources académiques primaires constitue le seul moyen fiable de vérification et de validation des informations. Un chercheur disposant d'un accès complet à JSTOR, Web of Science ou aux archives institutionnelles peut confronter les affirmations générées par l'IA aux publications originales, préservant ainsi la rigueur méthodologique qui caractérise la démarche scientifique.

Les universités de l'Ivy League illustrent un modèle de saturation documentaire où cette vérification devient systématique. Harvard ou Yale, avec leurs budgets de bibliothèque dépassant souvent cent millions de dollars annuellement, offrent un accès quasi illimité aux bases de données spécialisées, aux archives historiques numérisées et aux plateformes de publication émergentes. Leurs chercheurs bénéficient également de services de soutien bibliothéconomique sophistiqués pour naviguer ces ressources. Dans ce contexte d'abondance, l'IA générative devient un outil complémentaire plutôt qu'un substitut, permettant une première exploration rapidement confrontée aux sources primaires.

Le système universitaire québécois présente une réalité sensiblement différente. Bien que le Consortium des bibliothèques universitaires du Québec (CREPUQ) ait historiquement permis une mutualisation des ressources, les contraintes budgétaires imposent des choix stratégiques. L'Université de Montréal ou l'Université Laval disposent certes d'infrastructures documentaires respectables, mais leurs chercheurs font face à des limitations dans l'accès à certaines bases de données coûteuses ou à des corpus linguistiques spécialisés. Cette situation intermédiaire crée une dépendance potentiellement accrue aux outils génératifs pour combler les lacunes d'accès, augmentant ainsi les risques pour l'intégrité scientifique lorsque la vérification systématique devient matériellement difficile.

Cette asymétrie révèle une fracture numérique aux conséquences épistémologiques préoccupantes. Tandis que les institutions richement dotées peuvent maintenir des standards élevés de vérification, les communautés académiques sous-financées risquent une dépendance accrue envers des outils génératifs dont la fiabilité reste incertaine. L'intégrité scientifique, traditionnellement garantie par des protocoles méthodologiques partagés, se trouve ainsi potentiellement compromise par des inégalités d'accès infrastructurel. Cette stratification qualitative de la production académique menace l'universalité des normes scientifiques et pourrait créer une hiérarchisation implicite de la crédibilité académique selon l'origine institutionnelle.

L'intégrité scientifique repose également sur la traçabilité complète des sources et la reproductibilité des démarches de recherche. Les ressources numériques académiques, avec leurs identifiants persistants et leurs métadonnées normalisées, garantissent cette traçabilité d'une manière que l'IA générative ne peut actuellement assurer. Dans les contextes où l'accès documentaire demeure robuste, les chercheurs peuvent construire des argumentaires solidement ancrés dans la littérature existante et documenter leurs emprunts intellectuels avec précision.

La comparaison entre modèles institutionnels révèle que l'investissement dans l'accès universel aux ressources numériques académiques représente moins une dépense qu'une condition nécessaire à la préservation de l'intégrité scientifique face aux défis posés par l'intelligence artificielle.

Références

Ahari, J. (2024, 23 avril). Generative AI and Scholarly Publishing. Ithaka S+R (blog). https://sr.ithaka.org/blog/generative-ai-and-scholarly-publishing/.

Akhtar, M. et al. (2024). Croissant: A Metadata Format for ML-Ready Datasets. Proceedings of the Eighth Workshop on Data Management for End-to-End Machine Learning, 1‑6. DEEM ’24. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/3650203.3663326.

Asubiaro, T., Onaolapo, S. & Mills, D. (2024). Regional disparities in Web of Science and Scopus journal coverage. Scientometrics, 129 (3), 1469–1491. https://doi.org/10.1007/s11192-024-04948-x.

Azeroual, O. & Schöpfel, J. (2025). New Developments in Research Data Management - The Potential of AI. Dans D. Baker, L. Ellis (éds.). Encyclopedia of Libraries, Librarianship, and Information Science, p. 206‑211. Oxford Academic Press. https://doi.org/10.1016/B978-0-323-95689-5.00253-4.

Bergstrom, T. et al. (2024). The Second Digital Transformation of Scholarly Publishing: Strategic Context and Shared Infrastructure. Ithaka S+R. https://doi.org/10.18665/sr.320210.

Bishop, B. (2023, 21 août). AI and New Standards Promise to Make Scientific Data More Useful by Making It Reusable and Accessible. The Conversation. http://theconversation.com/ai-and-new-standards-promise-to-make-scientific-data-more-useful-by-making-it-reusable-and-accessible-211080.

Chubb, J., Cowling, P. et Reed, D. (2022). Speeding up to keep up: exploring the use of AI in the research process. AI & SOCIETY, 37 (4), 1439‑1457. https://doi.org/10.1007/s00146-021-01259-0.

Council of Atlantic Academic Libraries (2025). Data Cleaning in (early) 2025: Feasibility of AI Tools. https://www.youtube.com/watch?v=A5x3jVV5UdY.

Directorate-General for Research and Innovation (2024). Living Guidelines on the Responsible Use of Generative AI in Research (Version 1). European Commission. https://research-and-innovation.ec.europa.eu/document/download/2b6cf7e5-36ac-41cb-aab5-0d32050143dc_en?filename=ec_rtd_ai-guidelines.pdf.

Dobrin, S. (2023). Talking about Generative AI: A Guide for Educators. Broadview Press. https://sites.broadviewpress.com/ai/talking/.

Finnegan, M.-K. (2024). Research Guides: Data Management & Sharing : Generative Artificial Intelligence (AI) and Research Data Management (RDM). https://csus.libguides.com/RDM/AI.

Gaillard, V. (2022, Sept.). Encouraging/Supporting Sustainability in the Diamond Action Plan Community. Presented at the 2022 Diamond Open Access Conference. https://www.scienceeurope.org/media/yg3ho4tp/doa-conf-vinciane-gaillard.pdf

Google Cloud Tech (2023). Introduction to Generative AI. https://www.youtube.com/watch?v=G2fqAlgmoPo.

Groupe spécial d’experts externes sur l’IA générative (2024, 12 janvier). Avis du groupe spécial d’experts externes sur l’IA générative. Innovation, Sciences et Développement économique Canada. https://science.gc.ca/site/science/fr/financement-interorganismes-recherche/politiques-lignes-directrices/lutilisation-lintelligence-artificielle-generative-dans-lelaboration-levaluation-propositions/avis-groupe-special-dexperts-externes-lia-generative.

Huerta, E. A. et al. (2023). FAIR for AI: An Interdisciplinary and International Community Building Perspective. Scientific Data, 10(1), 487. https://doi.org/10.1038/s41597-023-02298-6.

Lawrence, N. et Montgomery, J. (2024). Accelerating AI for science: open data science for science. Royal Society Open Science, 11(8), 231130. https://doi.org/10.1098/rsos.231130.

Lehtiö, L. (s. d.). UTUGuides: Librarian’s Guide to Artificial Intelligence: AI in Research and Research Data Management. https://utuguides.fi/c.php?g=712454&p=5147020.

Ping, H., Stoyanovich, J. et Howe, B. (2017). DataSynthesizer: Privacy-Preserving Synthetic Datasets. Proceedings of the 29th International Conference on Scientific and Statistical Database Management, 1‑5. SSDBM’17. Association for Computing Machinery. https://doi.org/10.1145/3085504.3091117.

Rekatsinas, T. et al. (2019). Opportunities for data management research in the era of horizontal AI/ML. Proceedings of the VLDB Endowment, 12(12), 2323‑2324. https://doi.org/10.14778/3352063.3352149.

Semeler, A. et al. (2024). ALGORITHMIC LITERACY: Generative Artificial Intelligence Technologies for Data Librarians. ICST Transactions on Scalable Information Systems, 11(2). https://doi.org/10.4108/eetsis.4067.

Shen, C. et Ball, J. (2024. 6 june). DOAJ’s Role in Supporting Trust in Scholarly Journals: Current Challenges and Future Solutions. The Scholarly Kitchen (blog). https://scholarlykitchen.sspnet.org/2024/06/06/guest-post-doajs-role-in-supporting-trust-in-scholarly-journals-current-challenges-and-future-solutions/.

Srivastava, A. (2023). Transformative Data Management Technique: Redefining Artificial Intelligence (AI). Management Insight, 19(01), 59‑70. https://doi.org/10.21844/mijia.19.1.6.

Stern, B. et al. (2023). Towards Responsible Publishing : Seeking Input from the Research Community to a Draft Proposal from cOAlition S. sOApbox: A Plan S Blog (blog). https://doi.org/10.5281/ZENODO.8398480.

Stern, B. et Rooryck, J. (2023, 31 octobre). Introducing the ‘Towards Responsible Publishing’ Proposal from cOAlition S/Plan S. sOApbox: A Plan S Blog (blog). https://www.coalition-s.org/blog/introducing-the-towards-responsible-publishing-proposal-from-coalition-s/.

Wilkinson, M. et al. (2016). The FAIR Guiding Principles for Scientific Data Management and Stewardship. Scientific Data, 3(1), 160018. https://doi.org/10.1038/sdata.2016.18.