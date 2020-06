Le mystère plane sur cette petite société américaine qui affirme avoir constitué une colossale base de données médicales en nouant des partenariats avec des centaines d'hôpitaux du monde entier.

Surgisphere. Cette entreprise américaine est celle par laquelle le scandale est arrivé, jetant le trouble sur le travail de la communauté scientifique en pleine pandémie de coronavirus. Surgisphere a, en effet, fourni et analysé les données sur lesquelles des chercheurs se sont appuyés pour évaluer l'efficacité des controversées chloroquine et hydroxychloroquine contre le Covid-19. Leurs travaux parus dans The Lancet ont eu un tel retentissement qu'ils ont eu des répercussions politiques, conduisant notamment l'Organisation mondiale de la santé à suspendre les essais sur ces médicaments.

Mais, bien vite, des scientifiques ont décelé des incohérences dans les chiffres et les statistiques de l'étude. Le refus de Surgisphere de donner accès à ses données a empêché toute évaluation indépendante des travaux et semé un peu plus le doute sur la fiabilité, voire l'existence de la base de données. Trois des quatre auteurs de l'étude ont fini par se rétracter. Et le mystère entourant cette entreprise demeure.

Un projet avorté d'humain augmenté

Surgisphere naît en 2008. Son fondateur, Sapan Desai, est alors en stage post-doctoral à l'université Duke, en Caroline du Nord. Sa petite entreprise commercialise des manuels – encore en vente sur Amazon – destinés aux étudiants en médecine. Certains commentaires élogieux sont signés d'internautes dont les noms ressemblent étrangement à ceux de médecins en exercice, qui s'en offusquent et obtiennent leur dépublication. Sapan Desai nie toute implication dans cette manipulation, révèle The Scientist*. Deux ans plus tard, Sapan Desai devient éditeur d'une revue médicale. En deux ans et demi, Surgisphere publiera dix numéros du Journal de radiologie chirurgicale.

Capture d'écran de la page du site de Surgisphere présentant ses anciennes revues médicales, le 5 juin 2020 (SURGISPHERE)

En 2012, le chirurgien vasculaire s'installe à Houston. Il exerce dans un centre de l'université du Texas. Il rêve aussi d'humanité augmentée et lance une campagne de financement participatif sur Indiegogo* pour son projet baptisé "Flux neurodynamique". Son bonnet à électrodes censé stimuler le cerveau – "une révolution dans l'évolution humaine" – récolte trois soutiens et 311 dollars. Surgisphere disparaît ensuite des écrans radar pendant plus de sept ans.

Le Covid-19 comme opportunité

L'entreprise réapparaît en pleine pandémie de Covid-19. En février, Sapan Desai a démissionné de l'hôpital de la banlieue de Chicago qui l'employait depuis 2016, rapporte le Guardian*. Il est concentré sur Surgisphere qui connaît un soudain regain d'activité, entièrement tournée vers le "big data" et le "machine learning". En mars, un communiqué de presse* circule, vantant son "outil de diagnostic rapide du coronavirus" : un "test très précis", capable d'"identifier les patients susceptibles d'être infectés", "avec une sensibilité de 93,7% et une spécificité de 99,9%". Surgisphere propose également un "calculateur de risque de mortalité"*, un "score de gravité"* et un "outil d'aide au triage"* des malades. Des outils aux interfaces basiques disponibles sur le site de Surgisphere, dont plusieurs experts mettent en doute la fiabilité.

Capture d'écran d'une page du site internet de Surgisphere dédiée au Covid-19, le 5 juin 2020. (SURGISPHERE)

En avril, Sapan Desai cosigne sa première étude sur le Sars-CoV-2. Celle-ci paraît sur un site de prépublication, le SSRN*. Le papier évalue les effets de l'ivermectine, un médicament antiparasitaire employé notamment contre la gale, que des chercheurs testent comme remède au Covid-19. Début mai, Sapan Desai cosigne une nouvelle étude. Il a les honneurs du New England Journal of Medicine*, une prestigieuse revue médicale américaine à comité de lecture. Les auteurs étudient le lien entre la mortalité liée au Covid-19 et les maladies cardio-vasculaires préexistantes chez les malades.

Sapan Desai décroche le Graal à la fin mai en tant que coauteur d'une troisième étude. Il s'intéresse cette fois aux effets de la chloroquine et de l'hydroxychloroquine, deux autres molécules candidates au traitement. Son article paraît dans The Lancet, la référence britannique des revues scientifiques médicales. Les auteurs des trois études se sont depuis rétractés, face au déluge de critiques et à l'impossibilité d'y apporter des réponses.

A chaque fois, Surgisphere a fourni la base de données et s'est chargée de son analyse. Les deux premières études portaient sur les données de patients de 169 hôpitaux d'Asie, d'Europe et d'Amérique du Nord. La troisième explose tous les compteurs un mois plus tard seulement, avec plus de 96 000 dossiers médicaux en provenance de 671 hôpitaux sur six continents.

"Je ne comprends pas comment ils ont réussi à faire ça"

"Quand l'article est sorti, de jeunes chercheurs m'ont appelé pour me dire : 'Là franchement, je ne comprends pas comment ils ont réussi à faire ça. Soit ils ont trouvé une méthode géniale, et à ce moment-là, il faut vite qu'on sache laquelle, parce qu'on est en train de perdre beaucoup de temps et d'argent. Soit il y a un gros problème'", raconte Rodolphe Thiébaut, directeur adjoint du centre de recherche en épidémiologie et biostatistique de l'université de Bordeaux et de l'Inserm.

Son unité de recherche fait justement partie d'un consortium international* de scientifiques qui tente d'étudier la pandémie à partir des informations contenues dans les entrepôts de données sécurisés d'hôpitaux du monde entier, utilisant le même logiciel, inventé par un de leurs pairs.

On n'est pas en train de parler d'une entreprise inconnue qui tout d'un coup a réussi à recouper les données de plus de 600 hôpitaux.Rodolphe Thiébaut, biostatisticienà franceinfo

"On parle d'un chercheur mondialement connu, basé à Harvard, qui a une équipe de recherche entière, qui va organiser un consortium académique avec des centaines de chercheurs qui travaillent depuis des années pour monter leurs entrepôts de données", détaille-t-il. Un travail titanesque qui en est encore à ses balbutiements.

Alors comment Surgisphere a-t-elle pu réaliser pareil tour de force ? Contacté par franceinfo, Sapan Desai fournit une explication. Sa société, déclare-t-il, propose à ses clients un logiciel d'apprentissage automatique et d'analyse de données destiné à améliorer leur gestion, dénommé QuartzClinical*, dont le site internet paraît bien fruste. En échange, l'accord commercial donne le droit à l'entreprise d'intégrer dans sa base de données les informations contenues dans les dossiers médicaux anonymisés des patients de ces hôpitaux. Surgisphere dispose ainsi "d'une base de données en temps réel de plus de 240 millions de consultations de patients anonymes provenant de plus de 1 200 organisations de soins de santé dans 45 pays". Une base de données dont Sapan Desai défend l'"intégrité".

Capture d'écran de la page d'accueil de QuartzDigital, le 5 juin 2020. (QUARTZDIGITAL)

Ces explications ne convainquent pas les spécialistes du secteur. "Techniquement, c'est possible, reconnaît Rodolphe Thiébaut. Si j'installe un programme sur un serveur hospitalier qui permet l'aspiration des données dans un cloud, il n'y a pas de souci." Légalement en revanche, cela semble plus compliqué.

"Dans un cadre juridique français ou européen, quand un industriel a accès à des données de santé, leur traitement doit avoir une motivation particulière, connue de l'établissement ou de la plateforme qui lui fournit ces données, souligne un fin connaisseur de l'exploitation informatisée de ce type de renseignements. Pour faire une étude aussi actuelle sur le Covid-19 et la chloroquine, je ne vois pas comment ce questionnement spécifique a pu être prévu dans un protocole avec tel ou tel hôpital." "Le régime américain offre un peu plus de latitude, mais pas absolue ou inconditionnelle, il y a des normes d'utilisation", reconnaît toutefois cet expert.

"Les acteurs pour ce genre de choses, ce sont plutôt les géants du numérique, renchérit Rodolphe Thiébaut. Il faut voir le niveau de discussion et de sécurité qu'il faut. A construire, c'est extrêmement difficile."

Un fonctionnement artisanal

Contactée par franceinfo, l'AP-HP assure qu'elle "ne travaille pas et ne met pas de données de santé à la disposition de Surgisphere". Une journaliste de The Scientist* à la recherche d'hôpitaux américains ayant fourni des données utilisées dans l'étude du Lancet n'en a toujours pas trouvé. Les nombreuses incohérences statistiques repérées par les scientifiques dans l'étude renforcent les doutes sur l'existence de ces données. Tout comme le refus répété de Surgisphere d'y donner accès, au motif que l'accord conclu avec ses clients l'en empêche.

Il y a vraiment à se poser des questions sur l'origine des données. Est-ce que ce n'est pas fabriqué ? On en est là."Carole Dufouil, biostatisticienneà franceinfo

Comment Surgisphere, qui ne revendique que onze employés et dont aucun des experts interrogés en France comme à l'étranger n'avaient entendu parler jusqu'à ce scandale, aurait-elle réussi à bâtir un tel réseau planétaire ? Là encore, le mystère demeure. Sans oublier que parmi les employés que franceinfo a pu retrouver, aucun n'a le bagage scientifique nécessaire à ce genre de travaux.

Les deux personnes présentées comme vice-présidents viennent ainsi du marketing. La rédactrice scientifique, qui a signé quelques communiqués sur le site, est une autrice de fantasy dont les livres auto-édités sont vendus sur Amazon et dont la chaîne YouTube laisse apprécier ses talents d'illustratrice. Quant à l'éphémère directrice du marketing, elle a débuté sa carrière dans l'entreprise comme hôtesse dans des salons professionnels.

Et le quotidien de Surgisphere semble loin de celui d'une entreprise high tech, comme le décrit à franceinfo une personne qui y a travaillé jusqu'en octobre 2019. Le siège de la société se trouvait alors au domicile de Sapan Desai, assure cette source. "Il disait qu'il allait le déménager dans un vrai bureau, dans le centre de Chicago", ajoute-t-elle. L'entreprise a désormais pour adresse un gratte-ciel emblématique de la ville. Mais QuartzClinical est, elle, domiciliée dans une maison cossue de Palatine, en périphérie de Chicago.

La maison de Palatine, dans la banlieue de Chicago (Etats-Unis), où est domiciliée QuartzClinical. (GOOGLE STREET VIEW)

Sapan Desai "faisait tout", affirme cette source. "Il écrivait le code informatique. Il a construit QuartzClinical et le site internet." Jusqu'en octobre 2019, il n'y avait qu'elle et lui qui démarchaient les hôpitaux pour leur proposer les services de Surgisphere. "Je n'ai entendu parler que d'un hôpital" qui a accepté de collaborer avec l'entreprise, déclare cette personne. "Celui de Chicago où j'ai fait l'extraction des données moi-même." Le processus d'acquisition décrit par cette source paraît en outre bien artisanal.

La plupart du temps, vous entrez les données manuellement, sauf si l'hôpital peut les intégrer. Cela prenait des jours.Un ancien employé de Surgisphereà franceinfo

Dans ces conditions, comment Sapan Desai a-t-il réussi à constituer son immense base de données en si peu de temps ? "Je pense aussi que c'est difficile à croire, estime cette source. Parce que cela prend du temps d'entrer ces données manuellement. Comment aurait-il eu le temps de trouver des gens pour entrer les données de 671 hôpitaux durant ces cinq derniers mois ?"

"J'hésiterais beaucoup à utiliser un logiciel qui nous en dit si peu"

Les outils en ligne proposés par Surgisphere sur son site, eux non plus, n'inspirent guère confiance aux experts. "Rien de ce que j'ai pu trouver ne dit comment ces outils fonctionnent statistiquement, ou comment leurs calculs et recommandations sont dérivés des données, et il n'y a aucun détail sur la provenance exacte des données à l'appui. Si j'étais clinicien ou si je conseillais les cliniciens sur leur utilisation, j'hésiterais beaucoup à utiliser un logiciel qui nous en dit si peu sur son fonctionnement et s'il a été évalué correctement", tranche Kevin McConway, professeur émérite de statistiques appliquées à l'Université ouverte de Milton Keynes, au Royaume-Uni.

Surgisphere se vante* pourtant de "la précision" et de "l'efficacité" de ses outils créés pour le Covid-19, "validés" par un centre de recherche de l'université d'Oxford*. En réalité, il n'en est rien. "Surgisphere a incorrectement cité notre travail et a fait des affirmations qui ne sont pas vraies sur les conclusions de notre article", dénonce Samuel Urwin, du centre de recherche biomédicale de Newcastle, l'un des auteurs de l'analyse mise en avant par l'entreprise.

"Une faille dans la gouvernance des données"

L'entreprise aurait-elle tendance à s'attribuer des mérites qui ne sont pas les siens ? Sur son site internet, bourré d'images prétextes, les mentions de collaborations avec des chercheurs de nombreuses universités réputées, dont Harvard ou Stanford, ont subitement disparu, note une journaliste de The Scientist*. Un grand ménage a également été fait sur le compte YouTube de la société. Il n'y avait jusqu'à présent qu'une seule ombre dans la carrière de Sapan Desai. Il avait été cité en 2019 dans trois poursuites judiciaires pour faute professionnelle. Des accusations "infondées", assure-t-il à The Scientist, qui a révélé l'information.

Capture d'écran d'une vidéo de la chaîne YouTube AIMed Events du 11 mai 2020 dans laquelle Sapan Desai intervient. (YOUTUBE / AIMED EVENTS)

"Cette histoire ne m'étonne que moyennement", commente Nozha Boujemaa, spécialiste de l'intelligence artificielle.

La rareté des données de santé, la difficulté à rassembler des sources hétérogènes et à les rendre exploitables favorisent l'émergence de ce type de sociétés.Nozha Boujemaaà franceinfo

Nozha Boujemaa confirme avoir été approchée par des entreprises comparables à Surgisphere. "En Chine par exemple, des sociétés offrent gratuitement un service. Leur logiciel est installé dans plusieurs hôpitaux. Il va pouvoir enregistrer toutes les données qui transitent. Cela va constituer une source de collecte de données pas très canoniques. Leur modèle économique repose sur ça."

"Si cela a pu arriver, c'est qu'il y a eu une faille dans la gouvernance des données", juge Nozha Boujemaa. Pour Pierre-Antoine Gourraud, praticien hospitalier et professeur spécialiste de l'intelligence artificielle à l'université de Nantes, ce scandale doit plaider pour de meilleures pratiques : "La transparence des données et des algorithmes pour une reproductibilité de l'étude est la seule vraie réponse à cette affaire."

* Les liens suivis d'un astérisque sont en anglais.