COVID-19 şi problema testelor fals pozitive

După cum e bine cunoscut, numărul raportat de cazuri COVID-19 se bazează pe testul PCR (polymerase chain reaction). Pe lângă acesta mai există şi testul serologic, prin care sunt detectaţi anticorpii care indică o infectare trecută cu coronavirus, dar acesta nu intră în discuţia de faţă. Ceea ce se poate constata în ultimele săptămâni e pe de-o parte o creştere tot mai accentuată a numărului de teste PCR, iar pe de altă parte numărul cazurilor noi de COVID-19 care apar zilnic este practic în scădere, oscilând de câtăva vreme între 120-200 (a se vedea şi imaginea de mai sus, unde e reprezentată o zecime din numărul de teste, pentru o mai bună vizualizare comună a ambelor curbe, iar cazurile şi testele sunt cumulate pe câte 2 zile). Multe din aceste cazuri se dovedesc a fi asimptomatice, dacă nu chiar fals pozitive. Ce înseamnă de fapt această constatare? Dacă ţinem cont de marja de eroare a testelor, faptul nu indică altceva decât că în România şi în majoritatea ţărilor europene pandemia COVID-19 se apropie de final, că majoritatea cazurilor raportate sunt de fapt fals pozitive şi că mai pot exista cel mult focare izolate, ici şi colo, dar nu mai poate fi vorba de o răspândire a bolii pe scară largă.

Pentru a ilustra ce se întâmplă, să considerăm pentru moment exemplul unui test ipotetic, care are sensibilitatea de 99% (cazuri pozitive detectate corect) şi specificitatea tot de 99% (cazuri negative detectate corect). Prin urmare, 1% din rezultatele testărilor vor fi fals pozitive, aceasta chiar în cazul în care prevalenţa (proporţia celor cu adevărat infectaţi) ar fi egală cu zero. Aceasta ar fi deja o situaţie limită, în care nu s-a ajuns încă, dar nici nu mai e foarte departe până acolo. Dar înainte de a discuta cazul concret al testului PCR şi statisticile cazurilor pozitive în funcţie de numărul de teste, să urmărim următorul exemplu, pentru o mai bună înţelegere a fenomenului şi de către cei nefamiliarizaţi cu aceste noţiuni elementare de statistică şi teoria probabilităţilor. Voi încerca deci în mod deliberat să fac o prezentare cât mai accesibilă şi cât mai puţin specializată.

Să presupunem că avem o populaţie de N=10.000 persoane supusă testului nostru ipotetic, din care 1000 sunt infectate (prevalenţă de 10%). 99% din acestea, adică 990, vor fi identificate ca atare în mod corect, în vreme ce 1%, adică 10, vor fi raportate fals ca negative. Din cele 9000 de persoane sănătoase, vom avea 8910 (99%) raportate corect negative, dar şi 90 (1%) ca fals pozitive. Numărul total de teste pozitive este aşadar 990+90=1080, în vreme ce numărul celor infectaţi este doar 1000. Raportul dintre cele două numere, 1000/1080 este egal cu 0,926, adică peste 9 din 10 teste pozitive sunt corecte.

Pentru a fi mai precis, pentru cunoscători ar fi de adăugat că probabilitatea condiţionată P(I|+) de a fi infectat dacă testul a dat un rezultat pozitiv se calculează cu teorema lui Bayes, înmulţind raportul anterior cu sensibilitatea testului, care e de 0,99, rezultatul fiind 0.9166. Din moment ce sensibilitatea e de regulă foarte aproape de 1 (sau de 100%), diferenţele nu vor fi semnificative, deci pentru ilustrare putem păstra raportul dintre cei cu adevărat infectaţi şi cei testaţi pozitiv.

Considerând acum prevalenţa de 1% (adică 100 de infectaţi din 10.000) vom obţine 99 de teste corect pozitive şi tot atâtea fals pozitive, ceea ce duce la un raport de 1:2, iar la o prevalenţă de 0,2% (20 de infectaţi din 10.000) vom avea 20 de teste corect pozitive şi 100 fals pozitive, adică doar 1 din 6 teste pozitive e de fapt corect. Rezultatele acestui mic calcul sunt sintetizate în tabelul de mai jos.

N=10.000	I+ (corect)	I- (f. neg)	S+ (f.poz)	S- (corect)	Total +	I/(Total +)	P(I\|+)
I=1000(10%)	990	10	90	8910	1080	0,926	0,9166
I=100 (1%)	99	1	99	9801	198	0,505	0,5
I=20 (0,2%)	20	0	100	9880	120	0,166	0,165

Concluzia care se desprinde e clară: pe măsură ce prevalenţa scade, procentajul testelor fals pozitive creşte substanţial, la un moment dat ajungându-se la situaţia în care o majoritate importantă a cazurilor raportate drept pozitive să fie de fapt fals pozitive. Iar dacă numărul absolut al testelor va fi suficient de mare, şi numărul absolut al testelor fals pozitive va fi pe măsură, încât un guvern care ia doar aceste date drept criteriu (sau pretext) al acţiunilor sale, va putea decreta o stare de pandemie perpetuă. Cu atât mai mult cu cât e de presupus că virusul nu va dispărea niciodată definitiv din peisaj şi întotdeauna va exista un număr (fie el şi mic) de cazuri COVID-19 reale, iar nu fals pozitive.

Bineînţeles, în practică testarea nu se face (sau nu ar trebui să se facă) la voia întâmplării, mai ales în cazurile unei prevalenţe scăzute, când un test pozitiv devine aproape irelevant. Profesioniştii în domeniu cunosc desigur acest lucru şi îşi adaptează strategia testărilor în consecinţă. Din moment ce la o prevalenţă ridicată informaţia dată de rezultatul pozitiv al testului e mult mai acurată, ei vor testa doar acele grupuri unde se aşteaptă la mai multe rezultate pozitive, aşa cum şi pescarul experimentat nu-şi aruncă undiţa la nimereală, ci în locurile în care se aşteaptă să muşte peştele.

Astfel, e logic să fie testat personalul medical, care intră zilnic în contact cu bolnavii de COVID-19 şi unde riscul de contaminare e unul real. Un alt grup important e format din persoanele cu simptome tipice. Aici rezultatul testului e foarte probabil să fie unul pozitiv, caz în care urmează a fi testaţi şi cei care au intrat în contact cu persoana în cauză, membri ai familiei, colegi de muncă, prieteni, etc. Dacă există un caz cert, pe lângă care mai sunt testate de exemplu încă 50 de persoane, în cadrul acestui grup avem deja o prevalenţă de cel puţin 2% (1 din 50 e infectat cert). Dacă sunt 2 din 50, prevalenţa creşte deja la 4%, caz în care alte rezultate pozitive ale testului vor avea o probabilitate semnificativă de a fi şi corecte. Dacă însă aruncăm undiţa testului la întâmplare şi testăm fără motiv 50 de persoane selectate aleator, vom găsi probabil printre ele una care e fals pozitivă şi cam atât – repet, în condiţiile în care prevalenţa la nivelul întregii societăţi e foarte mică, la nivelul zecimilor de procent.

Prin urmare, e lipsit de sens să sporeşti numărul testelor PCR aplicându-le nediferenţiat unei mari părţi a populaţiei, după cum în mod corect a sesizat şi dl. Vlad Mixich ca răspuns la ideea Gabrielei Firea de a-i testa pe bucureşteni. Tot nonsens e prin urmare şi propunerea, fie ea bine intenţionată, de a testa la grămadă elevii şi profesorii din şcoli. Dacă ar exista bănuieli întemeiate, bazate pe cazuri simptomatice, sau indicii că prevalenţa în rândul acestui grup ar fi măcar de peste 1%, atunci da, testarea are avea sens, dar diferenţiat, doar în unităţile de învăţământ în cauză. Căci altfel, în lipsa unei prevalenţe suficiente, rezultatul acestei campanii de testare nu ar fi decât un număr mare de cazuri fals pozitive, cu toate consecinţele care decurg de aici: internarea forţată pe secţii alături de bolnavi reali, probabil închiderea şcolilor în cauză, etc. Adică panică şi isterie gratuită!

Altfel stau lucrurile în cazul testului serologic, care detectează anticorpii dobândiţi ca urmare a trecerii prin boală. În primul rând aici prevalenţa e de aşteptat să fie mult mai mare, iar în al doilea rând un rezultat fals pozitiv nu implică nicio tragedie, ci cel mult un fals sentiment de siguranţă. Efectuarea unor astfel de teste pe scară largă nu e prin urmare la fel de problematică.

O altă situaţie în care testarea are sens e aceea în localităţile care s-au remarcat drept focare de COVID-19 şi unde prevalenţa e de aşteptat să fie mai ridicată. În România un astfel de exemplu îl reprezintă oraşul Suceava, unde chiar se desfăşoară o asemenea campanie de testare. Din probele analizate până acum, în număr de 240, 11 cazuri au fost pozitive la testul PCR (4,5%), iar 43 pozitive la testul serologic. Folosind parametrii testului ca fiind cei de mai sus (specificitate şi sensibilitate de 99%, vom vedea mai încolo că valorile reale sunt apropiate, dar ceva mai scăzute), putem calcula prevalenţa, adică numărul real al celor infectaţi, evident, la nivel de probabilitate, x=P(I)*240 . Anume: 11=0,99*x+0.01*(240-x) (adunăm 99% teste corect pozitive şi 1% teste fals pozitive pentru a obţine cele 11 teste pozitive). Rezultatul este x=8,775 (adică e de aşteptat ca din cele 11 teste, două să fie fals pozitive, iar acest număr x raportat la numărul 240 de teste dă o prevalenţă de circa 3,6%). Pentru a calcula aşadar probabilitatea condiţionată P(I|+) de a fi cu adevărat infectat, dacă rezultatul testului a fost pozitiv, vom considera x/11 (similar cu penultima coloană din tabelul de mai sus) şi vom înmulţi cu sensibilitatea de 0,99 (teorema lui Bayes, similar cu ultima coloană din tabel), obţinând P(I|+)=0,79, aşadar probabilitatea ca cineva din cei 11 testaţi pozitiv să fie cu adevărat infectat este de 79%. Trebuie remarcat însă că s-a testat pe bază de voluntariat, deci iarăşi nu pe un eşantion ales la întâmplare, iar la test s-au prezentat persoane care probabil au avut motive să considere că sunt potenţial infectate, prin contact cu alte cazuri deja validate, etc. Prin urmare, nu e vorba de un eşantion reprezentativ, iar la nivelul oraşului Suceava nu putem vorbi de 3,6% din populaţie infectată activ cu coronavirus, ci de un procentaj mult mai mic.

Scopul principal al acestui text e să analizeze de fapt situaţia la nivelul întregii ţări. Pentru aceasta avem nevoie de statisticile privind cazurile de COVID-19 înregistrate zilnic dar şi numărul zilnic de teste efectuate, pentru a putea determina procentajul testelor pozitive, aşa ca în exemplul de mai sus. Aceste date pot fi preluate de pe statista.com, sub linkurile date la începutul acestui articol. După cum s-a văzut, e nevoie şi de parametrii reali ai testului PCR, care pot fi găsiţi aici: https://www.instand-ev.de/System/rv-files/340%20EN%20SARS-CoV-2%20Genome%20EQAS%20April%202020%2020200502j.pdf p.11-13 (e vorba de un raport de validare a testului realizat de un institut de specialitate din Germania). Anume, sensibilitatea este de 98,8% iar specificitatea de 98,6% (deci ambele aproape de valorile de 99% din exemplele ilustrative de mai sus, ale căror rezultate rămân practic valabile şi cu noile numere). Mai mult, dacă în absenţa oricărui virus, testul PCR dă un procentaj de 1,4% de teste fals pozitive, în prezenţa unor alţi viruşi din familia corona (care cauzează de pildă răceli banale), procentajul fals pozitiv creşte la 7,6%, dar voi ignora acest aspect şi voi rămâne la cifrele de peste 98%.

Aplicând acelaşi raţionament pe care l-am exemplificat în cazul testelor din Suceava la datele din întreaga ţară, rezultatul e reprezentat în următoarea diagramă.

Curba prevalenţei estimate e situată de fapt tot timpul puţin sub cea a procentajului testelor pozitive, de aceea pentru o mai bună citire a valorilor e reprezentată înmulţită cu factorul 10. În ultima săptămână procentajul testelor pozitive se mişcă între 1,5%-2%, iar prevalenţa estimată e în permanenţă sub 1% , cea mai recentă valoare fiind de 0,1% (valoarea de la capătul curbei). Raportat la aceasta, probabilitatea ca cineva testat pozitiv să fie cu adevărat infectat e de doar 6,3%, ceea ce implică faptul că mai bine de 9 din 10 din testele pozitive sunt de fapt fals pozitive (curba roşie P(S|+) calculată cu teorema lui Bayes). E de reţinut că această prevalenţă de 0,1% nu e raportată la întreaga populaţie a României, ci la nivelul grupelor considerate a fi mai expuse, adică acelea indicate de strategia testelor, aşa cum am exemplificat mai sus. Încet, în ciuda creşterii numărului de teste, ne apropiem tot mai mult de marja de eroare a testului, de acele 1,4% fals pozitive care ar apărea chiar şi în cazul în care numărul real de infecţii ar fi zero.

Diagrama cu datele României începe pe data de 14 martie. În primele 40-45 de zile ale intervalului de timp în discuţie, deci aproximativ până la sfârşitul lui aprilie, probabilitatea testelor fals pozitive a fost relativ scăzută, sub 20%. Dar odată cu luna mai, aceasta a început să crească, de la 40%, ajungând chiar la 80%, scăzând ulterior iar, dar cea mai recentă valoare este de circa 92,7%. Evident că există şi fluctuaţii, trendul general e însă clar, încât putem bănui ce va urma în perioada următoare.

Aceasta o putem vedea şi în Germania, unde pandemia a izbucnit cu aproximativ două săptămâni în avans. Aici Institutul Robert Koch raportează statisticile săptămânale ale numărului de teste şi procentajului celor pozitive (faptul că e vorba de statistici săptămânale explică aspectul mai neted al curbelor). Astfel, între 18-24 mai s-au efectuat 344.782 de teste, din care doar 1,5% au fost pozitive. Aplicând aceleaşi calcule ca mai sus, rezultatul va fi că prevalenţa estimată e de doar 0,1% (repet: în cadrul grupelor de risc, unde se testează, nu la scara întregii populaţii), iar probabilitatea unui test fals pozitiv a ajuns la 97,3%!

Cum spuneam, coronavirusul probabil nu va dispărea niciodată complet. Focare izolate se vor găsi în permanenţă, deci va exista mereu şi un număr de teste corect pozitive. Dar atunci când la nivelul unei ţări întregi procentajul testelor pozitive se apropie tot mai mult de procentajul de fals pozitive pe care l-am avea chiar în absenţa completă a virusului, concluzia se impune de la sine: ar trebui decretat sfârşitul stării de pandemie! Boala mai există, prin câte un focar izolat, ici şi colo, dar acest fapt nu poate influenţa tabloul general, căci cifrele nu mint. Cert este faptul că răspândirea pe scară largă e practic inexistentă.

Faptul că majorităţii politicienilor care conduc ţările lumii le convine această stare de pandemie perpetuă (pe care, dacă vor, o pot întreţine în permanenţă printr-un număr suficient de mare de teste, majoritatea fals pozitive, pe lângă mediatizarea puternică a puţinelor cazuri reale), la adăpostul căreia se pun la cale ample transformări politice şi sociale, e altă poveste, care merită o discuţie separată.