Ví dụ 1: Khoảng trống thẩm thấu
Tôi có một chút nghi ngờ về khả năng sàng lọc bệnh nhân ngộ độc bằng cách đo khoảng trống thẩm thấu (osmolar gap). Vì vậy tôi đã tìm hiểu tài liệu về hiệu suất của xét nghiệm này. Lynd 2008 đã cho thấy rằng khoảng trống thẩm thấu tăng có độ nhạy 90% và độ đặc hiệu 22% (1). Đó là những gì mà tôi có thể đoán được - xét nghiệm này khá nhạy và có độ đặc hiệu rất kém (khoảng trống thẩm thấu có thể tăng cao do có quá nhiều chất độc). Vì vậy, đây có lẽ là một xét nghiệm sàng lọc hợp lý để loại trừ ngộ độc rượu, nhưng không phải là xét nghiệm chắc chắn giúp chẩn đoán ngộ độc rượu.
Sai hoàn toàn. Dựa vào độ nhạy 90% và độ đặc hiệu 22%, xét nghiệm này có tỷ số khả dĩ dương (LR+) là 1.15 và tỷ số khả dĩ âm (LR-) là 0.45. Ví dụ, giả sử chúng ta đang cố sử dụng khoảng trống thẩm thấu để loại trừ ngộ độc rượu ở một bệnh nhân có xác suất tiền test là 10%. Nếu khoảng trống thẩm thấu bình thường, thì xác suất hậu test giảm xuống 5%, không thật sự loại trừ được bệnh.
Do đó, nhìn vào độ nhạy và độ đặc hiệu (90% và 22%) đưa chúng ta đến một khái niệm hoàn toàn khác về xét nghiệm so với việc nhìn vào tỷ số khả dĩ dương và âm (1.15 và 0.45).
Ví dụ 2: Độ nhạy 90% và độ đặc hiệu 10%
Để tranh luận, hãy tưởng tượng rằng một xét nghiệm chẩn đoán có độ nhạy 90% và độ đặc hiệu 10%. Điều này có vẻ ngớ ngẩn nhưng nó không quá khác nhiều so với dữ liệu về khoảng trống thẩm thấu ở trên. Vậy tiện ích của xét nghiệm này là gì?
Bạn có thể muốn nói rằng xét nghiệm này có độ nhạy thích hợp nên nó được dùng để loại trừ bệnh. Hoàn toàn không. Trên thực tế, xét nghiệm này có tỷ số khả dĩ dương là 1 và tỷ số khả dĩ âm là 1. Như vậy, xét nghiệm này hoàn toàn vô dụng.
Hình bên dưới mô tả lý do vì sao điều này xảy ra. Hãy tưởng tượng có một phụ nữ có xác suất tiền test (pre-test probability) là 50% khả năng mắc bệnh. Xét nghiệm âm tính. Tuy nhiên, kết quả âm tính có khả năng xảy ra với xác suất như nhau dù bệnh nhân có mắc bệnh hay không. Do đó, xác suất mắc bệnh hậu test (post-test probability) của bệnh nhân không thay đổi, vẫn ở mức 50%.
Nói rõ hơn một chút nữa, bất kỳ xét nghiệm nào có độ nhạy (%) cộng độ đặc hiệu (%) lên tới 100% thì xét nghiệm đó không có giá trị (LR+ = LR- = 1). Trong tình huống này, kết quả xét nghiệm như thế nào (dương tính hay âm tính) đều có xác suất xảy ra như nhau dù bệnh nhân có mắc bệnh hay không. Ví dụ, một xét nghiệm có độ nhạy 75% và độ đặc hiệu 25% là một xét nghiệm vô giá trị. Chúng ta sẽ quay lại khái niệm ‘nhảm nhí’ này ở phần sau.
Phá vỡ “ảo mộng” về SPin & SNout
Chúng ta đã được dạy trong thống kê y học rằng độ nhạy là một test giúp xác định khả năng loại trừ bệnh, trong khi độ đặc hiệu là test xác định khả năng chẩn đoán bệnh.
Chúng ta thường được dạy cách ghi nhớ là “SPin & SNout” (SPecificity-rule-IN, SeNsitivity-rule-OUT), nghĩ là độ đặc hiệu giúp chẩn đoán bệnh, độ nhạy giúp loại trừ bệnh. Khái niệm này phổ biến đến mức việc ghi nhớ nó còn được “chế” lại thành ngôn ngữ ở các quốc gia không nói tiếng anh. Thật không may, điều này sai hoàn toàn.
- Độ nhạy là xác suất mà test dương tính trong nhóm bệnh nhân mắc bệnh.
- Độ đặc hiệu là xác suất mà test âm tính trong nhóm bệnh nhân không mắc bệnh.
Do đó, độ nhạy & độ đặc hiệu dự đoán liệu test có dương tính hay không, dựa trên bệnh nhân có bệnh hay không có bệnh. Điều này hoàn toàn trái ngược với những gì mà chúng ta quan tâm. Điều chúng ta cần biết là liệu bệnh nhân có mắc bệnh hay không, dựa trên xét nghiệm dương tính hay âm tính. Việc chuyển thông tin từ xét nghiệm thành thông tin về bệnh nhân cần phải có tỷ số khả dĩ (likelihood ratio):
Nói một cách ngắn gọn, độ nhạy/độ đặc hiệu lấy xét nghiệm làm trung tâm, trong khi tỷ số khả dĩ lấy bệnh nhân làm trung tâm. May mắn thay, việc tính toán tỷ số khả dĩ rất dễ dàng dựa trên độ nhạy và độ đặc hiệu như sau:
- Tỷ số khả dĩ dương (LR+) = (độ nhạy)/(1 - độ đặc hiệu)
- Tỷ số khả dĩ âm (LR-) = (1- độ nhạy)/(độ đặc hiệu)
Tỷ số khả dĩ mới chính là phép đo thật sự về khả năng chẩn đoán (LR+) và loại trừ (LR-) bệnh. Từ phương trình ở trên, rõ ràng rằng độ nhạy và độ đặc hiệu đều có tác động lên cả LR+ và LR-:
Ví dụ, khả năng loại trừ bệnh là cộng gộp từ cả độ nhạy và độ đặc hiệu. Độ nhạy quan trọng hơn một chút, nhưng không quá nhiều. Ví dụ, ngay cả khi độ nhạy tốt (ví dụ: 90%), nếu độ đặc hiệu quá kém (ví dụ: 10%) thì sự kém cỏi này của độ đặc hiệu sẽ phá hoại khả năng loại trừ bệnh của xét nghiệm.
Để có thêm bằng chứng cho thấy mô hình SNout/SPin không có nghĩa, hãy xem xét hai xét nghiệm chẩn đoán sau:
- Xét nghiệm #1: Độ nhạy 90%, độ đặc hiệu 70%.
- Xét nghiệm #2: Độ nhạy 30%, độ đặc hiệu 90%.
Test nào trong 2 test trên, nếu dương tính, sẽ cung cấp bằng chứng mạnh mẽ hơn cho thấy bệnh nhân mắc bệnh? Theo như “lối mòn” SPin, xét nghiệm #2 có độ đặc hiệu cao hơn, vì thế nó sẽ giúp cho việc xác định bệnh tốt hơn. Sai. Cả 2 xét nghiệm đều có tỷ số khả dĩ dương là 3. Nếu một trong 2 xét nghiệm trên dương tính, nó có tác động như nhau đối với xác suất mắc bệnh hậu test.
“Giải phẫu” các xét nghiệm chẩn đoán
Các tỷ số khả dĩ có thể hữu ích hơn về mặt lâm sàng, nhưng độ nhạy và độ đặc hiệu lại được báo cáo rộng rãi hơn. Vì vậy, nên có sự hiểu biết chung về cách “phiên dịch” độ nhạy và độ đặc hiệu thành tỷ số khả dĩ.
Điều này đòi hỏi phải xác định một số điểm cắt (cutoff) cho tỷ số khả dĩ. Phải thừa nhận rằng các điểm cắt này hơi tùy tiện, nhưng chúng cho ta một số ranh giới sơ bộ để vận dụng (2):
- Tác động yếu: LR+ giữa 1-3 hoặc LR- giữa 1-1/3
- Tác động trung bình: LR+ giữa 3-10 hoặc LR- giữa 1/3-1/10
- Tác động mạnh: LR+ >10 hoặc LR- <1/10
Điều này cho phép chúng ta vẽ ra mối quan hệ giữa độ nhạy/độ đặc hiệu và các tỷ số khả dĩ:
Một hiện tượng thú vị xảy ra dọc theo “bullshit line” (đường vô nghĩa). Bất kỳ xét nghiệm nào nằm dọc theo đường này sẽ có tỷ số khả dĩ dương và âm là 1, khiến xét nghiệm hoàn toàn vô giá trị. Hiện tượng này đã được thảo luận trước đó trong ví dụ #2.
Bên dưới “đường vô nghĩa” (trong vùng #10), một điều kinh hoàng sẽ xảy ra: các test sẽ trở nên sai lệch. Ví dụ: hãy xem xét một xét nghiệm có độ nhạy 80% và độ đặc hiệu 10%. Xét nghiệm này sẽ có tỷ số khả dĩ dương là 0.89 và tỷ số khả dĩ âm là 2. Đúng vậy: nếu xét nghiệm dương tính thì khả năng mắc bệnh sẽ giảm. Nếu xét nghiệm âm tính thì khả năng mắc bệnh sẽ tăng lên. Xét nghiệm này không chỉ vô giá trị, mà nó còn gây hiểu lầm.
Làm thế nào mà điều này có thể xảy ra? Hãy tưởng tượng một bệnh nhân có xác suất mắc bệnh tiền test là 50% được thực hiện một xét nghiệm chẩn đoán bệnh có độ nhạy 80% và độ đặc hiệu 10% (hình dưới). Kết quả trả về âm tính. Và điều này cho thấy rằng, nếu kết quả âm tính, xác suất bệnh nhân mắc bệnh (20%) còn cao hơn xác suất không mắc bệnh (10%). Vì vậy, kết quả xét nghiệm âm tính sẽ làm tăng xác suất mắc bệnh từ 50% lên 67% (3).
Quay lại ví dụ ban đầu của chúng ta về khoảng trống thẩm thấu, với độ nhạy 90% và độ đặc hiệu 22%, nó sẽ rơi vào vùng tác động yếu:
Thật là mở mang tầm mắt khi nhận ra có bao nhiêu xét nghiệm có độ nhạy hoặc độ đặc hiệu có vẻ hợp lý cuối cùng lại trở nên vô giá trị hoặc yếu. Hình dưới đây phân loại các test thành bốn nhóm tùy thuộc vào mức độ bằng chứng mạnh nhất mà chúng có thể cung cấp:
Chỉ những test nằm dọc theo rìa của đồ thị này (khu vực xanh lá cây) mới có khả năng cung cấp bằng chứng thuyết phục. Hầu hết các xét nghiệm đều đưa ra kết quả sai lệch hoặc yếu, điều này thường xảy ra dù cho độ đặc hiệu hay độ nhạy >80%.
Tóm lại
- Độ nhạy & độ đặc hiệu tiết lộ thông tin về hiệu suất của xét nghiệm, trong khi tỷ số khả dĩ tiết lộ thông tin về ý nghĩa của kết quả xét nghiệm đối với một bệnh nhân. Do đó, các tỷ số khả dĩ hữu ích hơn về mặt lâm sàng và lấy bệnh nhân làm trung tâm để hiểu về các xét nghiệm chẩn đoán.
- Người ta tin rằng độ nhạy của xét nghiệm quyết định khả năng loại trừ bệnh, trong khi độ đặc hiệu của xét nghiệm quyết định khả năng xác định bệnh. Điều này không chính xác. Cả độ nhạy và độ đặc hiệu đều liên quan đến khả năng xác định (LR+) và loại trừ (LR-) bệnh.
- Mặc dù có độ nhạy cao (ví dụ: 90%), độ đặc hiệu thấp (ví dụ: 10%) có thể phá vỡ giá trị của xét nghiệm, khiến nó hoàn toàn vô nghĩa.
- Có thể vẽ ra mối liên hệ giữa các tỷ số khả dĩ với độ nhạy & độ đặc hiệu lên biểu đồ, tạo ra cái nhìn trực quan về cách độ nhạy tương tác với độ đặc hiệu để tác động đến hiệu suất chẩn đoán (hình dưới). Điều này giải thích cách mà các xét nghiệm có độ nhạy hoặc độ đặc hiệu cao (ví dụ: >80%) không có ý nghĩa chẩn đoán hoặc thậm chí gây hiểu lầm.
Chú thích:
- Còn nhiều điều và nhiều câu hỏi về khoảng trống thẩm thấu, nhưng đây là một bài viết về thống kê. Chúng ta sẽ quay lại vấn đề khoảng trống thẩm thấu sau.
- Những cutoff này dựa trên những cutoff mà Steven McGee đã sử dụng trong cuốn sách mang tính bước ngoặt của ông là “Chẩn đoán thực thể dựa trên bằng chứng” (Ấn bản thứ hai). Ông lập luận rằng cutoff bằng 3 hoặc 1/3 là ranh giới của tính hữu ích trên lâm sàng, bởi vì điểm cắt này thường làm thay đổi xác suất mắc bệnh khoảng 20%. Con số này hơi tùy tiện. Tuy vậy, tôi cần một số điểm cắt cho bài viết này và tôi không muốn chọn chúng một cách bâng quơ, vì vậy tôi đã sử dụng điểm cắt của McGee. Trên thực tế, cách tốt nhất để áp dụng các tỷ số khả dĩ với từng bệnh nhân là xem xét xác suất mắc bệnh tiền test của bệnh nhân, tỷ số khả dĩ, ngưỡng xét nghiệm đối với bệnh (dưới ngưỡng thì việc xét nghiệm thêm là không có lợi) và ngưỡng điều trị của bệnh (trên ngưỡng thì chỉ định điều trị và xét nghiệm thêm không có khả năng thay đổi điều trị).
- Trong thực tế, một test không bao giờ được rơi vào Vùng #10. Sẽ cần có sự vô ý đáng kể để điều này xảy ra, bởi xác suất có kết quả dương tính sẽ cao hơn ở những bệnh nhân không mắc bệnh. Nếu kịch bản này xảy ra, xét nghiệm sẽ bị hủy bỏ hoặc ý nghĩa của kết quả xét nghiệm dương tính bị đảo ngược, điều này sẽ chuyển xét nghiệm ra khỏi Vùng #10, có thể sang Vùng #9. Ví dụ: trong trường hợp được mô tả ở đây, bạn có thể định nghĩa lại xét nghiệm sao cho xét nghiệm “âm tính” được sử dụng để phát hiện sự hiện diện của bệnh. Việc định nghĩa lại xét nghiệm theo cách này sẽ mang lại cho xét nghiệm độ nhạy là 20% và độ đặc hiệu là 90%, với LR+ là 2 và LR- là 0.89.