Giới thiệu
Những hạn chế của trị số p trong kiểm định giả thuyết không (”null hypothesis”, còn được gọi là giả thuyết đảo) đã được tranh luận kể từ khi nó ra đời vào những năm 1920. Thật không may, các sách giáo khoa thống kê thường bỏ qua tranh cãi này, trình bày phương pháp kiểm định giả thuyết không là cách làm khả thi duy nhất cho thống kê. Gần đây, tạp chí “Basic and Applied Social Psychology” đã đưa cuộc tranh luận này lên một tầm cao mới bằng cách chính thức cấm sử dụng trị số p trong bất kỳ bản thảo nào. Đây là một động thái mở mang tầm mắt, ‘mời gọi’ sự đánh giá lại nghiêm túc về trị số p.
Bài viết này sẽ khởi đầu bằng cách khám phá 5 vấn đề chính của trị số p, sau đó tiếp tục thảo luận 6 cách giúp diễn giải trị số p một cách có ý nghĩa.
5 vấn đề của trị số p
Vấn đề #1: Trị số p cố gắng loại trừ giả thuyết không mà không thật sự cho thấy giả thuyết đối nghịch là tốt hơn
Trị số p cố gắng chứng minh một giả thuyết thực nghiệm bằng cách bác bỏ giả thuyết thay thế (giả thuyết không) như được trình bày dưới đây. Giả thuyết thực nghiệm được chứng minh qua một quá trình loại trừ:
Thật không may, điều này về cơ bản là sai. Thống kê không thể hoàn toàn loại trừ giả thuyết không (p=0), mà chỉ có thể chỉ ra rằng dữ liệu quan sát được sẽ khó có khả năng xảy ra nếu giả thuyết không là đúng (p>0.05) (2). Sau đó, người ta giả định rằng dữ liệu quan sát được sẽ có khả năng xảy ra cao hơn nhiều nếu giả thuyết thực nghiệm là đúng.
Tuy nhiên, không có gì đảm bảo rằng giả thuyết thực nghiệm phù hợp với dữ liệu tốt hơn nhiều so với giả thuyết không. Có thể dữ liệu chỉ đơn giản là rất kỳ lạ. Có lẽ dữ liệu không phù hợp với bất kỳ giả thuyết nào. Việc chỉ so sánh dữ liệu với một trong những khả năng xảy ra (giả thuyết không) khiến phương pháp kiểm định giả thuyết không truyền thống chỉ đánh giá một bên của cán cân dữ liệu.
Johnson 2013 đã đánh giá một loạt các kiểm định thống kê tiêu chuẩn, tương quan trị số p với Hệ số Bayes:
Trị số p | Hệ số Bayes tương ứng |
0.05 | 3-5 |
0.01 | 12-20 |
0.005 | 25-50 |
0.001 | 100-200 |
Do đó, nếu p=0.05, odds của giả thuyết thực nghiệm là đúng sẽ tăng lên khoảng 3-5 lần (ví dụ, nếu xác suất tiền test là 50%, xác suất hậu test sẽ tăng lên 75%-83%) (3). Do đó, p=0.05 phản ánh một mức độ bằng chứng vừa phải, không phải là bằng chứng chắc chắn như ta hay lầm tưởng. Các nhà nghiên cứu khác đã đạt được kết quả tương tự bằng cách sử dụng các kỹ thuật Bayes khác nhau (Goodman 2001).
Các con số tương quan ở trên chỉ là những ước đoán thô. Lý tưởng là hệ số Bayes phải được tính toán trực tiếp từ dữ liệu của mỗi nghiên cứu (Jakobsen 2014). Tuy nhiên, khi không có những tính toán này, bảng tương quan ở trên có thể giúp ta hiểu được ý nghĩa của các giá trị p khác nhau.
Giải pháp #2: Cân nhắc đến xác suất tiền test
(Odds hậu test của giả thuyết thực nghiệm là đúng) = (Odds tiền test của giả thuyết thực nghiệm là đúng) x (Hệ số Bayes)
Odds hậu test của giả thuyết thực nghiệm là đúng có thể được tính bằng cách sử dụng hệ số Bayes như phương trình trên (3). Giống như trong thử nghiệm lâm sàng, một test thống kê đơn lẻ là vô nghĩa nếu không tính đến xác suất tiền test. Phương trình này cho phép kết hợp liền mạch giữa xác suất tiền test với dữ liệu thực nghiệm. Điều đáng chú ý là kết quả cuối cùng phụ thuộc như nhau vào cả 2 yếu tố này.
Thật không may, xác suất tiền test thường không rõ ràng. Xác suất tiền test phù hợp cho các thử nghiệm lâm sàng đã được tranh luận trước đây mà không có câu trả lời rõ ràng. Nguyên tắc bàng quan (principle of indifference) đề xuất rằng trong trạng thái không biết, xác suất tiền test nên được đưa ra là 50%. Tuy nhiên, trong lịch sử y học, hầu hết các liệu pháp được thăm dò đã chứng minh con số này không hiệu quả. Do đó, sử dụng xác suất tiền test 50% có thể là quá hào phóng trong hầu hết các trường hợp. Lý tưởng nhất, xác suất tiền test có thể tính đến cơ sở bằng chứng trước đó hỗ trợ giả thuyết (ví dụ: khoa học cơ bản, dữ liệu động vật, các nghiên cứu lâm sàng trước đó) và tỷ lệ thành công của các giả thuyết tương tự.
Việc ước tính xác suất tiền test có vẻ như thêm vào một yếu tố chủ quan đe dọa các kết quả “khách quan” của kiểm định thống kê. Tuy nhiên, việc không tính đến xác suất tiền test còn nguy hiểm hơn, vì điều này ngầm chấp nhận rằng xác suất tiền test của mọi giả thuyết đều là 50% (1). Một lợi thế của phương pháp Bayes là bằng cách cung cấp Hệ số Bayes, nó cho phép người đọc tính toán xác suất hậu test dựa trên xác suất tiền test của riêng họ và đưa ra kết luận của riêng họ.
Cuối cùng, điều này mang lại cho chúng ta một thực tế đáng thất vọng: Thường không thể xác định được xác suất mà giả thuyết thực nghiệm là đúng. Xác suất này phụ thuộc vào xác suất tiền test, điều mà ta thường không biết được. Do đó, xác suất cuối cùng của giả thuyết thực nghiệm là đúng là một “thế giới mơ hồ dù ta đã đoán biết”. Các kiểm định thống kê giúp chúng ta đi đúng hướng, nhưng chúng không thể tiết lộ sự thật một cách chắc chắn.
Giải pháp #3: Luôn luôn ghi nhớ rằng trị số p không bằng với “sai lầm loại I”
Sai lầm loại I (type-I error) là rủi ro khi loại bỏ sai giả thuyết không, từ đó chấp nhận sai giả thuyết thực nghiệm. Một sự hiểu lầm rất phổ biến là trị số p bằng với xác suất sai lầm loại I (tức là, nếu p<0.05 thì xác suất sai lầm loại I <0.05). Sự hiểu lầm này xuất phát từ việc đánh đồng các xác suất có điều kiện (đã được thảo luận ở Vấn đề #3). Trong thực tế, trị số p thường thấp hơn xác suất sai lầm loại I. Ví dụ, một số tác giả cho rằng các giả thuyết "có ý nghĩa thống kê" gần mức p=0.05 có hơn 20% khả năng là sai (xác suất sai lầm loại I >0.2; Goodman 2001, Johnson 2013).
Giải pháp #4: Xem xét điều chỉnh xác suất sai lầm loại I ở mức chấp nhận được dựa vào bối cảnh lâm sàng
Thông thường, mức độ sai lầm loại I chấp nhận được (α) được đặt ở mức giá trị kỳ diệu là α <5%. Tuy nhiên, điều này không phải lúc nào cũng có ý nghĩa lâm sàng. Hãy xem xét hai giả thuyết tưởng tượng sau:
- Giả thuyết #1: Phương pháp điều trị mới cho sốc nhiễm trùng sử dụng công cụ theo dõi áp lực nội sọ định hướng mục tiêu sớm giảm tỷ lệ tử vong (α=0.04)
- Giả thuyết #2: Bổ sung vitamin C cải thiện khả năng hồi phục loét do áp lực (α=0.1)
Đặt monitor theo dõi áp lực nội sọ là một thủ thuật xâm lấn. Vì vậy, mặc dù Giả thuyết #1 thực sự có xác suất <0.05, tôi sẽ không sẵn sàng triển khai rộng rãi kỹ thuật này trước khi nó được lặp lại bởi một nghiên cứu khác. Trái lại, việc bổ dung vitamin C rất an toàn, vì vậy tôi sẵn sàng kê đơn liệu pháp này mặc dù mức độ chắc chắn thấp hơn (α=0.1).
Cuối cùng, với tư cách là bác sĩ lâm sàng, chúng ta phải cân nhắc khả năng tương đối của nguy cơ so với lợi ích cũng như mức độ tương đối của nguy cơ so với lợi ích. Các kiểm định thống kê được mô tả trong bài viết này chủ yếu liên quan đến khả năng mà liệu pháp có lợi (Sai lầm loại I, α). Tuy nhiên, khi đưa ra quyết định lâm sàng, đây chỉ là một trong bốn thông tin quan trọng (hình trên). Tùy thuộc vào bối cảnh lâm sàng, các mức độ sai lầm loại I khác nhau có thể được chấp nhận về mặt lâm sàng.
Giải pháp #5: Đánh giá trị số p khi có những dữ liệu thống kê khác
Khi đánh giá một nghiên cứu, cần xem xét toàn bộ dữ liệu thay vì chỉ tập trung vào trị số p. Đặc biệt là tầm cỡ (effect size), khoảng tin cậy, cỡ mẫu, và độ mạnh thống kê có thể đóng vai trò quan trọng. Ví dụ, hãy xem xét hai kết quả dưới đây về lợi ích của một liệu pháp thực nghiệm. Mặc dù cả hai đều có cùng trị số p, ý nghĩa của chúng lại hoàn toàn khác nhau. Kết quả ở bên phải có thể gợi ý rằng liệu pháp không hiệu quả, trong khi kết quả ở bên trái có thể gợi ý rằng nghiên cứu thiếu sức mạnh và cần thêm bằng chứng để làm rõ hiệu ứng thực sự.
Giải pháp #6: Đừng mong đợi số liệu thống kê là một cỗ máy chính xác
Chúng ta sống trong một xã hội nhịp độ nhanh, ngập tràn thông tin. Chúng ta muốn có câu trả lời nhanh chóng. Nghiên cứu này tích cực hay tiêu cực? Thuốc này tốt hay xấu? Nhanh lên, đâu là kết luận cuối cùng? Ranh giới tùy tiện của p=0.05 là một cách tiếp cận nhanh chóng nhưng cực kỳ không hợp lý cho việc này. Một giá trị điểm cắt duy nhất (như p=0.05) mang lại kết quả nhị phân (có ý nghĩa hay không có ý nghĩa) dựa trên sự hiểu lầm rằng các kiểm định thống kê là một “cỗ máy chính xác” luôn đưa ra kết quả chắc chắn.
Trong thực tế, các kiểm định thống kê không bao giờ cho chúng ta biết chắc chắn 100% rằng một giả thuyết là đúng. Như đã thảo luận ở trên, các kiểm định thống kê thậm chí không thể cho chúng ta biết xác suất tuyệt đối của giả thuyết đúng. Các kiểm định thống kê chỉ có thể cung cấp cho chúng ta các tỷ số khả dĩ, điều này có thể làm tăng hoặc giảm niềm tin của chúng ta vào giả thuyết. Nhiệm vụ của chúng ta là diễn giải các tỷ số khả dĩ này, điều này thường đòi hỏi rất nhiều công sức. Đôi khi, các kiểm định thống kê có thể đưa ra kết quả rõ ràng, nhưng hay gặp hơn là kết quả nằm trong vùng xám. Chúng ta phải chấp nhận những vùng xám này và làm việc với chúng. Chúng ta cần kiên nhẫn để thực hiện thêm các thử nghiệm và đầu tư thêm suy nghĩ, trước khi đi đến kết luận.
Kết luận
Giá trị p đã ăn sâu vào các tài liệu y khoa. Ban đầu dựa trên một gợi ý của Fisher vào những năm 1920, các giả thuyết với p<0.05 được chấp nhận trong khi các giả thuyết với p>0.05 bị từ chối. Người ta tin rằng giá trị p đo lường khả năng của giả thuyết không và khả năng lặp lại của thí nghiệm. Thật không may, không có niềm tin nào trong số này là đúng.
Thực tế nghiệt ngã là các kiểm định thống kê không rõ ràng như ta thường nghĩ. Một giá trị p bằng 0.05 thực ra có thể tương quan với tỷ số khả dĩ của giả thuyết là 3-5, điều này chỉ cấu thành bằng chứng trung bình mạnh. Các trị số p nổi tiếng với khả năng biến đổi, không cung cấp thông tin về khả năng lặp lại của kết quả. Hơn nữa, xác suất cuối cùng mà giả thuyết là đúng phụ thuộc mạnh mẽ vào xác suất tiền test, điều này thường bị bỏ qua.
Thay đổi một quan điểm in sâu vào tiềm thức là rất khó khăn, đặc biệt là đối với thứ phổ biến như trị số p. Mong chờ các kết quả nghiêm ngặt hơn về mặt thống kê có thể là điều không thể đối với các nhà nghiên cứu, đặc biệt là trong các nghiên cứu tại ICU, nơi mà việc tuyển chọn bệnh nhân rất khó khăn. Cuối cùng, chúng ta có thể phải chấp nhận rằng các nghiên cứu không phải là những cỗ máy chân lý toàn năng về mặt thống kê như chúng ta đã từng tin tưởng. Đối mặt với bằng chứng thống kê yếu hơn, chúng ta có thể cần thận trọng hơn và chú trọng nhiều hơn vào xác suất tiền test (ví dụ: tích hợp với bằng chứng trước đó), ngữ cảnh thống kê (ví dụ: tầm cỡ tác động và độ mạnh), và mức alpha được điều chỉnh dựa trên ngữ cảnh lâm sàng. Cỗ máy chân lý đã hỏng: chào mừng bạn đến với vùng xám.
Tóm lại
- Trị số p ước đoán quá mức độ mạnh của bằng chứng. Nghiên cứu sử dụng phương pháp Bayes cho thấy rằng p=0.05 tương quan với tỷ số khả dĩ dương của giả thuyết thực nghiệm là chỉ 3-5.
- Trị số p rất khó lặp lại. Lặp lại nghiên cứu thường sẽ cho ra một giá trị p rất khác.
- Bất kỳ cách tiếp cận nào với kiểm định thống kê đều phải tính đến xác suất tiền test của giả thuyết đúng. Tương tự như một xét nghiệm cận lâm sàng, một kiểm định thống kê là vô nghĩa nếu không có bối cảnh lâm sàng và xác suất tiền test.
- Tránh sử dụng các giá trị điểm cắt truyền thống một cách mù quáng (vd: p <0.05 và α <0.05) để đưa quyết định về giả thuyết (vd: có ý nghĩa và không có ý nghĩa). Cuộc sống không đơn giản đến mức như vậy.
Ghi chú
(1) Kiểm định giả thuyết không truyền thống bằng trị số p không gán xác suất tiền test nào cho giả thuyết không hoặc giả thuyết thực nghiệm. Những người ủng hộ trị số p sẽ tranh luận rằng đây là một lợi thế của kiểm định giả thuyết không, cho phép quy trình này tránh được vấn đề phức tạp của xác suất tiền test. Tuy nhiên, toàn bộ quy trình kiểm định giả thuyết không đã bỏ qua hoàn toàn xác suất tiền test và áp dụng cùng một mức độ nghiêm ngặt cho mọi giả thuyết. Với việc bỏ qua xác suất tiền test, quy trình này ngầm hiểu rằng nó không quan trọng (tức là, không khác biệt đáng kể so với 50%).
(2) Giá trị p thực tế là xác suất thu được kết quả quan sát hoặc bất kỳ kết quả cô đọng nào dựa trên giả thuyết không. Khái niệm này được loại bỏ khỏi nội dung của bài viết chỉ vì mục đích ngắn gọn. Tuy nhiên, khái niệm này có thể là một vấn đề thực sự, vì giá trị p không phải là phép đo của bản thân dữ liệu mà thực ra là một phép đo của dữ liệu cực đoan hơn. Vì phân bố chuẩn và bản chất của dữ liệu cô đọng này thường không được biết (mà thay vào đó là suy luận), điều này có thể dẫn đến kết quả không chính xác.
(3) Thật không may, các tỷ số khả dĩ và hệ số Bayes được định nghĩa dựa trên odds, trong khi chúng ta sẽ dễ hiểu hơn khi sử dụng xác suất. Cả odds và xác suất có thể dễ dàng chuyển đổi lẫn nhau, mặc dù điều này tốn khá nhiều công sức. Cách nhanh nhất để chuyển một xác suất tiền test thành xác suất hậu test bằng hệ số Bayes (hoặc tỷ số khả dĩ) là thông qua máy tính trực tuyến.
Tài liệu tham khảo
- Goodman SN. Toward evidence-based medical statistics Part 1: The P-value fallacy. Ann Intern Med 1999; 130: 995-1004, as well as adjacent article Part 2: The Bayes Factor1005-1013.
- Goodman SN. A dirty dozen: Twelve p-value misconceptions. Semin Hematol 2008; 45: 135-140.
- Johnson VE. Revised standards for statistical evidence. Proceedings of the National Academy of Science, 2013; 110 (48) 19313-19317.
- Halsey LG et al. The fickle P value generates irreproducible results. Nature Methods 2015; 12(3) 179-185.