
Nghe thì chuyên nghiệp. Nhưng thật ra, đó là một cú trượt chân rất kinh điển: lấy kết quả sàng lọc mặc áo blouse cho nó rồi gọi là chẩn đoán.
Nói hơi kháy một chút: nếu chỉ cần cộng điểm thang đo là chẩn đoán được rối loạn tâm thần, thì ngành lâm sàng đã không cần phỏng vấn, không cần DSM, không cần ICD, không cần giám sát chuyên môn, cũng chẳng cần học mấy năm cho mệt. Ta chỉ cần một file Google Form, một công thức SUM, và một niềm tin rất hồn nhiên vào điểm cắt.
Vấn đề là khoa học không hồn nhiên như vậy.
1. Sàng lọc là tìm “tín hiệu nghi ngờ”, không phải đóng dấu bệnh
Wilson và Jungner (1968), trong tài liệu kinh điển của Tổ chức Y tế Thế giới, mô tả sàng lọc là việc nhận diện sơ bộ những người có thể có bệnh hoặc nguy cơ bệnh trong một nhóm người tưởng như đang bình thường. Điểm rất quan trọng: sàng lọc không nhằm chẩn đoán. Người có kết quả dương tính hoặc đáng nghi cần được chuyển sang bước đánh giá/chẩn đoán phù hợp (Wilson & Jungner, 1968).
Nói đời thường hơn: sàng lọc giống như bảo vệ thấy một người đi vào tòa nhà với hành vi hơi lạ. Bảo vệ có quyền mời kiểm tra thêm. Nhưng bảo vệ không phải tòa án. Người đó chưa phải tội phạm.
Trong tâm lý học cũng vậy. PHQ-9 cao không có nghĩa là “người này chắc chắn bị trầm cảm”. GAD-7 cao không có nghĩa là “người này chắc chắn rối loạn lo âu lan tỏa”. DASS-21 cao càng không phải giấy khai sinh cho một chẩn đoán. Nó chỉ nói: có tín hiệu đáng chú ý, cần đánh giá tiếp.
Grimes và Schulz (2002) nhấn mạnh rằng sàng lọc là kiểm tra những người “có vẻ khỏe” để tìm nhóm có nguy cơ cao hơn, và việc hiểu sai xét nghiệm sàng lọc có thể tạo ra tổn hại: làm người ta mất cảm giác khỏe mạnh, kéo theo kiểm tra không cần thiết, và tiêu tốn nguồn lực chăm sóc (Grimes & Schulz, 2002). Trong tâm lý, tổn hại ấy không chỉ là tiền bạc. Nó còn là nhãn dán: “em bị trầm cảm”, “con bị tăng động”, “bạn có rối loạn nhân cách”. Một cái nhãn nói sai có thể bám dai hơn cả triệu chứng thật.
2. Chẩn đoán là một quá trình, không phải một con số
Chẩn đoán tâm lý/lâm sàng không phải là hành vi nhìn điểm rồi gọi tên bệnh. Theo DSM-5-TR, tiêu chuẩn chẩn đoán được xây dựng để tăng độ tin cậy giữa các nhà chuyên môn, nhưng chúng phải được sử dụng bởi người được đào tạo, kèm phán đoán lâm sàng, và cần xem xét các điều kiện cần loại trừ (American Psychiatric Association, 2022).
Nói gọn: chẩn đoán cần ít nhất bốn việc.
Thứ nhất, xác định triệu chứng có thật sự hiện diện không. Người trả lời “gần như mỗi ngày” ở mục mệt mỏi có thể vì trầm cảm, nhưng cũng có thể vì thiếu ngủ, bệnh tuyến giáp, đau mạn tính, lịch học như tra tấn, hoặc vừa chia tay người yêu. Cộng điểm không phân biệt được mấy chuyện đó. Người làm lâm sàng thì phải phân biệt.
Thứ hai, xác định thời gian, cường độ, mức suy giảm chức năng. Một người buồn ba ngày sau khi mất người thân không giống một người mất hứng thú, mất ngủ, giảm tập trung, suy giảm học tập và có ý nghĩ tự sát kéo dài nhiều tuần.
Thứ ba, loại trừ nguyên nhân khác. Đây là phần nhiều người thích bỏ qua vì nó mệt. Nhưng tâm lý học mà bỏ bối cảnh thì chỉ còn lại trò gọi tên triệu chứng.
Thứ tư, đặt triệu chứng vào đời sống thật. Một học sinh lớp 12 sắp thi, ngủ 4 tiếng mỗi đêm, dùng cà phê như nước lọc, áp lực gia đình cao, điểm lo âu tăng vọt. Nếu ta vội chẩn đoán rối loạn lo âu mà không nhìn hoàn cảnh, thì không phải đang làm lâm sàng. Ta đang làm bói toán bằng thang đo.
APA Dictionary of Psychology định nghĩa đánh giá tâm lý là quá trình thu thập và tích hợp dữ liệu về hành vi, năng lực và đặc điểm của một người, có thể phục vụ chẩn đoán hoặc khuyến nghị điều trị. Dữ liệu ấy có thể đến từ phỏng vấn, quan sát, test chuẩn hóa, tự báo cáo, đo sinh lý và các thủ tục chuyên biệt khác (American Psychological Association, n.d.). Từ khóa nằm ở đây: tích hợp dữ liệu. Không phải “lấy một phiếu tự báo cáo rồi phong thánh cho nó”.
3. Sai lầm của dân tâm lý: lấy công cụ đo triệu chứng làm công cụ kết án bệnh
Trong nghiên cứu và thực hành, nhiều thang đo được thiết kế để đo mức độ triệu chứng, phát hiện ca nghi ngờ, hoặc theo dõi thay đổi theo thời gian. Chúng rất hữu ích. Nhưng hữu ích không đồng nghĩa với toàn năng.
Kroenke, Spitzer và Williams (2001) phát triển PHQ-9 như một thang đo ngắn để đánh giá mức độ nặng của triệu chứng trầm cảm và hỗ trợ phát hiện trầm cảm trong bối cảnh chăm sóc ban đầu. Spitzer, Kroenke, Williams và Löwe (2006) phát triển GAD-7 như một công cụ tự báo cáo ngắn để nhận diện các trường hợp có khả năng rối loạn lo âu lan tỏa và đánh giá độ tin cậy, giá trị của nó. Cả hai đều là công cụ mạnh, phổ biến, tiết kiệm thời gian. Nhưng mạnh không có nghĩa là thay thế được đánh giá lâm sàng.
Levis và cộng sự (2020) cho thấy một ví dụ rất đáng tỉnh ngủ: nếu dùng PHQ-9 với điểm cắt ≥ 10 để ước tính tỷ lệ trầm cảm, kết quả có thể cao hơn đáng kể so với tỷ lệ xác định bằng phỏng vấn chẩn đoán có cấu trúc. Trong phân tích dữ liệu cá nhân từ 44 nghiên cứu, tỷ lệ PHQ-9 ≥ 10 là khoảng 24,6%, trong khi tỷ lệ trầm cảm chủ yếu theo SCID là khoảng 12,1% (Levis et al., 2020). Nói nôm na: nếu lấy điểm cắt làm chẩn đoán, ta có thể “tạo ra” thêm rất nhiều người bệnh trên giấy.
Đây là lúc một số người sẽ phản biện:
“Nhưng thang đo đã được chuẩn hóa mà?”
Đúng. Nhưng chuẩn hóa không biến nó thành bác sĩ lâm sàng.
“Nhưng có độ nhạy, độ đặc hiệu mà?”
Đúng. Nhưng độ nhạy và độ đặc hiệu không tự mình trả lời câu hỏi: người cụ thể này, trong bối cảnh cụ thể này, có thật sự mắc rối loạn này không?
“Nhưng em ấy điểm rất cao mà?”
Điểm cao là còi báo động. Không phải bản án.
4. Chủ đề nền: tỷ lệ nền mới là chỗ nhiều người ngã
Đây là phần nền cực kỳ quan trọng: tỷ lệ nền hay base rate.
Một thang đo có thể rất tốt, nhưng nếu rối loạn thật sự trong nhóm được khảo sát có tỷ lệ thấp, thì số ca dương tính giả có thể nhiều đến mức làm người đọc kết quả hoang mang. Grimes và Schulz (2002) nhấn mạnh rằng tỷ lệ hiện mắc trong dân số ảnh hưởng trực tiếp đến giá trị dự báo của test. Trong nhóm có tỷ lệ bệnh thấp, ngay cả test tốt vẫn có thể cho giá trị dự báo dương thấp.
Ví dụ đời thường.
Giả sử ta sàng lọc 1.000 học sinh. Tỷ lệ trầm cảm lâm sàng thật sự trong nhóm này là 5%, tức khoảng 50 em. Ta dùng một công cụ có độ nhạy 90% và độ đặc hiệu 90% — nghe rất oách.
Kết quả sẽ đại khái như sau:
Trong 50 em thật sự có trầm cảm, test phát hiện đúng 45 em.
Trong 950 em không có trầm cảm, vì độ đặc hiệu 90%, vẫn có 10% bị dương tính giả, tức 95 em.
Vậy tổng số em có kết quả dương tính là 45 + 95 = 140 em.
Trong 140 em dương tính, chỉ 45 em là ca thật sự theo giả định ban đầu. Tức là xác suất một em dương tính thật sự có rối loạn chỉ khoảng 32%.
Đây là chỗ rất nhiều người giật mình. Test tốt mà vẫn có nhiều dương tính giả. Không phải vì test “dở”, mà vì tỷ lệ nền thấp làm kết quả dương tính khó diễn giải hơn.
Trong tâm lý học học đường, tư vấn cộng đồng, khảo sát online, vấn đề này càng đáng sợ. Ta ném một thang đo vào một nhóm lớn, không có phỏng vấn, không có kiểm tra bối cảnh, không có đánh giá nguy cơ, rồi công bố: “30% học sinh trầm cảm”, “40% sinh viên lo âu”, “25% người trẻ rối loạn tâm lý”.
Nghe rất kêu. Rất dễ viral. Và cũng rất dễ sai.
Cách viết đúng hơn là:
“30% học sinh có điểm sàng lọc triệu chứng trầm cảm ở mức đáng chú ý.”
Câu này dài hơn, kém giật tít hơn, nhưng khoa học hơn. Mà khoa học thì thường không chiều lòng người thích headline.
5. Sàng lọc vẫn rất cần, nhưng phải dùng đúng vai
Không nên vì sợ hiểu lầm mà vứt bỏ sàng lọc. Làm vậy là cực đoan theo kiểu chữa cháy bằng cách đốt luôn nhà.
Sàng lọc rất cần trong tâm lý học. Nó giúp phát hiện người cần hỗ trợ sớm. Nó giúp nhà trường biết nhóm nào đang có nguy cơ. Nó giúp chuyên viên ưu tiên ca cần gặp trước. Nó giúp theo dõi tiến triển điều trị. Nó giúp nghiên cứu có dữ liệu ban đầu để hiểu xu hướng sức khỏe tinh thần.
WHO (2020) cũng nhấn mạnh rằng sàng lọc có thể giúp nhận diện người có nguy cơ cao để can thiệp sớm, nhưng đồng thời cần cân nhắc lợi ích, tác hại, chi phí và bảo đảm chất lượng. Nghĩa là sàng lọc không phải chuyện “thích thì làm”. Nó phải có mục tiêu, quy trình, người xử lý dữ liệu, phương án chuyển gửi, và tiêu chuẩn đạo đức.
Trong bối cảnh tâm lý, một quy trình tử tế nên đi như sau:
Sàng lọc → phân loại nguy cơ → phỏng vấn/đánh giá sâu → loại trừ và chẩn đoán phân biệt → kết luận chuyên môn → khuyến nghị hỗ trợ/can thiệp.
Nếu thiếu các bước sau mà vẫn gọi tên rối loạn, thì đó không còn là sàng lọc. Đó là gắn nhãn bằng công cụ sàng lọc.
6. Một ví dụ rất cơm bữa: “Em bị lo âu nặng”
Một học sinh nữ làm GAD-7 được 16 điểm. Người phụ trách nhìn bảng quy đổi và nói:
“Em lo âu nặng.”
Câu này tưởng bình thường, nhưng thiếu chính xác. Cách nói tốt hơn là:
“Điểm GAD-7 của em đang ở vùng triệu chứng lo âu cao. Điều này chưa đủ để kết luận em mắc rối loạn lo âu. Mình cần hỏi thêm về thời gian kéo dài, hoàn cảnh, mức ảnh hưởng đến học tập, giấc ngủ, quan hệ, sức khỏe cơ thể và các yếu tố khác.”
Một câu dài hơn, nhưng không làm đau người nghe bằng một nhãn chẩn đoán non tay.
Vì một em có điểm lo âu cao có thể đang bị bắt nạt, áp lực thi cử, rối loạn giấc ngủ, sang chấn, xung đột gia đình, bệnh lý cơ thể, dùng chất kích thích, hoặc đơn giản là đang sống trong một môi trường khiến thần kinh lúc nào cũng phải trực chiến. Nếu chỉ gọi là “rối loạn lo âu” mà không hỏi tiếp, ta đã biến hoàn cảnh thành bệnh lý cá nhân. Khá tiện. Và khá tệ.
7. Kết luận: Điểm số là bản đồ, không phải lãnh thổ
Sàng lọc và chẩn đoán khác nhau ở quyền lực của kết luận.
Sàng lọc nói: “Có dấu hiệu cần chú ý.”
Chẩn đoán nói: “Sau khi đánh giá, có đủ cơ sở để xác định tình trạng này.”
Sàng lọc dùng để mở cửa.
Chẩn đoán dùng để đi vào căn phòng và xem bên trong thật sự có gì.
Dân tâm lý rất dễ mắc sai lầm vì chúng ta yêu công cụ. Thang đo cho cảm giác sạch sẽ, khách quan, có số, có mức, có bảng quy đổi. Nhưng con người không nằm gọn trong một ô Excel. Một điểm số không biết người đó vừa mất cha. Một điểm số không biết người đó bị bạo lực học đường. Một điểm số không biết người đó có bệnh nền, mất ngủ, đói ăn, cô đơn, hay đang kiệt sức vì phải làm người lớn quá sớm.
Vậy nên, dùng thang đo thì cứ dùng. Nhưng hãy dùng như người làm khoa học: biết giới hạn của công cụ mình cầm.
Một chiếc nhiệt kế báo sốt không tự chẩn đoán được sốt xuất huyết, cúm, nhiễm trùng hay kiệt sức. Một thang PHQ-9, GAD-7, DASS-21 cũng vậy. Nó báo rằng có điều gì đó đang nóng lên trong đời sống tâm lý của một người.
Còn nóng vì đâu, cháy chỗ nào, có cần can thiệp không, và can thiệp ra sao — đó là phần của đánh giá chuyên môn.
Nói ngắn gọn:
Đừng bắt thang đo làm công việc của nhà lâm sàng.
Nó không được học để gánh cái nghiệp đó.
Tài liệu tham khảo
- American Psychiatric Association. (2022). Diagnostic and statistical manual of mental disorders (5th ed., text rev.; DSM-5-TR). American Psychiatric Association Publishing.
- American Psychological Association. (n.d.). Psychological assessment. APA Dictionary of Psychology.
- Grimes, D. A., & Schulz, K. F. (2002). Uses and abuses of screening tests. The Lancet, 359(9309), 881–884.
- Kroenke, K., Spitzer, R. L., & Williams, J. B. W. (2001). The PHQ-9: Validity of a brief depression severity measure. Journal of General Internal Medicine, 16(9), 606–613.
- Levis, B., Benedetti, A., Ioannidis, J. P. A., Sun, Y., Negeri, Z., He, C., Wu, Y., Krishnan, A., Bhandari, P. M., Neupane, D., Imran, M., Rice, D. B., Riehm, K. E., Saadat, N., Azar, M., Boruff, J., Cuijpers, P., Gilbody, S., Kloda, L. A., … Thombs, B. D. (2020). Patient Health
- Questionnaire-9 scores do not accurately estimate depression prevalence: Individual participant data meta-analysis. Journal of Clinical Epidemiology, 122, 115–128.e1.
- Spitzer, R. L., Kroenke, K., Williams, J. B. W., & Löwe, B. (2006). A brief measure for assessing generalized anxiety disorder: The GAD-7. Archives of Internal Medicine, 166(10), 1092–1097.
- Wilson, J. M. G., & Jungner, G. (1968). Principles and practice of screening for disease. World Health Organization.
- World Health Organization. Regional Office for Europe. (2020). Screening programmes: A short guide. Increase effectiveness, maximize benefits and minimize harm. World Health Organization.