0%
PSYGUILD SYSTEM
ĐANG KHỞI TẠO KẾT NỐI...


Test tâm lý không dùng để tự dán nhãn: hiểu đúng về sàng lọc tâm lý”

Tâm Lý Học 25 lượt xem 27/05/2026 | 🕐 19 phút đọc Huy Tâm Lý Huy Tâm Lý

Tình huống dưới đây là tình huống tổng hợp từ những bối cảnh học tập và đi làm thường gặp.

Một tối gần deadline, sau nhiều tuần ngủ kém, ăn thất thường và đầu óc quay như chong chóng, một bạn sinh viên mở điện thoại làm thử vài bài test tâm lý. Kết quả hiện ra: mức lo âu cao, mức trầm cảm cao, stress cao. Chỉ vài phút sau, câu hỏi trong đầu không còn là “mình đang mệt đến mức nào?” mà chuyển thành “vậy là mình bị bệnh rồi đúng không?”. Sáng hôm sau, bạn đọc thêm vài bài đăng trên mạng, thấy nhiều mô tả giống mình, và bắt đầu dán lên bản thân một chiếc nhãn: trầm cảmrối loạn lo âucó vấn đề tâm thần.

Cảnh này ngày càng quen thuộc trong đời sống số. Một tổng quan gần đây về tự chẩn đoán tâm thần trực tuyến cho thấy việc người dân tự diễn giải các vấn đề tâm lý của mình bằng công cụ online đang tăng nhanh; lợi ích có thể có là một số người sau kết quả dương tính sẽ đi tìm hỗ trợ chuyên môn, nhưng rủi ro cũng rất rõ: chẩn đoán sai hoặc nguy hiểm, tăng lo âu về “căn bệnh” mình nghĩ mình có, nhận lời khuyên thiếu lọc trên mạng xã hội, tự điều trị, thậm chí phát sinh vấn đề về riêng tư dữ liệu.

Vấn đề vì thế không nằm ở chỗ bài test là “xấu” hay “vô dụng”. Vấn đề nằm ở cách ta dùng nó. Một công cụ sàng lọc vốn được tạo ra để mở ra bước đánh giá tiếp theo rất dễ bị biến thành con dấu để kết luận về cả con người. Và đó là lúc một con số bắt đầu đè nặng hơn giá trị thực của nó.

1. Sàng lọc là gì và không phải là gì

Nếu phải nói ngắn gọn, sàng lọc là bước nhận diện nguy cơ, còn chẩn đoán là bước kết luận chuyên môn. WHO viết rất rõ rằng một xét nghiệm hay công cụ sàng lọc không nhằm mục đích chẩn đoán; những người có kết quả dương tính hoặc nghi ngờ phải được chuyển sang bước đánh giá chẩn đoán thích hợp.  Trong hướng dẫn liên quan đến chăm sóc sức khỏe tâm thần, WHO còn nhấn mạnh rằng các công cụ sàng lọc cho biết mức độ nặng của triệu chứng hơn là việc một người có “đạt chuẩn chẩn đoán” hay không; vì vậy chúng hữu ích để nhận diện ai cần được lượng giá thêm và để theo dõi thay đổi triệu chứng theo thời gian.

Điểm này rất quan trọng vì đời thường hay làm ta lẫn lộn giữa ba việc khác nhau: đo triệu chứng, hiểu bối cảnh, và kết luận rối loạn. Theo APA, nhà tâm lý học sử dụng test và các công cụ assessment khác để đo lường, quan sát hành vi rồi đi đến chẩn đoán và định hướng điều trị; nghĩa là test là một phần của quy trình assessment, không phải toàn bộ quy trình. APA cũng nhấn mạnh rằng khi dùng test trong assessment, người làm chuyên môn phải chọn công cụ có độ tin cậy, độ giá trị và phù hợp với mục đích đánh giá.

Với các thang đo phổ biến như PHQ-9, GAD-7 hay DASS-21, điều này càng rõ. Một tổng quan hệ thống về PHQ-9 trong chăm sóc ban đầu kết luận rằng sàng lọc hai bước là hướng nên dùng, và chẩn đoán cần được xác nhận bởi chuyên gia sức khỏe tâm thần thông qua phỏng vấn bán cấu trúc. Nói cách khác: bảng hỏi là cửa vào, không phải phán quyết cuối cùng.

Hiểu được ranh giới đó giúp ta tránh hai cực đoan rất phổ biến. Cực đoan thứ nhất: coi test online như đồ chơi, làm cho vui rồi bỏ qua hết. Cực đoan thứ hai: coi từng điểm cắt như bản án, thấy vượt ngưỡng là tự kết luận mình “mắc bệnh”. Cả hai đều sai vì đều dùng công cụ không đúng mục đích.

2. Vì sao một điểm số dễ bị hiểu sai

Lý do đầu tiên là điểm cắt không phải chân lý tuyệt đối, mà là lựa chọn cân bằng giữa độ nhạy và độ đặc hiệu trong một bối cảnh nhất định. Với PHQ-9, nghiên cứu nền tảng của Kroenke, Spitzer và Williams cho thấy công cụ này là thang đo ngắn gọn, đáng tin cậy và có giá trị để đo mức độ trầm cảm; trong bài báo đó, ngưỡng từ 10 điểm trở lên cho thấy độ nhạy và độ đặc hiệu đều khoảng 88% đối với trầm cảm chủ yếu.  Nhưng “88%” không có nghĩa là mọi người đạt 10 điểm đều mắc trầm cảm, mà có nghĩa rằng trong mẫu nghiên cứu đó, ngưỡng này hoạt động khá tốt như một bước sàng lọc.

Khi đi lên mức bằng chứng mạnh hơn, mọi thứ còn rõ hơn. Phân tích gộp dữ liệu cá nhân quy mô lớn của Levis, Benedetti và Thombs cho thấy với PHQ-9, ngưỡng 10 trở lên tối ưu hóa tổng thể độ nhạy và độ đặc hiệu trong các nghiên cứu dùng phỏng vấn bán cấu trúc làm chuẩn đối chiếu, với độ nhạy 0,88 và độ đặc hiệu 0,85.  Nhưng bản cập nhật sau đó của Negeri và cộng sự cho thấy ngay cả với cùng một PHQ-9, độ nhạy cũng thay đổi đáng kể tùy loại phỏng vấn chẩn đoán dùng để đối chiếu; trong các nghiên cứu dùng phỏng vấn bán cấu trúc, độ nhạy cao hơn đáng kể so với nghiên cứu dùng phỏng vấn cấu trúc hoàn toàn hoặc MINI.  Nói đời hơn: ngay cả trong nghiên cứu rất chuẩn, “đúng” hay “sai” của một điểm cắt vẫn phụ thuộc bối cảnh, dân số và chuẩn tham chiếu.

Lý do thứ hai là điểm số lớn hơn một ngưỡng không đồng nghĩa với tần suất thật của bệnh trong đời thực. Một phân tích gộp dữ liệu cá nhân khác của Levis và cộng sự kết luận rất dứt khoát: các bảng hỏi triệu chứng trầm cảm không phải để phân loại chẩn đoán, vậy mà điểm PHQ-9 từ 10 trở lên vẫn thường bị dùng để ước tính tỷ lệ trầm cảm trong dân số; kết quả cho thấy cách làm đó làm ước tính quá cao tỷ lệ hiện mắc.  Nếu một công cụ còn có thể làm sai lệch ước tính ở cấp độ quần thể khi bị dùng sai, thì ở cấp độ cá nhân, việc biến nó thành “tôi là người trầm cảm” lại càng đáng thận trọng hơn.

Với GAD-7, logic này lặp lại gần như nguyên vẹn. Bài báo gốc của Spitzer, Kroenke, Williams và Löwe cho thấy GAD-7 là công cụ ngắn, có độ tin cậy và độ giá trị tốt để sàng lọc rối loạn lo âu lan tỏa và đánh giá mức độ nặng; ngưỡng 10 tối ưu hóa độ nhạy khoảng 89% và độ đặc hiệu khoảng 82%. Quan trọng hơn, chính nhóm tác giả cũng viết rằng GAD-7 chỉ cung cấp các trường hợp có khả năng và cần được xác nhận bằng đánh giá tiếp theo.  Tổng quan chẩn đoán của Plummer, Manea, Trepel và McMillan sau đó cho thấy ở một số bối cảnh, ngưỡng 8 có thể cho độ nhạy và độ đặc hiệu cân bằng tốt, và các ngưỡng 7–10 đều có thể chấp nhận được.  Chỉ riêng việc ngưỡng “tối ưu” có thể dao động như vậy đã đủ để thấy: điểm cắt là công cụ ra quyết định, không phải nhãn bản sắc.

Nói cách khác, bài test cho ta một xác suất và một tín hiệu, chứ không trao cho ta quyền bỏ qua bối cảnh. Một người vừa mất ngủ một tuần vì thi cử, một người đang đau mạn tính, một người mới sinh con, một người đang dùng thuốc ảnh hưởng giấc ngủ hay khẩu vị, và một người thực sự đang đi vào một giai đoạn trầm cảm nặng có thể cùng cho điểm khá cao ở vài mục giống nhau. Nếu chỉ nhìn con số mà không nhìn đời sống, ta đang bắt dữ liệu gánh phần việc của một cuộc đánh giá lâm sàng.

3. Khi một thang đo hợp lệ vẫn chưa gọi tên được con người

Một hiểu nhầm rất phổ biến là: “Thang đo này đã được chuẩn hóa, vậy hẳn là nó gọi đúng tên vấn đề của tôi.” Đúng ở đây cần hiểu cho chính xác. Chuẩn hóa và có độ giá trị nghĩa là công cụ đó đo được một cấu trúc tâm lý nhất định ở mức đủ tốt cho mục đích định trước, chứ không có nghĩa là nó tự biến thành lời chẩn đoán.

Điều này thấy rất rõ ở DASS. Trang chính thức của nhóm phát triển tại Đại học New South Wales mô tả DASS là bộ công cụ tự báo cáo được thiết kế để đo ba trạng thái cảm xúc tiêu cực liên quan là trầm cảm, lo âu và căng thẳng/stress.  Các phân tích sau này cũng lưu ý rằng DASS-21 không phải công cụ chẩn đoán lâm sàng, nên thường có ích hơn khi dùng để sàng lọc diện rộng và đo distress hơn là để thay thế phỏng vấn chuyên môn.  Công thức ngầm của DASS là dimensional — đo mức độ và cấu trúc triệu chứng — chứ không phải categorical theo kiểu “có bệnh/không có bệnh”.

Trong bối cảnh Việt Nam, thông điệp ấy còn cụ thể hơn. Nghiên cứu của Tran, Tran và Fisher ở phụ nữ nông thôn miền Bắc Việt Nam dùng DASS-21 đối chiếu với phỏng vấn SCID do bác sĩ tâm thần thực hiện cho thấy tổng điểm 21 mục có thể phát hiện các rối loạn tâm thần thông thường với độ nhạy 79,1% và độ đặc hiệu 77,0% ở ngưỡng tối ưu, nhưng không phân biệt được ai chỉ trầm cảm và ai chỉ lo âu.  Đây là dữ kiện cực kỳ đáng giá cho người dùng Việt Nam: một điểm DASS cao có thể cho biết bạn đang distress thật, nhưng không đủ để nói riêng rẽ rằng “đây chắc chắn là trầm cảm” hay “đây chắc chắn là rối loạn lo âu”.

Ở thanh thiếu niên Việt Nam, bức tranh còn thú vị hơn. Nghiên cứu của Lê Minh Thị Hồng Lê, Trần Thạch Đức, Holton, Nguyễn, Wolfe và Fisher trên học sinh trung học tại Hà Nội cho thấy DASS-21 đáng tin cậy và phù hợp để đánh giá triệu chứng các vấn đề sức khỏe tâm thần thường gặp, đặc biệt là trầm cảm và lo âu; tuy nhiên, mô hình phù hợp nhất lại bao gồm một thành phần general distress bên cạnh các thành phần riêng của trầm cảm, lo âu và stress. Nhóm tác giả thậm chí khuyến nghị dùng tổng điểm DASS-21 để phản ánh distress chung ở thanh thiếu niên Việt Nam.  Nếu vậy, một bạn 17 tuổi điểm DASS cao trong mùa thi chưa thể bị co lại thành một kết luận đơn dòng; điều công cụ đang bắt được có thể là một khối đau khổ tâm lý chung, trong đó mới cần tách tiếp xem phần nào là stress tình huống, phần nào là lo âu kéo dài, phần nào là trầm cảm thật sự.

Ngay cả với PHQ-9, khi đưa vào môi trường chuyên khoa tâm thần, giới hạn của công cụ cũng lộ ra khá rõ. Nghiên cứu của Inoue và cộng sự cho thấy PHQ-9 hữu ích để sàng lọc cơn trầm cảm hiện tại trong phòng khám chuyên khoa, nhưng không phù hợp để chẩn đoán. Một phần lý do là chẩn đoán rối loạn trầm cảm chủ yếu đòi hỏi các tiêu chuẩn loại trừ như tiền sử hưng cảm/hypomania hoặc các tình trạng khác mà bản thân PHQ-9 không hỏi tới.  Nói thẳng: một bảng hỏi tự điền không thể thay thế quá trình hỏi bệnh, khai thác tiền sử, xem xét loại trừ và đánh giá chức năng.

4. Giá trị thật của test online

Bảo rằng không nên tự dán nhãn không có nghĩa là phủ nhận giá trị của test online. Thực ra, khi được dùng đúng cách, các công cụ này có ba giá trị rất thực tế.

Giá trị đầu tiên là làm rõ mức distress hiện tại. Có những người đã mệt rất lâu nhưng không gọi tên được mức độ nặng nhẹ. Một thang đo ngắn, chuẩn hóa, có thể giúp họ đi từ cảm giác mơ hồ “hình như mình không ổn” sang một nhận định cụ thể hơn kiểu “triệu chứng của mình đang ở mức đủ đáng để không nên xem nhẹ”. Ở nhóm vị thành niên, Murphy và cộng sự cho thấy các sàng lọc tâm lý miễn phí, trên internet, có thể là cách khả thi để nhận diện người trẻ có nguy cơ và tạo đường dẫn đến hỗ trợ hoặc điều trị tiếp theo.

Giá trị thứ hai là khởi động hành vi tìm kiếm hỗ trợ. Vấn đề của nhiều người không phải là họ không có triệu chứng, mà là họ không bước qua ngưỡng “mình nên nói chuyện với ai đó”. Tổng quan của Monteith và cộng sự ghi nhận rằng một số người sau khi nhận kết quả dương tính từ công cụ online sẽ tìm đến chuyên môn.  Nghiên cứu trên hành vi tìm kiếm internet của Jacobson và cộng sự cũng cho thấy nội dung của các công cụ sàng lọc có thể dự báo những tìm kiếm tiếp theo về tự quy chiếu sức khỏe tâm thần, tự chẩn đoán và tìm kiếm chăm sóc — nghĩa là màn hình kết quả không hề trung tính; nó có thể đẩy người dùng theo các hướng rất khác nhau.

Giá trị thứ ba là theo dõi thay đổi theo thời gian, đặc biệt khi dùng cùng một công cụ, trong bối cảnh tương đối ổn định, và được diễn giải cùng thông tin đời sống. Đây cũng là chỗ test phát huy tác dụng hơn nhiều so với việc “làm một lần cho biết”. Theo WHO, công cụ sàng lọc không chỉ dùng để nhận diện người cần đánh giá thêm mà còn có thể giúp theo dõi biến đổi triệu chứng theo thời gian.

Nhưng cả ba giá trị này chỉ xuất hiện khi người dùng hiểu đúng luật chơi: test online là đèn báo, không phải bảng tuyên án. Nó nói “ở đây có tín hiệu, cần nhìn kỹ hơn”, chứ không nói “bạn chính là chiếc nhãn này”.

4. Cách đọc kết quả mà không tự dán nhãn

Vậy nên đọc một bài test như thế nào cho đúng?

Cách đọc ít gây hại nhất là đổi câu hỏi. Đừng hỏi ngay: “Vậy là mình bị gì?” Hãy hỏi: “Kết quả này đang phản ánh mức đau khổ tâm lý nào, trong bối cảnh nào, và bước tiếp theo hợp lý là gì?” Cách hỏi đó phù hợp với chính bản chất của sàng lọc mà WHO, APA và các tổng quan về PHQ-9 đã mô tả: nhận diện nguy cơ, lượng hóa triệu chứng, rồi chuyển sang assessment sâu hơn nếu cần.

Có bốn lớp thông tin một bài test không tự mang theo mà bạn phải tự bổ sung. Lớp thứ nhất là thời gian: triệu chứng mới bùng lên vài ngày hay đã kéo dài nhiều tuần, nhiều tháng? Lớp thứ hai là mức ảnh hưởng chức năng: bạn còn học, làm việc, chăm sóc bản thân, ngủ nghỉ và duy trì quan hệ ở mức nào? Lớp thứ ba là bối cảnh: có biến cố gần đây, bệnh cơ thể, thay đổi thuốc, cạn kiệt vì làm việc, mất ngủ kéo dài, hoặc sử dụng chất không? Lớp thứ tư là mức độ an toàn: có ý nghĩ tự hại, tuyệt vọng sâu, mất kiểm soát, hay nguy cơ rõ rệt nào cần hỗ trợ trực tiếp ngay không? Bài test giúp bạn dừng lại ở bốn câu hỏi đó; nó không thể tự trả lời thay.

Nếu kết quả cao nhưng bạn vừa trải qua một giai đoạn stress cấp tính rõ ràng, hãy coi đó là tín hiệu cần nghỉ, quan sát và — nếu cần — đem kết quả đi trao đổi với người có chuyên môn, thay vì đóng dấu bản thân. Nếu kết quả cao lặp lại, chức năng suy giảm thấy rõ, đau khổ kéo dài, hoặc có ý nghĩ làm hại bản thân, thì đừng dừng ở việc làm thêm một test khác. Lúc đó điều hữu ích hơn là một cuộc đánh giá trực tiếp, nơi người ta không chỉ nhìn vào con số mà còn đọc cùng bạn cả bối cảnh sống, tiền sử và nguy cơ.

Một bài test tốt không có lỗi khi nó không gọi tên được toàn bộ con người bạn. Đơn giản là đó chưa bao giờ là việc của nó. Việc của nó là giúp bạn nhìn ra rằng có điều gì đó đang cần được lắng nghe kỹ hơn. Phần còn lại thuộc về assessment, về bối cảnh, và về sự cẩn trọng chuyên môn.

Một con số không gọi tên được cả con người.

5. Tài liệu tham khảo

American Psychological Association. (2013). Understanding psychological testing and assessment.

American Psychological Association. (2020). Guidelines for psychological assessment and evaluation.

Costantini, L., Pasquarella, C., Odone, A., Colucci, M. E., Costanza, A., Serafini, G., Aguglia, A., Belvederi Murri, M., Brakoulias, V., Amore, M., Ghaemi, S. N., & Amerio, A. (2021). Screening for depression in primary care with Patient Health Questionnaire-9 (PHQ-9): A systematic review. Journal of Affective Disorders, 279, 473–483. doi:10.1016/j.jad.2020.09.131.

Inoue, T., Tanaka, T., Nakagawa, S., Nakato, Y., Kameyama, R., Boku, S., Toda, H., Kurita, T., & Koyama, T. (2012). Utility and limitations of PHQ-9 in a clinic specializing in psychiatric care. BMC Psychiatry, 12, 73. doi:10.1186/1471-244X-12-73.

Jacobson, N. C., Yom-Tov, E., Lekkas, D., Heinz, M., Liu, L., & Barr, P. J. (2022). Impact of online mental health screening tools on help-seeking, care receipt, and suicidal ideation and suicidal intent: Evidence from internet search behavior in a large U.S. cohort. Journal of Psychiatric Research, 145, 276–283. doi:10.1016/j.jpsychires.2020.11.010.

Kroenke, K., Spitzer, R. L., & Williams, J. B. W. (2001). The PHQ-9: validity of a brief depression severity measure. Journal of General Internal Medicine, 16(9), 606–613. doi:10.1046/j.1525-1497.2001.016009606.x.

Le, M. T. H., Tran, T. D., Holton, S., Nguyen, H. T., Wolfe, R., & Fisher, J. (2017). Reliability, convergent validity and factor structure of the DASS-21 in a sample of Vietnamese adolescents. PLOS ONE, 12(7), e0180557. doi:10.1371/journal.pone.0180557.

Levis, B., Benedetti, A., Ioannidis, J. P. A., Sun, Y., Negeri, Z., He, C., Wu, Y., Krishnan, A., Bhandari, P. M., Neupane, D., Imran, M., Rice, D. B., Riehm, K. E., Saadat, N., Azar, M., Boruff, J., Cuijpers, P., Gilbody, S., Kloda, L. A., … Thombs, B. D. (2020). Patient Health Questionnaire-9 scores do not accurately estimate depression prevalence: individual participant data meta-analysis. Journal of Clinical Epidemiology, 122, 115–128.e1. doi:10.1016/j.jclinepi.2020.02.002.

Levis, B., Benedetti, A., & Thombs, B. D. (2019). Accuracy of Patient Health Questionnaire-9 (PHQ-9) for screening to detect major depression: individual participant data meta-analysis. The BMJ, 365, l1476. doi:10.1136/bmj.l1476.

Monteith, S., Glenn, T., & Bauer, M. (2024). Implications of online self-diagnosis in psychiatry. Psychiatrische Praxis. doi:10.1055/a-2245-4030.

Murphy, J. M., Zhu, W., Chen, Y., Goldner, E. M., Banda, P., Kwong, J. C. C., Muskat, B., Rebholz, C., Bor, D. H., & Goldsmith, C. H. (2018). Adolescent self-screening for mental health problems: Demonstration of an internet-based approach. Community Mental Health Journal, 54(8), 1022–1031. doi:10.1007/s10597-017-0223-x.

Negeri, Z. F., Levis, B., Sun, Y., He, C., Krishnan, A., Wu, Y., Bhandari, P. M., Neupane, D., Brehaut, E., Benedetti, A., & Thombs, B. D. (2021). Accuracy of the Patient Health Questionnaire-9 for screening to detect major depression: updated systematic review and individual participant data meta-analysis. The BMJ, 375, n2183. doi:10.1136/bmj.n2183.

Plummer, F., Manea, L., Trepel, D., & McMillan, D. (2016). Screening for anxiety disorders with the GAD-7 and GAD-2: a systematic review and diagnostic metaanalysis. General Hospital Psychiatry, 39, 24–31. doi:10.1016/j.genhosppsych.2015.11.005.

Spitzer, R. L., Kroenke, K., Williams, J. B. W., & Löwe, B. (2006). A brief measure for assessing generalized anxiety disorder: The GAD-7. Archives of Internal Medicine, 166(10), 1092–1097. doi:10.1001/archinte.166.10.1092.

Tran, T. D., Tran, T., & Fisher, J. (2013). Validation of the Depression Anxiety Stress Scales (DASS) 21 as a screening instrument for depression and anxiety in a rural community-based cohort of northern Vietnamese women. BMC Psychiatry, 13, 24. doi:10.1186/1471-244X-13-24.

University of New South Wales. (2025). Depression Anxiety Stress Scales (DASS).

World Health Organization. (2020). Screening programmes: a short guide. Increase effectiveness, maximize benefits and minimize harm.

World Health Organization. (2023). Identifying and managing care for mental health conditions and substance use disorders in people affected by tuberculosis.

Để lại bình luận

Email của bạn sẽ không được hiển thị công khai. Bình luận hợp lệ sẽ được đăng ngay; spam sẽ bị hệ thống chặn tự động.

Trang chủ Bài viết
Viết bài
Sự kiện Sách