Scolaris Content Display Scolaris Content Display

Pruebas de diagnóstico para el trastorno del espectro autista (TEA) en niños en edad preescolar

Contraer todo Desplegar todo

Antecedentes

El trastorno del espectro autista (TEA) es una afección diagnosticada en el área conductual. Se define por deficiencias en la comunicación social o por la presencia de comportamientos restringidos o repetitivos, o ambos. El diagnóstico se realiza según los sistemas existentes de clasificación. En años recientes, especialmente después de la publicación del Diagnostic and Statistical Manual of Mental Disorders ‐ Fifth Edition (DSM‐5; APA 2013), los niños fueron diagnosticados de TEA, en lugar de subclasificaciones del espectro como el trastorno autístico, el síndrome de Asperger o el trastorno generalizado del desarrollo no especificado de otra manera. Se han desarrollado pruebas para diagnosticar el TEA con el uso de entrevistas a los padres o los cuidadores, la observación de los niños o una combinación de ambos.

Objetivos

Objetivos primarios

1. Identificar qué herramientas de diagnóstico, incluyendo las versiones actualizadas, diagnostican con más exactitud el TEA en los niños en edad preescolar en comparación con el criterio clínico de equipos multidisciplinarios.

2. Identificar cómo la mejor de las herramientas para entrevista se compara con CARS, y luego cómo CARS se compara con ADOS.

a. ¿Qué herramienta de diagnóstico para el TEA (entre ADOS, ADI‐R, CARS, DISCO, GARS y 3di) tiene mayor exactitud como prueba de diagnóstico?

b. ¿La exactitud diagnóstica de cualquiera de las pruebas es suficiente para que esa prueba sea apropiada como una herramienta exclusiva de evaluación en niños en edad preescolar?

c. ¿Existe alguna combinación de pruebas que, si se ofrece de forma sucesiva, proporcionaría una exactitud apropiada como prueba de diagnóstico y mejoraría la eficiencia de la prueba?

d. ¿Si los datos están disponibles, la combinación de una herramienta para entrevista con una prueba observacional estructurada tiene la mejor exactitud de prueba de diagnóstico (es decir, menos falsos positivos y menos falsos negativos) que cualquier prueba sola?

Como solamente se identificó una herramienta para entrevista, los tres primeros objetivos se modificaron a un objetivo único (Diferencias entre protocolo y revisión): Esta revisión evaluó las pruebas de diagnóstico en cuanto a la sensibilidad y la especificidad. La especificidad es el factor más importante para el diagnóstico; sin embargo, la sensibilidad y la especificidad son de interés en esta revisión porque hay un equilibrio inherente entre estos dos factores.

Objetivos secundarios

1. Determinar si alguna prueba de diagnóstico tiene la mayor exactitud de prueba de diagnóstico para subgrupos específicos por edad, dentro del rango de edad preescolar.

Métodos de búsqueda

En julio de 2016, se buscó en CENTRAL, MEDLINE, Embase, PsycINFO, en otras 10 bases de datos y en las listas de referencias de todas las publicaciones incluidas.

Criterios de selección

Las publicaciones tenían que:
1. informar sobre la exactitud de la prueba de diagnóstico de cualquiera de las siguientes seis herramientas de diagnóstico incluidas: Autism Diagnostic Interview ‐ Revised (ADI‐R), Gilliam Autism Rating Scale (GARS), Diagnostic Interview for Social and Communication Disorder (DISCO), Developmental, Dimensional, and Diagnostic Interview (3di), Autism Diagnostic Observation Schedule ‐ Generic (ADOS) y Childhood Autism Rating Scale (CARS);
2. incluir a niños en edad preescolar (menor de seis años de edad) con sospecha de presentar TEA; y
3. tener una evaluación multidisciplinaria, o similar, como el estándar de referencia.

Los estudios elegibles incluyeron estudios de cohortes, cruzados, aleatorios de exactitud de la prueba y estudios de casos y controles. La afección de interés fue el TEA.

Obtención y análisis de los datos

Dos autores de la revisión evaluaron de forma independiente todos los estudios para su inclusión y extrajeron los datos mediante formularios estandarizados. Un tercer autor de la revisión moderó los desacuerdos. La calidad metodológica se evaluó mediante el instrumento QUADAS‐2 (Quality Assessment of Studies of Diagnostic Accuracy ‐ Revised). Se realizaron regresiones logísticas de una sola variable de efectos aleatorios separadas para la sensibilidad y la especificidad para CARS e ADI‐R. Se realizaron metanálisis de pares de sensibilidad y de especificidad mediante métodos de dos variables de efectos aleatorios para ADOS.

Resultados principales

En esta revisión se incluyeron 21 grupos de análisis que informaron diferentes herramientas o cohortes de niños a partir de 13 publicaciones, muchos con alto riesgo de sesgo o conflictos de intereses potenciales, o una combinación de ambos. En general, la prevalencia de TEA en los niños de los análisis incluidos fue del 74%.

Para las versiones y los módulos de ADOS hubo 12 análisis con 1625 niños. La sensibilidad de ADOS varió de 0,76 a 0,98 y la especificidad varió de 0,20 a 1,00. La sensibilidad resumida fue 0,94 (intervalo de confianza [IC] del 95%: 0,89 a 0,97) y la especificidad resumida fue 0,80% (IC del 95%: 0,68 a 0,88).

Para CARS hubo cuatro análisis con 641 niños. La sensibilidad de CARS varió de 0,66 a 0,89 y la especificidad varió de 0,21 a 1,00. La sensibilidad resumida de CARS fue 0,80 (IC del 95%: 0,61 a 0,91) y la especificidad resumida fue 0,88 (IC del 95%: 0,64 a 0,96).

Para ADI‐R hubo cinco análisis con 634 niños. La sensibilidad para ADI‐R varió de 0,19 a 0,75 y la especificidad varió de 0,63 a 1,00. La sensibilidad resumida para ADI‐R fue 0,52 (IC del 95%: 0,32 a 0,71) y la especificidad resumida fue 0,84 (IC del 95%: 0,61 a 0,95).

Los estudios que compararon pruebas fueron pocos y demasiado pequeños para poder establecer conclusiones claras.

En dos estudios que incluyeron análisis de ADI‐R y ADOS las pruebas se consideraron iguales para la sensibilidad, pero ADOS tuvo una mayor puntuación para la especificidad. En dos estudios que incluyeron análisis para ADI‐R, ADOS y CARS, ADOS tuvo la sensibilidad más alta y CARS la especificidad más alta.

En un estudio que exploró la sensibilidad y la especificidad individual y aditiva de ADOS e ADI‐R, la combinación de las dos pruebas no aumentó la sensibilidad ni la especificidad de ADOS utilizada sola.

El rendimiento de todas las pruebas fue inferior cuando se excluyeron los estudios con alto riesgo de sesgo.

Conclusiones de los autores

Se observó una variación significativa en la sensibilidad y la especificidad de todas las pruebas, lo que probablemente se atribuye a las diferencias y las variaciones metodológicas en las características clínicas de las poblaciones reclutadas.

Cuando se compararon las estadísticas resumidas para ADOS, CARS e ADI‐R, se encontró que ADOS fue la de mayor sensibilidad. Todas las herramientas funcionaron de igual manera para la especificidad. En poblaciones de menor prevalencia, el riesgo de identificar falsamente a niños que no presenten TEA sería mayor.

Actualmente están disponibles nuevas versiones de las herramientas que requieren evaluación de exactitud de la prueba de diagnóstico, idealmente en situaciones clínicamente relevantes, con métodos con bajo riesgo de sesgo y en niños con capacidades variables.

¿Cómo de exactas son las herramientas de diagnóstico para el trastorno del espectro autista en los niños en edad preescolar?

Pregunta de la revisión

¿Cómo de exactas son las herramientas para el diagnóstico del trastorno del espectro autista (TEA) en los niños en edad preescolar?

¿Por qué es importante el diagnóstico exacto del TEA?

No diagnosticar el TEA en los niños cuando está presente (resultado falso negativo), significa que los niños con TEA pueden dejar de recibir una intervención temprana y que las familias pueden dejar de recibir apoyo y educación oportunos. Un diagnóstico incorrecto de TEA (resultado falso positivo) puede causar estrés familiar, da lugar a que se realicen investigaciones y tratamientos innecesarios y supone una mayor carga en los recursos de servicios ya limitados.

¿Cuál es el objetivo de esta revisión?

Determinar cuáles de las herramientas utilizadas con más frecuencia son más exactas para diagnosticar el TEA en los niños en edad preescolar. Los investigadores de Cochrane revisaron 13 artículos publicados para responder a esta pregunta.

¿Qué se estudió en la revisión?

Se examinaron seis pruebas: Cuatro recogieron información acerca de los comportamientos de los niños a partir de entrevistas con los padres o los cuidadores (Autism Diagnostic Interview‐Revised [ADI‐R], Gilliam Autism Rating Scale [GARS], Diagnostic Interview for Social and Communication Disorder [DISCO] y Developmental, Dimensional, and Diagnostic Interview [3di]); una requirió que un profesional adiestrado observara el comportamiento de un niño en tareas específicas (Autism Diagnostic Observation Schedule [ADOS]); y una combinó la observación del niño con entrevista a los padres o los cuidadores (Childhood Autism Rating Scale [CARS]).

¿Cuáles son los principales resultados de la revisión?

La revisión incluyó 21 grupos relevantes de análisis realizados en un total de 2900 niños. Los resultados estuvieron disponibles solo para tres herramientas: ADOS (Módulos 1 y 2), CARS e ADI‐R. Si los instrumentos se aplicaran a 1000 niños, de los cuales 740 presentaban TEA, entonces 696, 592 y 385 niños serían identificados correctamente por ADOS, CARS y ADI‐R, respectivamente, mientras que 52, 31 y 42 niños sin TEA se clasificarían incorrectamente con TEA. De 260 niños sin TEA, 208, 229 y 218 serían clasificados correctamente por ADOS, CARS y ADI‐R, respectivamente, mientras que 44, 148 y 355 niños con TEA se clasificarían incorrectamente como que no presentan TEA.

Ver Figura 1.

Una publicación analizó el uso de ADI‐R junto con ADOS y encontró que el uso de ambas herramientas juntas no fue más exacto que el uso de ADOS solo.

¿En qué medida son fiables los resultados de los análisis en esta revisión?

El uso de diversos enfoques clínicos con la mejor estimación dio lugar al diagnóstico en los niños. Este método se utiliza habitualmente en la investigación, pero no siempre repite la evaluación multidisciplinaria recomendada para el diagnóstico clínico.

Los problemas con la realización de algunos estudios y la presencia de conflictos de intereses en algunas publicaciones pueden dar lugar a que ADOS, CARS e ADI‐R parezcan más exactas de lo que realmente son. Además, si estas herramientas se utilizan en poblaciones con una prevalencia inferior de TEA, es más probable que una proporción mayor de niños que no presentan TEA reciba un diagnóstico de TEA.

Los números mostrados anteriormente representan los valores promedio entre los análisis. Sin embargo, como las estimaciones individuales variaron, no es posible tener la seguridad de que ADOS siempre producirá estos resultados. El número de niños incluidos en los estudios realizados hasta la fecha, incluidos los estudios que comparan la exactitud de diferentes herramientas, no son suficientes para tener confianza en estos resultados.

¿Para quiénes son relevantes los resultados de esta revisión?

Los estudios incluidos se realizaron en Australia, Canadá, India, los Países Bajos, el Reino Unido y los Estados Unidos. Los estudios incluyeron niños menores de seis años de edad o niños con una edad promedio menor de seis años con dificultades en el habla, retraso en el desarrollo, discapacidad intelectual o un problema de salud mental, atendidos en un servicio clínico o incorporados a un estudio de investigación.

¿Cuáles son las implicaciones de esta revisión?

Los resultados actuales indican que ADOS es mejor para no pasar por alto a los niños que presentan TEA y es similar a CARS e ADI‐R en no diagnosticar falsamente TEA en un niño que no lo presenta. ADOS tiene una exactitud aceptable en poblaciones con una alta prevalencia de TEA. Sin embargo, si la herramienta se utiliza en poblaciones con una prevalencia inferior de TEA es probable el sobrediagnóstico. Este resultado apoya la práctica actual recomendada para las herramientas de diagnóstico de TEA de utilizarlas como parte de una evaluación multidisciplinaria, en lugar de como instrumentos de diagnóstico independientes.

¿Cuál es el grado de actualización de esta revisión?

Esta revisión fue actualizada hasta julio de 2016.

Conclusiones de los autores

disponible en

Implicaciones para la práctica

Es importante que una prueba de diagnóstico para el TEA tenga sensibilidad y especificidad alta. Una prueba de diagnóstico con sensibilidad alta y especificidad baja daría lugar a sobrediagnóstico y, por consiguiente, supone una mayor carga en los recursos de servicios ya limitados. Por el contrario, una prueba de diagnóstico con sensibilidad baja y especificidad alta podría dar lugar a que se desaprovechen oportunidades para la intervención en un período crucial.

De los datos actuales, entre las tres pruebas con datos disponibles de la exactitud de la prueba de diagnóstico, ADOS tiene la sensibilidad resumida más alta y una especificidad similar a CARS e ADI‐R. Sin embargo, hay advertencias importantes que se deben tener en cuenta en la interpretación de todos estos resultados, con pocos estudios de alta calidad informados y la mayoría de los estudios con aplicabilidad incompleta o incierta para el uso clínico habitual. También es importante ser conscientes de que el rendimiento de la prueba de diagnóstico ADOS es aceptable en poblaciones de prevalencia alta; sin embargo, si la prueba se utiliza en ámbitos de prevalencia baja o en ámbitos donde los niños tienen una discapacidad intelectual asociada, existe el riesgo de sobrediagnóstico. No se sabe si la combinación de las pruebas aumenta la exactitud de la prueba de diagnóstico, porque solo se encontró un estudio que investigó este aspecto y los resultados no fueron concluyentes.

Cada una de las pruebas examinadas recomienda que no se utilice de forma independiente para hacer un diagnóstico de TEA. Los requisitos de exactitud de la prueba de diagnóstico para las pruebas que se utilizarán como parte de una evaluación de equipos multidisciplinarios serán menos que los requisitos para las que se utilizarán de forma independiente, ya que la actividad de evaluación de los equipos multidisciplinarios permitirá mejorar la sensibilidad y la especificidad, aunque, hasta donde se sabe, no se ha informado hasta la fecha. La práctica adecuada aceptada para este grupo en edad preescolar es utilizar una combinación de la evaluación multidisciplinaria (incluido un pediatra, un foniatra y un psicólogo, con otras disciplinas incluidas según las capacidades y las necesidades identificadas) y los criterios de DSM‐5 o CIE 10 para hacer un diagnóstico y para incluir información de la evaluación clínica y del cuidado de niños o los ámbitos educativos, así como de los resultados de los instrumentos estandarizados especialmente para el desarrollo o la capacidad intelectual(AACAP 2014; NICE 2011). Los resultados de esta revisión apoyan la práctica de diagnóstico clínico actualmente recomendada, en la que el agregado de una prueba de diagnóstico es optativo, pero que podría agregar valor debido a su uso en un ámbito donde es probable que haya una alta prevalencia de TEA.

Implicaciones para la investigación

Algunos estudios incluidos en esta revisión tuvieron alto riesgo de sesgo, su aplicación en la atención clínica fue poco clara y no informaron los resultados de una manera que coincida con la mejor práctica para los estudios de exactitud de la prueba de diagnóstico. Todos los estudios futuros deben intentar disminuir el riesgo de sesgo, maximizar la aplicación a la atención clínica y proporcionar datos de una manera que sea fácilmente interpretable. En particular, se debe prestar atención al estándar de referencia, para que sea consistente con las recomendaciones de la mejor práctica actual.

Se necesitan estudios en poblaciones que generalmente son examinadas por médicos que diagnostican a TEA (p.ej. pacientes consecutivos en los que se sospecha TEA, con una mezcla de afecciones concomitantes que podrían imitar al TEA), para que la exactitud de la prueba de diagnóstico y su utilidad clínica se puedan evaluar de manera simultánea. En particular, se deben incluir niños con discapacidad intelectual. Las nuevas versiones de las pruebas se deben evaluar contra los sistemas de clasificación diagnóstica actuales que se aplican mediante la mejor práctica clínica.

También se indica que los estudios futuros deben trabajar hacia protocolos de exactitud de la prueba de diagnóstico que reflejen el enfoque por etapas para el diagnóstico de TEA que se utiliza en la clínica y, si se combinan las pruebas, informar la secuencia de administración.

Se necesitan estudios de investigación si se desea comprender mejor la utilidad, incluido el valor agregado, de la exactitud diagnóstica y la identificación de las necesidades específicas que ayudarán a las intervenciones futuras y a la planificación de las pruebas de diagnóstico del autismo, entre otros aspectos de la evaluación multidisciplinaria.

Summary of findings

Open in table viewer
Summary of findings Diagnostic accuracy of Autism Diagnostic Observation Schedule (ADOS), Childhood Autism Rating Scale (CARS), and Autism Diagnosis Interview ‐ Revised (ADI‐R) for diagnosing autism spectrum disorder in preschool children

Should ADOS, CARS, or ADI‐R be used to diagnose ASD in children younger than 6 years of age?

Participants: children younger than 6 years of age

Settings: Included studies involved children from the following range of settings: hospitals and university‐based clinics screening for early diagnosis of ASD; hospital‐based developmental evaluation clinics; research studies; university‐based child psychiatry centres (median prevalence of ASD across all studies: 74%)

Reference standards: Assessments were administered by 1 or more professionals trained in tool administration. Best‐estimate clinical diagnosis was made after review of all assessment results by 1 or more professionals experienced in the diagnosis of ASD

Study designs: cross‐sectional or case‐control studies

Test

Number of studies (number of participants)

Risk of bias (number of studies)

Combined sensitivity (95% CI)

Range of sensitivities

Combined specificity (95% CI)

Range of specificities

Number of true‐positives per 1000 tested (95% CI)

Number of false‐positives per 1000 tested (95% CI)

Number of true‐negatives per 1000 tested (95% CI)

Number of false‐negatives per 1000 tested (95% CI)

Interpretation in 1000 children tested with a pre‐test probability of ASD of 74%

ADOS

12 (1625)

Low (0)

High (8)

Unclear (4)

0.94 (0.89 to 0.97)

Range = 0.76 to 0.98

0.80 (0.68 to 0.88)

Range = 0.20 to 1.00

696 (659 to 718)

52 (31 to 83)

208 (177 to 229)

44 (22 to 88)

The diagnosis will be missed in 44 children with ASD, and 52 children without ASD will be incorrectly classified as having ASD. See Figure 1

CARS

4 (641)

Low (1)

High (2)

Unclear (1)

0.80 (0.61 to 0.91)

Range = 0.66 to 0.89

0.88 (0.64 to 0.96)

Range = 0.21 to 1.00

592 (451 to 673)

31 (10 to 94)

229 (166 to 250)

148 (67 to 289)

The diagnosis will be missed in 148 children with ASD, and 31 children without ASD will be incorrectly classified as having ASD

ADI‐R

5 (634)

High (4)

Unclear (1)

0.52 (0.32 to 0.71)

Range = 0.19 to 0.75

0.84 (0.61 to 0.95)

Range = 0.63 to 1.00

385 (237 to 525)

42 (13 to 101)

218 (159 to 247)

355 (215 to 503)

The diagnosis will be missed in 355 children with ASD, and 42 children without ASD will be incorrectly classified as having ASD

ADI‐R: Autism Diagnostic Interview ‐ Revised; ADOS: Autism Diagnostic Observation Schedule; ASD: autism spectrum disorder; CARS: Childhood Autism Rating Scale; CI: confidence interval.


Clinical pathway.

Clinical pathway.

Antecedentes

disponible en

El autismo es una afección diagnosticada en el área conductual. Para este diagnóstico, se deben cumplir los criterios de los sistemas de clasificación actualmente aceptados. La evaluación diagnóstica recomendada incluye la evaluación del comportamiento social, el lenguaje y comunicación no verbal, el comportamiento adaptativo, los comportamientos atípicos y el estado cognitivo por un equipo multidisciplinario con experiencia (Akshoomoff 2006). Con respecto a la información diagnóstica específica, se recomienda que el proceso de diagnóstico debe incluir información de los padres/cuidadores y la observación y la interacción de los niños, junto con el uso del criterio clínico (Missouri Autism Guidelines Initiative 2010; SIGN 2007; Zwaigenbaum 2009), lo que permite la exclusión de otros diagnósticos que se podrían presentar de una manera similar. Los criterios diagnóstico actuales en el Diagnostic and Statistical Manual of Mental Disorders ‐ Fifth Edition (DSM‐5) también requieren la consistencia de los comportamientos atípicos en más de un ámbito (APA 2013).

Enfermedad de interés diagnosticada

El trastorno del espectro autista (TEA) se convirtió en una clasificación diagnóstica oficial con el lanzamiento del DSM‐5 en 2013 (APA 2013). Aunque el término "TEA" fue de uso habitual hace más de diez años, antes de la publicación del DSM‐5 las clasificaciones diagnósticas separadas de "autismo de la niñez" o "trastorno autístico", "trastorno generalizado del desarrollo no especificado de otra manera" (PDD‐NOS, por sus siglas en inglés), "otros trastornos generalizados del desarrollo", "trastorno generalizado del desarrollo, no especificado", "Síndrome de Asperger" o "Trastorno de Asperger" y "autismo atípico" eran los posibles diagnósticos oficiales definidos en el DSM ‐ Fourth Edition (DSM‐IV; APA 1994), DSM‐IV ‐ Text Revision (DSM‐IV‐TR; APA 2000) y la International Classification of Diseases and Related Health Problems ‐ Tenth Revision (ICD‐10; WHO 2007). En estos diagnósticos, la deficiencia se ha considerado para tres dominios centrales ‐ (1) comunicación, (2) interacción social y (3) presencia de comportamientos y de intereses restringidos y repetitivos ‐ en lugar de los dos actualmente utilizados en el DSM‐5: (1) comunicación social y (2) comportamientos e intereses restringidos y repetitivos. El uso inconsistente de los términos de clasificación diagnóstica relacionados con el TEA ha causado confusión en la atención clínica y el acceso a los servicios, y ha complicado la realización de estudios de investigación y la aplicación de los hallazgos de investigación.

Las estimaciones de la incidencia del TEA varían(Atladottir 2015; Elsabbagh 2012; Williams 2013). En Estados Unidos, la prevalencia del TEA se informa como uno en 68 niños (CDP 2016). Los hombres se ven afectados aproximadamente con una frecuencia cuatro veces mayor que las mujeres (Fombonne 2009; Watkins 2014). Los problemas se presentan generalmente en la primera infancia y continúan a lo largo de la vida. Los estudios de seguimiento han encontrado que solo del 3% al 27% de los pacientes con TEA pueden vivir de forma independiente como adultos, con variaciones en diferentes grupos diagnósticos dentro del espectro autista (Cederlund 2008; Howlin 2004). Según aumenta la prevalencia del TEA, los servicios reciben mayores derivaciones para decidir si el TEA es el diagnóstico apropiado. Un estudio reciente de una clínica regional de diagnóstico del TEA en Estados Unidos informó que al 39% de los niños derivados para evaluaciones diagnósticas de TEA no se les hizo un diagnóstico de TEA después de la evaluación (Monteiro 2015). Este hecho señala la necesidad de métodos de evaluación exactos y apropiados, para que los recursos limitados para la evaluación del desarrollo nervioso integral se utilicen de forma más apropiada.

La evaluación del estándar de referencia (también conocido como gold standard) para el diagnóstico incluye a múltiples profesionales y mecanismos de evaluación, consume tiempo y requiere criterio clínico. La experiencia clínica indica que no habría acuerdo completo entre los equipos y que el acuerdo sería más alto para los diagnósticos de trastorno autístico o autismo de la niñez y más bajo para los diagnósticos de autismo atípico y PDD‐NOS. No se han encontrado estudios publicados que compararan evaluaciones del estándar de referencia realizadas por diferentes equipos multidisciplinarios. Evidencia reciente indica que hay poco acuerdo entre los diagnósticos de los médicos individuales y los equipos transdisciplinarios (Stewart 2014), con un subdiagnóstico y sobrediagnóstico del TEA. No obstante, la evaluación de los equipos multidisciplinarios se acepta como la práctica adecuada para el diagnóstico de todas las discapacidades del desarrollo; por lo tanto, estos servicios se prestan en muchos países (Academy of Medicine Singapore 2010; Filipek 2000; Ministry of Health New Zealand 2008; SIGN 2007).

El diagnóstico preciso es un primer paso crucial para decidir qué evaluaciones o investigaciones médicas adicionales se necesitan (NICE 2011; Volkmar 2014), qué intervenciones es probable que se necesiten y que sean efectivas (AHRQ 2011; NICE 2013) y qué servicios se pueden necesitar en los años venideros. También es un primer paso crucial para que los padres comprendan más a su hijo y lo que les espera y para permitirles tomar decisiones y hacer planes para el futuro (Filipek 1999).

Prueba/s índice

Para el diagnóstico del TEA se utilizan diversas pruebas en ámbitos clínicos y de investigación. Algunas dependen del informe de los padres o los cuidadores y otras utilizan la observación y la entrevista. Muchas de estas pruebas se utilizan para estandarizar aspectos de la historia clínica y del examen físico; otras se utilizan para reducir la duración de las entrevistas diagnósticas y para reducir los costes, especialmente en los estudios de investigación. La mayoría incluyen escalas y subescalas aditivas y dependen de puntos de corte diagnósticos, que se han basado en sistemas de clasificación en uso en el momento de su desarrollo. Debido a las tasas variables de los avances en el desarrollo en los niños desde el nacimiento hasta los tres años edad en comparación con los niños de tres a seis años de edad, la utilidad de estas diversas pruebas de diagnóstico es probable que cambien con los diferentes niveles de capacidad, así como con la edad cronológica (Matson 2008).

Los autores de esta revisión evaluaron las seis pruebas de diagnóstico recomendadas en las guías nacionales, publicadas desde 1995 hasta el momento en que comenzó esta revisión (Tabla 1). Desde la publicación del protocolo para esta revisión (Samtani 2011), se han desarrollado y publicado versiones revisadas de cuatro de estas prueba (Autism Diagnostic Observation Schedule [ADOS], Childhood Autism Rating Scale [CARS], Diagnostic Interview for Social and Communication Disorders [DISCO] y Gilliam Autism Rating Scale [GARS]) y se incluyeron en esta revisión si se utilizaron en los análisis elegibles.

Pruebas de entrevista a padres o cuidadores

La Autism Diagnostic Interview™ Revised (ADI‐R) proporciona un algoritmo diagnóstico del TEA que es consistente con DSM‐IV (APA 1994) y ICD‐10 (WHO 2007). Dos estudios recientes examinaron los criterios DSM‐5 mediante los ítems de la ADI‐R (Huerta 2012; Mazefsky 2013). La ADI‐R es una entrevista estandarizada y semiestructurada en la que los padres o los cuidadores proporcionan información acerca de un individuo que es posible que presente TEA. Evalúa el comportamiento a través de tres dominios: (1) interacción social recíproca; (2) comunicación y lenguaje; e (3) intereses y comportamientos restringidos, repetitivos y estereotipados. Para que un individuo reciba un diagnóstico de TEA, las puntuaciones en los tres dominios se deben elevar más allá de los niveles límites establecidos. Esta entrevista es apropiada para adultos y niños con una edad mental de 18 meses y más, y demora dos horas o más administrarla y calificarla(Lord 1994a; Mazefsky 2006a; Rutter 2003).

La décima revisión de la DISCO (DISCO‐10) es una entrevista detallada, semiestructurada, que se debe utilizar con alguien que conozca bien a la persona que se evalúa, preferiblemente desde la infancia. Utiliza un enfoque dimensional para facilitar la comprensión de los modelos de comportamiento que se han desarrollado con el tiempo. Demora tres horas administrarla (Wing 2002). La DISCO‐11 ya está disponible (Wing 2006).

La Developmental, Dimensional, and Diagnostic Interview (3di) es una entrevista computarizada a los padres que mide la intensidad de los síntomas y las comorbilidades a través del espectro autista. Demora dos horas administrarla Skuse 2004a).

El GARS es un cuestionario para los padres o los profesores basado en el DSM‐IV (APA 1994); se centra en cuatro áreas temáticas: (1) comportamientos estereotipados; (2) comunicación; (3) interacción social; y (4) trastornos del desarrollo. El GARS es una prueba efectiva para distinguir los pacientes con TEA de los pacientes con trastornos conductuales (Gilliam 1995; Mazefsky 2006a). Este cuestionario consiste en 56 ítems que están divididos entre las cuatro escalas: (1) interacción social; (2) comunicación; (3) comportamientos estereotipados; y (4) trastornos del desarrollo. En 2005, se publicó el GARS‐2(Gilliam 2006); este cuestionario contiene 42 ítems agrupados en tres subescalas y se utiliza en pacientes de tres a 22 años de edad. Demora cinco a diez minutos administrarlo. El GARS‐3 se publicó en 2013(Gilliam 2013). Contiene 56 ítems basados en los criterios DSM‐5(APA 2013); El GARS‐3 es apropiado para el mismo grupo etario y tarda el mismo período de tiempo en administrarlo.

Combinación de entrevista y observaciones de la actividad no estructurada

La CARS es una prueba más antigua (su uso comenzó en 1966) que evalúa a los niños en una escala de 1 al 4 a través de 15 criterios, para producir una puntuación compuesta que se utiliza para asignar un diagnóstico de sin autismo, autismo leve, autismo moderado o autismo grave (Schopler 1986). En 2010 se publicó CARS‐2 (Schopler 2010), después de la revisión de la prueba original. Se ha informado que CARS‐2 es útil para distinguir los niños con TEA y los niños con otros déficits cognitivos y para distinguir entre el autismo leve a moderado y el autismo grave. Se puede completar por médicos, padres o profesores y se utiliza a menudo en los estudios de investigación. Demora cerca de 20 a 30 minutos en administrarla (New York State Department of Health 2005; Schopler 1980).

Evaluación observacional semiestructurada

El ADOS™‐Generic (ADOS‐G; Lord 2000a), también conocido como ADOS, es una evaluación semiestructurada de la comunicación, la interacción social y el juego. Se puede utilizar para evaluar a los niños o adultos con un lenguaje limitado o ningún lenguaje, así como los que hablan con soltura. Consiste en cuatro módulos que se administran según la capacidad verbal del niño o el adulto. Cada módulo contiene actividades estándar que permiten al examinador observar los comportamientos consistentes con un diagnóstico de TEA u otros trastornos generalizados del desarrollo. La revisión de la prueba dio lugar a la publicación del ADOS‐2 en 2012 (Lord 2012a). El ADOS‐2 contiene protocolos actualizados; algoritmos revisados para los Módulos 1, 2, y 3; y un quinto módulo para los niños pequeños de 12 a 30 meses de vida que todavía no utilizan el lenguaje hablado. El quinto módulo se llamó ADOS‐T (para niños pequeños) durante su desarrollo, pero no está disponible como una prueba por separado. En ambas versiones de la prueba, se proporcionan las puntuaciones de puntos de corte para los trastornos a través del espectro autista, que incluyen el autismo clásico y el TEA. Generalmente se administra un módulo por evaluación, pero se pueden administrar más si el niño o el adulto muestran capacidades inesperadas que requieren evaluación adicional (Lord 1999). Dos estudios recientes examinaron los criterios DSM‐5 mediante los ítems de ADOS (Huerta 2012; Mazefsky 2013).

Vía clínica

En la práctica diagnóstica, la evaluación se puede realizar en ámbitos primarios o terciarios y es realizada por los equipos multidisciplinarios que incluyen combinaciones variables de profesionales de la salud como pediatras, psicólogos, foniatras y psiquiatras. El equipo multidisciplinario hace una historia integral y luego realiza pruebas estandarizadas del desarrollo o cognitivas, evaluaciones conductuales, evaluaciones del habla y del lenguaje y observación en ámbitos clínicos y cotidianos (p.ej. guardería, domicilio, escuela). Para la historia clínica o las observaciones (o ambas) de los niños en este proceso de diagnóstico, la práctica adecuada es utilizar una o más pruebas estandarizadas para el diagnóstico del autismo. Los resultados de estas pruebas se combinan con información de otras fuentes, junto con el criterio clínico para desarrollar un diagnóstico general basado en el sistema de clasificación diagnóstica actual para el autismo.

Prueba/s previa/s

Los niños sometidos a una prueba de diagnóstico de autismo a menudo han completado una prueba de vigilancia del desarrollo o de cribado del autismo, o ambas, según se describe en Prueba/s alternativa/s. También pueden haber completado una evaluación estandarizada del desarrollo o de la cognición, evaluaciones conductuales y evaluaciones del habla y el lenguaje, según se describe en la Vía clínica.

Función de la/s prueba/s índice

En la atención clínica, las pruebas índice generalmente se utilizan como un complemento al diagnóstico, según se describe en la Vía clínica. En investigación, las pruebas índice a menudo se utilizan de forma independiente o en combinación para confirmar un diagnóstico de una muestra clínicamente reclutada o reclutada de la población.

Prueba/s alternativa/s

No se evaluaron las pruebas utilizadas para someter a cribado a poblaciones para el TEA ni las pruebas de vigilancia de la salud infantil utilizadas para evaluar a poblaciones clínicas, pero no para proporcionar un diagnóstico (SIGN 2007).

El síndrome de Asperger (o el trastorno de Asperger) no es un diagnóstico común en el grupo etario preescolar, de manera que no se incluyeron las pruebas de diagnóstico que se han desarrollado específicamente para diagnosticar este trastorno.

Fundamento

El diagnóstico preciso del TEA es importante. Los métodos actuales de diagnóstico requieren equipos multidisciplinarios y evaluaciones extensas. Se han desarrollado entrevistas estandarizadas a los padres o los cuidadores e instrumentos de observación; estos se utilizan en evaluaciones clínicas y en ámbitos de investigación. En la vía clínica, estas pruebas se pueden utilizar de forma independiente o en conjunto con otras pruebas como parte de una evaluación de equipos multidisciplinarios, según la ubicación geográfica y los servicios disponibles.

Los médicos necesitan saber cuál de estas pruebas tiene la mayor exactitud diagnóstica y si las pruebas se pueden utilizar por sí solas para diagnosticar el autismo, o solo como parte de una evaluación de equipos multidisciplinarios. No se sabe si estas pruebas se deben utilizar en combinación en la evaluación para mejorar la exactitud diagnóstica.

Para que una prueba se pueda utilizar de forma independiente, necesitaría obtener buenos resultados con respecto a la sensibilidad y a la especificidad, porque un resultado falso positivo tiene implicaciones en cuanto a la clasificación, la selección de las intervenciones correctas, así como las implicaciones de recursos de esas intervenciones, y un resultado falso negativo puede provocar que se desaproveche la oportunidad para una intervención oportuna y para el ajuste y la planificación familiar y, como tal, también tiene implicaciones en el servicio. Los falsos negativos son motivo de mayor preocupación si el resultado de una prueba inhibe el acceso futuro a los servicios; son de menor preocupación si está disponible la revisión y el seguimiento en el caso de que el un niño siga presentando problemas que sean de interés para los padres y los cuidadores u otros profesionales de la educación, la salud y comunitarios.

Los instrumentos que actualmente se recomiendan como pruebas de diagnóstico para el TEA emplean diferentes enfoques de evaluación (entrevista versus observación versus métodos mixtos); por lo tanto, es posible que estas evaluaciones, cuando se combinan o se realizan en serie, puedan ofrecer oportunidades para mejorar la exactitud de la prueba de diagnóstico o mejorar la eficiencia. La evaluación de si hay secuencias potencialmente apropiadas para realizar las pruebas podría ahorrar tiempo para las familias y los servicios y se podrían invertir menos recursos.

Se requiere una revisión sistemática de las pruebas de diagnóstico disponibles para determinar qué prueba es más exacta y si las combinaciones de las pruebas son apropiadas para el diagnóstico clínico del TEA.

Objetivos

disponible en

Objetivos primarios

  1. Identificar qué herramientas de diagnóstico, incluyendo las versiones actualizadas, diagnostican con más exactitud el TEA en los niños en edad preescolar en comparación con el criterio clínico de equipos multidisciplinarios.

  2. Identificar cómo la mejor de las herramientas para entrevista se compara con CARS, y luego cómo CARS se compara con ADOS.

    1. ¿Qué herramienta de diagnóstico para el TEA (entre ADOS, ADI‐R, CARS, DISCO, GARS y 3di) tiene mejor exactitud de prueba de diagnóstico?

    2. ¿La exactitud diagnóstica de cualquiera de las pruebas es suficiente para que esa prueba sea apropiada como una herramienta exclusiva de evaluación en niños en edad preescolar?

    3. ¿Existe alguna combinación de pruebas que, si se ofrece de forma sucesiva, proporcionaría una exactitud apropiada de la prueba de diagnóstico y mejoraría la eficiencia de la prueba?

    4. ¿Si los datos están disponibles, la combinación de una herramienta para entrevista con una prueba observacional estructurada tiene la mejor exactitud de prueba de diagnóstico (es decir, menos falsos positivos y menos falsos negativos) que cualquier prueba sola?

Como solamente se identificó una herramienta para entrevista, los tres primeros objetivos se modificaron a un objetivo único (Diferencias entre protocolo y revisión): Esta revisión evaluó las pruebas de diagnóstico en cuanto a la sensibilidad y la especificidad. La especificidad es el factor más importante para el diagnóstico; sin embargo, la sensibilidad y la especificidad son de interés en esta revisión porque hay un equilibrio inherente entre estos dos factores.

Objetivos secundarios

  1. Determinar si alguna prueba de diagnóstico tiene la mayor exactitud de prueba de diagnóstico para subgrupos específicos por edad, dentro del rango de edad preescolar.

Métodos

disponible en

Criterios de inclusión de estudios para esta revisión

Tipos de estudios

Los estudios elegibles fueron:

  1. estudios de cohortes o estudios transversales;

  2. estudios aleatorios de exactitud de la prueba: los participantes se han asignado a diferentes pruebas índice y todos los participantes han sido comprobados por el mismo valor de referencia (gold standard); y

  3. estudios de casos y controles: los participantes se habían seleccionado independientemente del resultado (es decir, una muestra de pacientes con TEA [p.ej. seleccionados de una cohorte existente] y una muestra de niños sin TEA de una fuente diferente).

Participantes

Los participantes fueron niños con sospecha de presentar TEA que han sido atendido de manera prospectiva debido a preocupaciones por problemas sociales, de comunicación o conductuales del tipo observado en el autismo. La edad se limitó a los años preescolares; sin embargo, si las cohortes de estudio incluían a niños más de seis años de edad, se incluyeron análisis si la edad promedio de los participantes fuera menor de seis años. No se impusieron restricciones en cuanto al ámbito.

Pruebas índice

Se evaluaron las siguientes pruebas índice para el TEA.

  1. Entrevistas para padres o cuidadores: la Autism Diagnostic Interview‐Revised (ADI‐R); la Diagnostic Interview for Social and Communication Disorders (DISCO) ‐ Tenth Revision (DISCO‐10) ‐ o DISCO ‐ Eleventh Revision (DISCO‐11); la Gilliam Autism Rating Scale (GARS) ‐ Second Edition (GARS‐2) ‐ o Third Edition (GARS‐3); y la Developmental, Dimensional and Diagnostic Interview (3di).

  2. Combinación de entrevista y observaciones de la actividad no estructurada: la Childhood Autism Rating Scale (CARS) o CARS ‐ Second Edition (CARS‐2).

  3. Evaluación observacional semiestructurada: el Autism Diagnostic Observation Schedule (ADOS), ADOS‐Generic (ADOS‐G), o ADOS ‐ Second Edition (ADOS‐2).

Enfermedades de interés

La afección de interés fue el TEA en los niños en edad preescolar. El TEA se puede diagnosticar según DSM‐5 (APA 2013). Los subgrupos de diagnóstico del autismo (autismo de la niñez [ICD‐10] o trastorno autístico [DSM‐IV]); el trastorno del desarrollo generalizado (autismo atípico [ICD‐10], el trastorno del desarrollo generalizado, no especificado [ICD‐10] o el trastorno generalizado del desarrollo no especificado de otra manera [PDD‐NOS] [DSM‐IV]); y el síndrome de Asperger o trastorno de Asperger se agruparon juntos como TEA (APA 1994; APA 2000; WHO 2007).

Estándares de referencia

El estándar de referencia fue un diagnóstico clínico de TEA, como se definió anteriormente, sobre la base de un sistema de clasificación que se aceptó en el momento de la revisión (DSM ‐ Third Edition [DSM‐III; APA 1980]; DSM‐III Revised [DSM‐III‐R; APA 1987]; DSM‐IV [APA 1994]; DSM‐IV‐TR [APA 2000]; DSM‐5 [APA 2013]; ICD‐9 [WHO 1992]; o ICD‐10 [WHO 2007]) y como se asignó por un equipo multidisciplinario con experiencia. La evaluación por el equipo multidisciplinario incluyó la evaluación del comportamiento social, el lenguaje y la comunicación no verbal, el comportamiento adaptativo, el comportamiento atípico y el estado cognitivo o la función intelectual. Esta evaluación se basó en la información de la evaluación clínica, de los profesionales de la salud involucrados en la atención del niño y de los que cuidaban al niño en el ámbito comunitario, como ámbitos de atención preescolar o guarderías.

Se sabe que el diagnóstico de un TEA específico varía con el transcurso del tiempo; por lo tanto, la evaluación del estándar de referencia y de la prueba índice se deben haber realizado en el transcurso de seis meses entre sí.

Métodos de búsqueda para la identificación de los estudios

We developed a sensitive search strategy that combined just two concepts: population (see Participants) and the index tests that are the focus of this Review (see Index tests). We used free‐text search terms for each named test, including its abbreviated form, and, when possible, indexing terms to describe the type of assessment (e.g. interview, observation). We began the searches in February 2011; these were followed by three sets of top‐up searches in March 2012, May 2013, and, most recently, July 2016.

Búsquedas electrónicas

We searched the following databases.

  1. Cochrane Central Register of Controlled Trials (CENTRAL; 2016, Issue 6) in the Cochrane Library, which includes the Cochrane Developmental, Psychosocial and Learning Problems Specialised Register (searched 20 July 2016).

  2. MEDLINE Ovid (1948 to July week 1 2016).

  3. Embase Ovid (1980 to 2016 week 29).

  4. PsycINFO Ovid (1887 to July week 2 2016).

  5. CINAHL Plus EBSCOhost (Cumulative Index to Nursing and Allied Health Literature; 1937 to 20 July 2016).

  6. Science Citation Index and Social Sciences Citation Index Web of Science (SCI and SSCI; 1970 to 21 July 2016).

  7. Conference Proceedings Citation Index ‐ Science and Conference Proceedings Citation Index ‐ Social Science & Humanities Web of Science (CPCI‐S and CPCI‐SSH; 1990 to 21 July 2016).

  8. ASSIA (Applied Social Sciences Index & Abstracts; 1987 to 11 February 2011). ASSIA was no longer available to the Review team after 2011.

  9. Social Services Abstracts Proquest (1979 to 21 July 2016).

  10. ERIC EBSCOhost (Education Resources Information Center; 1966 to 21 July 2016).

  11. Database of Abstracts of Reviews of Effect (DARE; 2015, Issue 2), part of the Cochrane Library (searched 20 July 2016). DARE ceased publication after this issue.

  12. National Autistic Society – Library Catalogue (www.autism.org.uk/autismdata; searched 21 July 2016). Previously known as Autism Data.

We reported the search strategy used for each database in Appendix 1. We included the strategy for each platform when databases changed supplier during the writing of this Review.

Búsqueda de otros recursos

We searched the reference lists of all included publications.

Obtención y análisis de los datos

Selección de los estudios

Two pairs of review authors (AS & KS‐L or MR & NL & KE) independently assessed all publications for inclusion. We resolved disagreements by discussion or, when necessary, by consultation with a third review author (KW or SW). We made first selection by screening the titles and abstracts of identified publications. We made final decisions about inclusion by reading the full papers. We recorded our decision process in a PRISMA diagram (Moher 2009).

Extracción y manejo de los datos

Two pairs of review authors (AS & KS‐L or MR & NL) independently extracted data using standardised data extraction forms. We resolved disagreements by discussion and in consultation with a third review author (KW or SW). If data from publications were insufficient, we contacted study investigators for clarification.

We extracted the following data, which we used to complete the 'Characteristics of studies' tables and to conduct subgroup analyses.

  1. Characteristics of participants: age; intellectual function; diagnoses for inclusion; setting for recruitment.

  2. Index tests: types of tests; cutoffs for diagnostic categories.

  3. Reference standards: type; diagnostic categories used; adequacy of assessment, including disciplines represented by members of the multi‐disciplinary team, assessments completed, and sources of material used to inform the diagnostic assessment.

  4. Study type: cross‐sectional study; cohort study; randomised test accuracy study; case‐control study.

  5. Results: numbers of true‐positives, false‐positives, false‐negatives, and true negatives.

Evaluación de la calidad metodológica

Two independent review authors (AS & KS‐L and/or MR & NL) assessed methodological quality using the QUADAS‐2 instrument (Quality Assessment of Studies of Diagnostic Accuracy ‐ Revised) (Whiting 2011). QUADAS‐2 consists of items that assess risk of bias (e.g. blind assessment of index, reference test) and concerns about applicability (e.g. whether the index test is used in the same way as it would be in clinical situations). Further information is available from www.bris.ac.uk/quadas/quadas‐2. We developed criteria to aid assessment of key issues (Table 2). We resolved disagreements by discussion and, when necessary, in consultation with a third review author (KW or SW). We also gathered information about study authors' potential conflicts of interests.

Análisis estadístico y síntesis de los datos

The index tests assessed in this systematic review have different diagnostic outcome categories. To allow primary analyses, we considered all diagnoses relevant to the ASD category as ASD diagnoses and compared them with diagnoses that were not ASD.

We describe here expected diagnostic outcomes of the index tests.

  1. ADI‐R. Diagnostic categories are autistic disorder and Asperger syndrome, which we combined as ASD (Lord 1994a; Rutter 2003).

  2. ADOS. Diagnostic categories are autism and ASD, which we combined as ASD (Lord 1999; Lord 2000a; Lord 2012b). We found no studies using ADOS‐2. The appropriate ADOS module is selected for administration based on a child's expressive language skills and chronological age. Owing to the age group of interest, participants in this Review completed Module 1 (pre‐verbal/single words) or Module 2 (phrase speech). Thresholds for diagnosing autism and ASD showed minimal variation between the two modules.

  3. CARS. A score of 30 to 36 indicates mild autism, and a score of 37 or more indicates moderate or severe autism (Schopler 1980; Schopler 2010). A cutoff of < 30 is classified as not ASD, and scores ≥ 30 are classified as ASD (Schopler 1986). For the CARS‐2, different cutoffs apply for different ages and abilities. We found no studies using CARS‐2.

  4. DISCO‐10. The diagnostic categories based on DISCO‐10 algorithms that are relevant to the ICD‐10 classification system include childhood autism, atypical autism, and Asperger syndrome (Wing 2002; Wing 2006). In addition, there are diagnostic algorithms for "early infantile autism" according to Kanner 1957; "Asperger syndrome" based on the definition provided in Gillberg 1989; and "criteria for autistic spectrum disorder" according to Wing 1979. Any of these diagnostic categories would be classified as ASD. Other diagnostic categories, such as childhood disintegrative disorders and failure to fulfil ASD categories, would be classified as not ASD. We found no studies using DISCO‐11.

  5. 3di. Responses on the 3di are generally coded on a three‐point scale. This assessment includes 266 questions that are directly or indirectly concerned with disorders on the autism spectrum and 291 questions that relate to current mental states as relevant to other diagnoses (Skuse 2004a). For a diagnosis of ASD, cutoff scores must be achieved for the following five categories: (1) ≥ 10 for reciprocal social interaction skills; (2) ≥ 1 for social expressiveness; (3) ≥ 8 for use of language and other social communication skills; (4) ≥ 7 for use of gesture and non‐verbal play; and (5) ≥ 3 for repetitive and stereotyped behaviours.

  6. GARS. An overall autism quotient is established and then is broken down into seven ordinal categories ranging from a very low to a very high probability of autism. A diagnostic cutoff score ≥ 90 specifies that the child is probably autistic and will be classified as ASD (Gilliam 1995; Gilliam 2006; Gilliam 2013; South 2002). We found no studies using GARS‐2 or GARS‐3.

Test results were treated as positive or negative for the cutoff values of the index tests described above. When analyses were reported differently from required cutoff values, we generated sensitivity and specificity values for the cutoffs that were relevant to this Review, provided data were available. For example, in Risi 2006, for both eligible cohorts of children (i.e. children < 36 months (Risi 2006 Study 1 ADOS Cohort A) and children with mental retardation with mean age of 62.5 months (Risi 2006 Study 1 ADOS Cohort B)), study authors reported values for children classified with 'autism' versus children classified with 'non‐autism ASD'. We calculated revised values for the diagnostic groupings of 'autism and non‐autism ASD' versus 'non‐spectrum' as reported in Table 3 and included these in the meta‐analysis.

If analyses included participants who were not relevant to the objectives of this Review, such as children with typical development (TD), we calculated revised values for sensitivity and specificity values if data were available. For example, Cox 1999 included a small number of children with TD (n = 15) in reported sensitivity and specificity values for ADI‐R. We recalculated these values while excluding TD children as reported in Table 4.

We constructed forest plots showing pairs of sensitivity and specificity values with 95% confidence intervals (CIs) for each analysis with appropriate available data. We conducted meta‐analyses of pairs of sensitivity and specificity values using bivariate random‐effects methods (Reitsma 2005). This enabled calculation of summary estimates while accounting for variation within and between studies and any potential correlation between sensitivity and specificity. We used Stata software for these analyses (StataCorp 2007). For tests with a small number of studies, we pooled results by performing separate meta‐analyses for sensitivity and specificity using univariate random‐effects logistical regressions (Takwoingi 2017), which we performed in R (module glmer) (Bates 2015).

In our protocol, we described that we would have performed the aforementioned analyses for subgroups of tests with similar cutoff points had different cutoff values for tests been applied (Samtani 2011). However, we found that cutoff values were consistent for tests in all studies with the exception of one (Oosterling 2010b ADI‐R). See Differences between protocol and review.

Investigación de la heterogeneidad

Potential sources of heterogeneity include age of study participants; severity and type of diagnosis (autistic disorder or childhood autism vs PDD‐NOS); presence or absence of language delay; presence or absence of intellectual disability or developmental delay; diagnostic mix of population included; prospectively made versus existing diagnosis for study recruitment; study type; and duration between diagnosis and diagnostic test accuracy analyses being performed. Of these, the only source of heterogeneity that was available and was sufficiently different between studies to be explored was age of study participants for two tests: ADOS and CARS (see Differences between protocol and review).

Análisis de sensibilidad

We performed sensitivity analyses to assess the impact of risk of bias for all tests. We considered studies to have high risk of bias if they had one or more domains with high risk of bias. We also performed sensitivity analyses by including only studies with low risk of bias for the reference standard.

Results

Results of the search

We conducted our electronic literature searches in February 2011, April 2012, May 2013, and July 2016, which respectively yielded 17,393, 1513, 2146, and 5378 records once duplicates were removed. Following our initial review of titles and abstracts, we retrieved 53, 5, 21, and 3 full‐text papers from our respective searches, which we assessed for eligibility against our inclusion criteria (Criteria for considering studies for this review). Of these, we excluded 69 publications as irrelevant (43 from searches in 2011; 3 from 2012; 20 from 2013; and 3 from 2016), largely because articles did not report findings from studies that included the index tests of interest, were not DTA studies, included participants outside the age range of interest, or did not include the identified reference standard. We included a total of 13 publications in this Review (10 from searches in 2011; 2 from 2012; 1 from 2013; and 0 from 2016). See Figure 2.


Study flow diagram.

Study flow diagram.

We split the 13 included publications into included 'analyses' because a number of publications described more than one study, investigated more than one tool, or reported results for more than one participant cohort. In addition, during the 'Risk of bias' and applicability assessment and data extraction, it became apparent that not all included publications, or in some instances not all of the studies within the publications, reported results for tests in a format suitable for inclusion. Some used different cutoff criteria than those used clinically; others used tests that are not available for clinical use. Some studies moreover did not present data in a way that allowed extraction of data for identification of children with ASD, but rather only identified children with autistic disorder. Further information is available in the Excluded studies section below.

For the purposes of this Review, we focused on 21 sets of analyses reported in 13 publications that fulfilled all of the inclusion criteria (Criteria for considering studies for this review), and we presented findings that were clinically applicable (Chlebowski 2010; Corsello 2013; Cox 1999; Gray 2008 ADI‐R; Gray 2008 ADOS; Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; Le Couteur 2008 ADOS; Lord 2000; Mazefsky 2006 ADOS; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS; Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B; Russell 2010; Ventola 2006 ADI‐R; Ventola 2006 ADOS; Ventola 2006 CARS; Wiggins 2008 ADI‐R; Wiggins 2008 ADOS; Wiggins 2008 CARS); see Table 3, Table 4, and Table 5. Four analyses were presented in two publications, with each publication reporting two sets of diagnostic test accuracy data for clinically different cohorts: Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; Risi 2006 Study 1 ADOS Cohort A; and Risi 2006 Study 1 ADOS Cohort B. For clarity, we designated analyses by both publication information and the test being assessed if the publication included data for other tests, even if the other tests were not included in our results. For example, the Gray 2008 publication included data for both ADI‐R and ADOS, which are included in our results (Gray 2008 ADI‐R; Gray 2008 ADOS), whereas LeCouteur 2008 published data for both ADI‐R and ADOS, and only ADOS data are included in this Review (Le Couteur 2008 ADOS). For Oosterling 2010b ADOS, study authors published only sensitivity and specificity values, so we had to obtain directly from study authors raw data for inclusion in the meta‐analysis (Oosterling, I (2015)). For Risi 2006 Study 1 ADOS Cohort A and Risi 2006 Study 1 ADOS Cohort B, we used data reported in the paper to calculate values reported in this Review (i.e. by adding raw data for autism and PDD‐NOS cases); these are not the values reported in the paper. For CARS in Chlebowski 2010, we also calculated sensitivity and specificity values from raw data in the paper. For ADI‐R in Cox 1999, we calculated reported values with TD cases removed; these are not the values reported in the paper.

Open in table viewer
Table 5. Study results for Childhood Autism Rating Scale (cutoff < 30 not autism spectrum disorder)

Study

Number of participants

Mean age of group (age range)

Diagnostic groups (number of participants)

CARS cutoff values

Sensitivity (%)

(95% CI)

Specificity (%)

(95% CI)

PPV (%)

(95% CI)

NPV (%)

(95% CI)

+ LR

− LR

Chlebowski 2010

354

26 months (21 to 30 months)

ASD (236)

NS (118)

30

66 (0.59 to 0.72)

96 (0.90 to 0.99)

97 (0.93 to 0.99)

58 (0.51 to 0.65)

15.5

0.4

Russell 2010

100

61 months (range not reported)

ASD (86), included 1 child with Rett's syndrome

NS (14)

Severe/profound intellectual disability (72) and

Unspecified intellectual disability (21)

30

87 (0.78 to 0.93)

21 (0.05 to 0.51)

87 (0.78 to 0.93)

21 (0.05 to 0.51)

1.1

0.6

Ventola 2006 CARS

45

26 months (16 to 31 months)

ASD (36)

NS (9)

Not clearly stated but assume 30

89 (0.74 to 0.97)

100 (0.66 to 1.00)

100 (0.89 to 1.00)

69 (0.39 to 0.91)

 ‐

0.1

Wiggins 2008 CARS

142

26 months (16 to 37 months)

ASD (73)

NS (69)

Not clearly stated but assume 30

71 (0.59 to 0.81)

93 (0.84 to 0.98)

 91 (0.81 to 0.97)

75 (0.65 to 0.84)

9.8 

 0.3

ASD: autism spectrum disorder; CI: confidence interval; + LR: positive likelihood ratio;‐ LR: negative likelihood ratio; NPV: negative predictive value; NS: non‐spectrum;PPV: positive predictive value.

Of the included publications reporting results that compared the diagnostic test accuracy of two or more tests, only one assessed the accuracy of the combined use of tests, as well as the accuracy of each single test (Oosterling 2010b ADI‐R; Oosterling 2010b ADOS).

Included studies

Types of studies

This Review includes 21 sets of analyses reported in 13 publications. Fifteen analyses were reported from prospective cohort studies of children receiving clinical assessments for developmental concerns (Chlebowski 2010; Corsello 2013; Cox 1999; Gray 2008 ADI‐R; Gray 2008 ADOS; Le Couteur 2008 ADOS; Mazefsky 2006 ADOS; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS; Ventola 2006 ADI‐R; Ventola 2006 ADOS; Ventola 2006 CARS; Wiggins 2008 ADI‐R; Wiggins 2008 ADOS; Wiggins 2008 CARS); five were from studies involving secondary analyses of test scores collected from children participating in early diagnosis and intervention research projects (Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B; Russell 2010); one was a case‐control study that included children identified with autism, PDD‐NOS, and non‐spectrum disorders who were matched for verbal mental age (Lord 2000).

See Characteristics of included studies tables.

Locations of studies

Of the 21 included analyses, 12 were from studies carried out in the USA (Chlebowski 2010; Corsello 2013; Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; Lord 2000; Mazefsky 2006 ADOS; Ventola 2006 ADI‐R; Ventola 2006 ADOS; Ventola 2006 CARS; Wiggins 2008 ADI‐R; Wiggins 2008 ADOS; Wiggins 2008 CARS); two used combined sets of data collected from the USA and Canada (Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B); two apiece were from studies conducted in the Netherlands (Oosterling 2010b ADI‐R; Oosterling 2010b ADOS), the United Kingdom (Cox 1999; Le Couteur 2008 ADOS), and Australia (Gray 2008 ADI‐R; Gray 2008 ADOS); and one was conducted in India (Russell 2010).

Participants

Participants were children between 12 months and 8 years of age, although we included analyses only when the mean age of participants was less than 6 years. Overall, 2900 children were included in this Review, of whom 1625 were tested via ADOS, 641 by CARS, and 634 with ADI‐R. Studies usually involved children suspected of having an ASD. All but two analyses ‐ Chlebowski 2010 and Cox 1999 ‐ excluded TD children when calculating sensitivity and specificity values for the index test of interest. See further information below in the Methodological quality of included studies section titled 'Applicability concerns'.

In 19 included analyses, children were six years of age or younger (i.e. preschool age) (Chlebowski 2010; Corsello 2013; Cox 1999; Gray 2008 ADOS; Gray 2008 ADOS; Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; Le Couteur 2008 ADOS; Lord 2000; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS; Risi 2006 Study 1 ADOS Cohort A; Russell 2010; Ventola 2006 ADI‐R; Ventola 2006 ADOS; Ventola 2006 CARS; Wiggins 2008 ADI‐R; Wiggins 2008 ADOS; Wiggins 2008 CARS). Of the remaining analyses, one included children over six years of age but with a mean age less than six years (Mazefsky 2006 ADOS), and one comprised children with mental retardation older than six years but again the mean age of the cohort was less than six years (Risi 2006 Study 1 ADOS Cohort B).

In all 21 analyses, children presented with coexisting language or developmental delay, or a combination of both. In addition, in a total of nine analyses, some children presented with intellectual disability (Kim 2012b ADOS Cohort B; Lord 2000; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS; Risi 2006 Study 1 ADOS Cohort A; Russell 2010), or mental health problems, including attention deficit hyperactivity disorder, anxiety, or attachment disorders (Corsello 2013; Lord 2000; Mazefsky 2006 ADOS; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS; Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B).

Index test

ADOS was used in a total of 12 included analyses (Corsello 2013; Gray 2008 ADOS; Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; Le Couteur 2008 ADOS; Lord 2000; Mazefsky 2006 ADOS; Oosterling 2010b ADOS; Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B; Ventola 2006 ADOS; Wiggins 2008 ADOS); the ADI‐R in five included analyses (Cox 1999 (20 months and 42 months); Gray 2008 ADI‐R; Oosterling 2010b ADI‐R; Ventola 2006 ADI‐R; Wiggins 2008 ADI‐R); and the CARS in four included analyses (Chlebowski 2010 (two‐year‐old sample); Russell 2010; Ventola 2006 CARS; Wiggins 2008 CARS). There were no suitable studies or analyses for 3di, DISCO, or GARS.

CARS was reported alone in two included analyses (Chlebowski 2010 (both two‐year‐old and four‐year‐old samples); Russell 2010) but was reported alongside ADI‐R and ADOS in another two analyses (Ventola 2006 CARS; Wiggins 2008 CARS). ADOS was reported alone in two included analyses (Corsello 2013; Lord 2000) but with ADI‐R in another two analyses (Gray 2008 ADI‐R; Oosterling 2010b ADI‐R) and with CARS and ADI‐R as mentioned above in two included analyses (Ventola 2006 ADOS; Wiggins 2008 ADOS). ADI‐R was reported alone in one analysis (Cox 1999 (20 months and 42 months)), alongside ADOS in the two aforementioned analyses (Gray 2008 ADI‐R; Oosterling 2010b ADI‐R), and with ADOS and CARS in the two previously listed analyses (Ventola 2006 ADI‐R; Wiggins 2008 ADI‐R).

Target conditions

Twenty‐one diagnostic accuracy results were reported or could be calculated for the target condition of ASD (including subgroups of children with autism, Asperger syndrome, and PDD‐NOS) for one index test. One set of results were reported in each of the following 16 analyses: Chlebowski 2010 (two‐year‐old sample); Corsello 2013; Cox 1999; Gray 2008 ADI‐R; Gray 2008 ADOS; Le Couteur 2008 ADOS; Mazefsky 2006 ADOS; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS; Russell 2010; Ventola 2006 ADI‐R; Ventola 2006 ADOS; Ventola 2006 CARS; Wiggins 2008 ADI‐R; Wiggins 2008 ADOS; Wiggins 2008 CARS); results from two sets of analyses were reported in Kim 2012b for cohorts A and B (Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B) and in Risi 2006 for cohorts A and B (Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B). Lord 2000 reported separate analyses for Modules 1 and 2 of ADOS and undertook analyses on the combined data set (see Table 3).

Reference standards

Different assessments were used as the reference standard across the studies reviewed. Most studies reported using a best‐estimate clinical diagnosis as the reference standard assessment. One study, Corsello 2013, applied a records‐based method whereby clinicians reviewed children's records against DSM‐IV‐TR criteria to make a clinical diagnosis. For four included analyses (Chlebowski 2010; Wiggins 2008 ADI‐R; Wiggins 2008 ADOS; Wiggins 2008 CARS), study authors reported that a clinical diagnosis was made by one professional alone. For three included analyses (Ventola 2006 ADI‐R; Ventola 2006 ADOS; Ventola 2006 CARS), study authors did not specify the number or discipline of the professionals making the clinical diagnosis. Two or more clinicians or a multi‐disciplinary team assessment was used for diagnosis in publications reporting on procedures implemented for 11 of the included analyses (Cox 1999; Gray 2008 ADI‐R; Gray 2008 ADOS; Le Couteur 2008 ADOS; Lord 2000; Mazefsky 2006 ADOS; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS; Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B; Russell 2010); however, multi‐disciplinary teams ranged in composition from a psychologist and a psychiatrist to potentially containing any of the following professionals: psychologist, psychiatrist, paediatrician, consultant, speech pathologist, special educator, psychiatric nurse, or occupational therapist. Within the same study, the clinical diagnosis could also be made by a different combination and number of these professionals, and for two analyses ‐ Kim 2012b ADOS Cohort A and Kim 2012b ADOS Cohort B ‐ study authors reported that a clinical diagnosis was made by an experienced clinical researcher or a psychiatrist 'and/or' psychologist.

All studies reported using DSM‐III (APA 1980), DSM‐III‐R (APA 1987), DSM‐IV (APA 1994), DSM‐IV‐TR (APA 2000), and/or ICD‐10 (WHO 2007) criteria to make a best‐estimate clinical diagnosis. Assessment information and the number and/or combination of domains assessed and tests used varied between studies. Information possibly collected included formal evaluation or clinical observations of social behaviour, language and non‐verbal communication, adaptive behaviour, cognitive status/intellectual function, and/or atypical behaviours. In some instances, observations or results from psychiatric evaluations were included. Variation was also present in the range of assessment results included when a best‐estimate clinical judgement was made. For example, eight studies accounting for 15 of the included analyses reported including a range of standardised clinical assessment results in addition to information from interviews with families and video footage of child interactions and play (Gray 2008 ADI‐R; Gray 2008 ADOS; Le Couteur 2008 ADOS; Lord 2000; Mazefsky 2006 ADOS; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS; Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B; Ventola 2006 ADI‐R; Ventola 2006 ADOS; Ventola 2006 CARS; Wiggins 2008 ADI‐R; Wiggins 2008 CARS; Wiggins 2008 ADOS).

Flow and timing

For four analyses, study authors reported that the index test and the reference standard were administered within a six‐month time interval, as detailed in the study protocol (Cox 1999; Mazefsky 2006 ADOS; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS). Study authors for the remaining 17 analyses did not explicitly state the length of intervening time between assessment events but did report that assessments occurred at only one time point.

Conflicts of interest

For studies reporting on 13 of the included analyses, there was no direct conflict of interest evident (Chlebowski 2010; Corsello 2013; Cox 1999; Mazefsky 2006 ADOS; Oosterling 2010b ADI‐R; Oosterling 2010b ADOS; Russell 2010; Ventola 2006 ADI‐R; Ventola 2006 ADOS; Ventola 2006 CARS; Wiggins 2008 CARS; Wiggins 2008 ADI‐R; Wiggins 2008 ADOS). For two analyses ‐ Gray 2008 ADI‐R and Gray 2008 ADOS ‐ study authors are known to conduct training for ADI‐R, ADOS‐2, and ADOS‐G, which raises potential conflicts of interest.

In reporting of the remaining six analyses, we could not exclude conflicts of interest because study authors were the developers of the index tools being evaluated (Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; Le Couteur 2008 ADOS; Lord 2000; Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B). For analyses conducted by Risi 2006 (Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B) and for Kim 2012b (Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B), study authors reported conflicts of interest (see Appendix 3 for more information).

Excluded studies

We excluded 69 publications after full‐text review (see Figure 2). Reasons for exclusion were as follows: 22 publications did not report on diagnostic test accuracy; 28 did not involve children within the age range of interest (i.e. < six years of age); four did not present data for a diagnosis of ASD or equivalent and instead presented data for a diagnosis of autistic disorder (Lord 1993; Lord 1994; Perry 2005; Shin 1998); five presented data on test development with varying cutoffs or for tests that are not in clinical use (Gotham 2007; Gotham 2008; Guthrie 2013; Lord 2006; Luyster 2009); three for presenting data using cutoffs that vary from those recommended for clinical use (Kim 2012a; Kim 2013; Oosterling 2010a); three did not use the required reference standard (Lecavalier 2006; Moss 2008; Saemundsen 2003); one did not include children suspected of having an ASD (Soke 2011); one used only a shortened version of the index test of interest (the 3di) rather than the complete tool (Chuthapisith 2012); one was written in Chinese and we were unable to ascertain the age of the included children (Li 2005); and one reported sensitivity and specificity values for the social impairment scale of the CARS ‐ not for the full test (DiLalla 1994).

In addition, three publications already included in this Review (Le Couteur 2008 ADOS; Mazefsky 2006 ADOS; Risi 2006 Study 1 ADOS Cohort A and Risi 2006 Study 1 ADOS Cohort B), which also contained irrelevant analyses, were excluded (Le Couteur 2008 ADI‐R; Mazefsky 2006 ADI‐R; Mazefsky 2006 GARS; Risi 2006 study 1 ADI‐R; Risi 2006 study 2). One publication ‐ Risi 2006 study 2 ‐ did not involve children within the age range of interest (i.e. < six years of age); three did not present data for a diagnosis of ASD or equivalent and instead presented data for a diagnosis of autistic disorder (Mazefsky 2006 ADI‐R; Mazefsky 2006 GARS; Risi 2006 study 1 ADI‐R); and one presented data using cutoffs that vary from those recommended for clinical use (Le Couteur 2008 ADI‐R).

See Characteristics of excluded studies tables.

Methodological quality of included studies

Risk of bias

We assessed all studies accounting for the 21 analyses for risk of bias. We considered only one study reporting on one CARS analysis ‐ Russell 2010 ‐ to be at low risk of bias across all domains: patient selection, index test, reference standard, and flow and timing (see Figure 3). We judged a further study reporting on one ADOS analysis to be at low risk of bias for three domains (patient selection, index test, and reference standard) and at uncertain risk of bias for flow and timing (Corsello 2013).


Risk of bias and applicability concerns summary: review authors' judgements about each domain for each included study.

Risk of bias and applicability concerns summary: review authors' judgements about each domain for each included study.

Major concerns for risk of bias were known lack of blinding between the index text and the reference standard, both at the time of assessment using the index test and in development of the reference standard diagnosis. Only the two studies named above ‐ Corsello 2013 and Russell 2010 ‐ included a description of blinding for both the index test and the reference standard diagnosis.

For studies in which the index test was completed blinded to diagnosis, we considered two studies reporting analyses for ADOS to be at low risk of bias for index test assessment (Corsello 2013; Mazefsky 2006 ADOS). We judged risk of bias for the index test assessment as unknown for studies reporting on six ADOS analyses (Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; Le Couteur 2008 ADOS; Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B; Wiggins 2008 ADOS) but high for studies reporting on the remaining four ADOS analyses (Gray 2008 ADOS; Lord 2000; Oosterling 2010b ADOS; Ventola 2006 ADOS). For analyses reported on CARS, we rated one study ‐ Russell 2010 ‐ as having low risk of bias, another unknown risk of bias (Wiggins 2008 CARS), and two high risk of bias (Chlebowski 2010; Ventola 2006 CARS). For analyses reported on ADI‐R, we considered no studies to be at low risk of bias but judged four to be at high risk of bias (Cox 1999; Gray 2008 ADI‐R; Oosterling 2010b ADI‐R; Ventola 2006 ADI‐R) and one to be at unknown risk of bias (Wiggins 2008 ADI‐R).

We rated three studies reporting ADOS analyses as introducing low risk of bias for the manner in which the reference standard was conducted to reach a diagnosis (Corsello 2013; Gray 2008 ADOS; Lord 2000), seven unknown risk of bias (Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; Le Couteur 2008 ADOS; Oosterling 2010b ADOS; Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B; Wiggins 2008 ADOS), and two high risk of bias (Mazefsky 2006 ADOS; Ventola 2006 ADOS). For analyses reported on CARS, we judged one study as having low risk of bias (Russell 2010), one unknown risk of bias (Wiggins 2008 CARS), and two high risk of bias (Chlebowski 2010; Ventola 2006 CARS). For analyses reported on ADI‐R, we rated two studies as having low risk of bias (Cox 1999; Gray 2008 ADI‐R), two unclear risk of bias (Oosterling 2010b ADI‐R; Wiggins 2008 ADI‐R), and one high risk of bias (Ventola 2006 ADI‐R).

Applicability concerns

Using the QUADAS‐2, we assessed studies reporting on 10 analyses as applicable. These 10 studies included seven of the 12 ADOS analyses (Corsello 2013; Cox 1999; Gray 2008 ADOS; Le Couteur 2008 ADOS; Lord 2000; Mazefsky 2006 ADOS; Oosterling 2010b ADOS), one of the four CARS analyses (Russell 2010), and two of the five ADI‐R analyses (Gray 2008 ADI‐R; Oosterling 2010b ADI‐R).

Most studies were applicable for patient selection, with the exception being the cohorts reported in Risi 2006 Study 1 ADOS Cohort A, in which children were taken from a longitudinal study, with most receiving a diagnosis of ASD, and Risi 2006 Study 1 ADOS Cohort B, which comprised only children with profound mental retardation. Although some children with normal development were included in two analyses (Chlebowski 2010; Cox 1999), all included children had failed an autism screening test. As such, patient selection is similar to selection of children for referral to services for developmental assessment.

Findings

Twenty‐one included analyses provided data eligible for inclusion in meta‐analyses (Data table 1; Data table 2; Data table 3). As reported earlier, four analyses were presented in two publications, with each publication including two sets of diagnostic test accuracy data for clinically different cohorts (Kim 2012b ADOS Cohort A; Kim 2012b ADOS Cohort B; and Risi 2006 Study 1 ADOS Cohort A; Risi 2006 Study 1 ADOS Cohort B), so we included data from these four analyses in the ADOS meta‐analysis. In Lord 2000, we included data from combined (i.e. Modules 1 and 2) analyses only to prevent duplication.

The prevalence of ASD across all studies ranged from 51% to 86% (median 74%).

Individual tool accuracy

ADOS

For ADOS, we combined the diagnostic categories of autism and ASD as ASD, for analysis and reporting purposes.

There were 12 analyses (1625 children) of sensitivity and specificity reported for all versions and modules of ADOS, with 74% of children in the ADOS analyses receiving a diagnosis of ASD. Prevalence of ASD across these analyses ranged from 51% to 85% (median 75%). Sensitivity ranged from 0.76 to 0.98, and specificity from 0.20 to 1.00 (see Data table 1). The summary sensitivity (bivariate method) was 0.94 (95% CI 0.89 to 0.97), and specificity was 0.80 (95% CI 0.68 to 0.88). See Figure 4.


Summary ROC Plot of tests: ADOS, CARS, and ADI‐R.

Summary ROC Plot of tests: ADOS, CARS, and ADI‐R.

In Lord 2000, in addition to sensitivity and specificity values reported for the overall test, study authors calculated separate sensitivity and specificity results for subgroups of children according to their verbal ability level. Children of different verbal abilities were administered Module 1 or Module 2 of ADOS. Sensitivity and specificity values of 0.98 and 0.94 were reported for Module 1, and 0.95 and 0.88 for Module 2, respectively.

One analysis included only children with an intellectual disability (Risi 2006 Study 1 ADOS Cohort B). Specificity was considerably lower (0.20, 95% CI 0.03 to 0.56) than reported specificity from other studies.

In a meta‐regression analysis, mean age range (26 months to 62.5 months) was not a significant modifier of sensitivity (P = 0.56) nor of specificity (P = 0.41).

With inclusion of only data from three analyses calculated from three studies that were not at high risk of bias (Corsello 2013; Kim 2012b ADOS Cohort A; Wiggins 2008 ADOS), summary sensitivity changed from 0.94 (95% CI 0.89 to 0.98) to 0.97 (95% CI 0.94 to 0.98), and summary specificity from 0.80 (95% CI 0.70 to 0.88) to 0.68 (95% CI 0.60 to 0.75).

The summary sensitivity did not change when only analyses from the two studies at low risk of bias were included for the reference standard (Corsello 2013; Gray 2008 ADOS); however, the summary specificity increased from 0.80 (95% CI 0.68 to 0.88) to 0.91 (95% CI 0.84 to 0.95).

CARS

For CARS, we classified children with a cutoff score ≥ 30 as having ASD, for analysis and reporting purposes.

Four analyses involving 641 children suspected of having ASD, aged 16 months to 6 years 8 months, were reported for CARS (Chlebowski 2010; Russell 2010; Ventola 2006 CARS; Wiggins 2008 CARS). Sixty‐seven per cent of children in analyses undertaken on CARS received the diagnosis of ASD. Prevalence of ASD across these analyses ranged from 51% to 86% (median 73%). We included data from analyses undertaken on the two‐year‐old cohort in Chlebowski 2010.

Analyses reported sensitivity for CARS ranging from 0.66 to 0.89 and specificity ranging from 0.21 to 1.00 (Data table 2). We could not perform a bivariate meta‐analysis owing to too few analyses for CARS. In separate random‐effects logistical regression meta‐analyses for sensitivity and specificity, the summary sensitivity for CARS was 0.80 (95% CI 0.61 to 0.91) and the summary specificity was 0.88 (95% CI 0.64 to 0.96). See Figure 4.

In a meta‐regression analysis, mean age (three studies with a mean age of 26 months; and one study with a mean age of 61 months) increased sensitivity (P = 0.06) and decreased specificity (P < 0.001).

With exclusion of analyses calculated from the two studies deemed at high risk of bias (Chlebowski 2010; Ventola 2006 CARS), the summary sensitivity changed from 0.78 (95% CI 0.65 to 0.88) to 0.88 (95% CI 0.81 to 0.92), and the summary specificity from 0.85 (95% CI 0.43 to 0.98) to 0.65 (95% CI 0.03 to 0.99).

Analyses calculated for the only study at low risk of bias for the reference standard ‐ Russell 2010 ‐ found a similar estimate for sensitivity and an extremely low value for specificity (0.21, 95% CI 0.05 to 0.51).

ADI‐R

For ADI‐R, we combined the diagnostic categories of autistic disorder and Asperger syndrome as ASD, for analysis and reporting purposes.

Five analyses involving 634 children reported the diagnostic accuracy of ADI‐R (Cox 1999; Gray 2008 ADI‐R; Oosterling 2010b ADI‐R; Ventola 2006 ADI‐R; Wiggins 2008 ADI‐R). Sixty‐six per cent of children in the ADI‐R analyses received the diagnosis of ASD. Prevalence of ASD in these analyses ranged from 51% to 80% (median 69%). We included data from the younger cohort in Cox 1999.

Published sensitivity and specificity values for ASD versus non‐ASD for ADI‐R ranged from 0.19 to 0.75 for sensitivity and from 0.63 to 1.00 for specificity (Data table 3). Lower sensitivity levels were noted in studies of children screened for ASD (Cox 1999; Ventola 2006 ADI‐R; Wiggins 2008 ADI‐R) compared with clinical samples. We could not perform a bivariate meta‐analysis owing to too few analyses for ADI‐R. In separate random‐effects logistical regression meta‐analyses for sensitivity and specificity, the summary sensitivity for ADI‐R was 0.52 (95% CI 0.32 to 0.71) and the summary specificity was 0.84 (95% CI 0.61 to 0.95). See Figure 4.

In a meta‐regression analysis, mean age (range 20 to 38.5 months) increased sensitivity (P < 0.001) and decreased specificity ‐ but not significantly (P = 0.12).

We considered four of the five studies reporting analyses for ADI‐R to be at high risk of bias for one or more criteria (Cox 1999; Gray 2008 ADI‐R; Oosterling 2010b ADI‐R; Ventola 2006 ADI‐R), and the remaining study to be at unclear risk of bias for two criteria (Wiggins 2008 ADI‐R). In analyses from this study, sensitivity was 0.33 (95% CI 0.22 to 0.45) and specificity was 0.94 (95% CI 0.86 to 0.98), compared with 0.52 (95% CI 0.32 to 0.72) and 0.80 (95% CI 0.63 to 0.91) for the summary estimates, respectively.

We found no major change in the summary estimates of sensitivity and specificity when only analyses from the two studies at low risk of bias were included for the reference standard (Cox 1999; Gray 2008 ADI‐R).

3di, DISCO, and GARS

We found no studies reporting relevant data for 3di, DISCO‐10 or DISCO‐11, or GARS that met the inclusion criteria for this Review.

Comparison of ADOS, CARS, and ADI‐R

The sensitivities of CARS (0.80, 95% CI 0.61 to 0.91) and ADI‐R (0.52, 95 % CI 0.32 to 0.71) in the random‐effects logistical regression analysis were significantly lower than those of ADOS (0.94, 95% CI 0.89 to 0.97) (P = 0.019 and P < 0.001, respectively). For specificities, CARS (0.88, 95% CI 0.64 to 0.96) and ADI‐R (0.84, 95% CI 0.61 to 0.95) were not significantly different from ADOS (0.80, 95% CI 0.68 to 0.88) (P = 0.52 and P = 0.75, respectively).

Studies reporting between‐test comparisons within the same study

Table 6 provides sensitivity and specificity data for the studies reporting analyses for two or more tests in the same cohort.

Open in table viewer
Table 6. Studies addressing more than one instrument in the same study sample

Study authors

Number of participants

Age range

Sensitivity

Specificity

Number with ASD

ADOS (95% CI)

CARS (95% CI)

ADI‐R (95% CI)

Number without ASD

ADOS (95% CI)

CARS (95% CI)

ADI‐R (95% CI)

Gray 2008 ADI‐R;

Gray 2008 ADOS

209

20 to 55 months

143

0.76 (0.68 to 0.83)

0.73 (0.65 to 0.80)

66

0.94 (0.85 to 0.98)

0.77 (0.65 to 0.87)

Oosterling 2010b ADI‐R;

Oosterling 2010b ADOS

208

20 to 40 months

143

0.77 (0.69 to 0.84)

0.75 (0.67 to 0.82)

65

0.83 (0.72 to 0.91)

0.63 (0.50 to 0.75)

Ventola 2006 ADI‐R;

Ventola 2006 ADOS;

Ventola 2006 CARS

45

16 to 31 months

36

0.97 (0.85 to 1.00)

0.89 (0.74 to 0.97)

0.53 (0.35 to 0.70)

9

0.67 (0.30 to 0.93)

1.00 (0.66 to 1.00)

0.67 (0.30 to 0.93)

Wiggins 2008 ADI‐R;

Wiggins 2008 ADOS;

Wiggins 2008 CARS

142

16 to 37 months

73

0.96 (0.88 to 0.99)

0.71 (0.59 to 0.81)

0.33 (0.22 to 0.45)

69

0.65 (0.53 to 0.76)

0.93 (0.84 to 0.98)

0.94 (0.86 to 0.98)

ADIR: Autism Diagnostic Interview ‐ Revised;ADOS: Autism Diagnostic Observation Schedule;ASD: autism spectrum disorder; CARS: Childhood Autism Rating Scale; CI: confidence interval.

ADOS was always as or more sensitive than ADI‐R in four studies (Gray 2008 ADI‐R and Gray 2008 ADOS; Oosterling 2010b ADI‐R and Oosterling 2010b ADOS; Ventola 2006 ADI‐R, Ventola 2006 ADOS, and Ventola 2006 CARS; Wiggins 2008 ADI‐R, Wiggins 2008 ADOS, and Wiggins 2008 CARS) and was as or more specific than ADI‐R in three of these four studies (Gray 2008 ADI‐R and Gray 2008 ADOS; Oosterling 2010b ADI‐R and Oosterling 2010b ADOS; Ventola 2006 ADI‐R, Ventola 2006 ADOS, and Ventola 2006 CARS). In two studies (Ventola 2006 ADI‐R, Ventola 2006 ADOS, and Ventola 2006 CARS; Wiggins 2008 ADI‐R, Wiggins 2008 ADOS, and Wiggins 2008 CARS), ADOS was more sensitive than CARS but was less specific (Table 6). CARS was more sensitive than ADI‐R in two studies (Ventola 2006 ADI‐R, Ventola 2006 ADOS, and Ventola 2006 CARS; Wiggins 2008 ADI‐R, Wiggins 2008 ADOS, and Wiggins 2008 CARS), with similar or higher specificity (Table 6). Overlap of the CI indicates lack of statistically significant differences between most of the reported within‐study findings.

Studies reporting combined tool accuracy

Only one of the included publications compared the accuracy of combined use of ADI‐R and ADOS against the use of each single test (Oosterling 2010b ADI‐R; Oosterling 2010b ADOS). This publication reported that although the combination of ADI‐R and ADOS improved specificity (0.94, 95% CI 0.85 to 0.98) by 11% compared with using ADOS alone (0.83, 95% CI 0.72 to 0.91), this came at a cost of a 14% reduction in sensitivity (i.e. sensitivity for ADOS alone was 0.77 (95% CI 0.69 to 0.84) compared with 0.63 (95% CI 0.54 to 0.71) when the tools were used in combination). However, because of the respective 95% CI overlap (especially for specificity), differences between the two approaches could not be demonstrated or refuted.

Discusión

disponible en

Diagnosticar el trastorno del espectro autista (TEA) no es sencillo debido al espectro amplio de la afección y la confianza en los síntomas y signos conductuales. La práctica de diagnóstico recomendada en la actualidad requiere que se incluya información de la evaluación clínica, la atención del niño o los contextos educacionales, así como de instrumentos estandarizados (especialmente del desarrollo o la capacidad intelectual), con pruebas de evaluación diagnóstica para el autismo como agregados optativos (AACAP 2014; NICE 2011), en lugar del uso de pruebas de diagnóstico por si solas. Esta evaluación requiere la participación de un equipo multidisciplinario que consiste en varios profesionales de la salud y con frecuencia demora mucho tiempo, con disponibilidad limitada de recursos. Sin embargo, el diagnóstico preciso es crucial. Si el diagnóstico es inexacto, lo niños pequeños que presentan TEA y que no se diagnostican no recibirán intervenciones adaptadas tempranas que les puedan proporcionar a ellos y a sus familias estrategias valiosas para facilitarles el desarrollo y controlar sus comportamientos. Además, el diagnóstico inexacto puede dar lugar a que los niños que no presentan TEA reciban un diagnóstico de TEA, lo que podría tener un efecto perjudicial para el niño y la familia y puede dar lugar a la asignación incorrecta de recursos de servicio limitados.

Se realizó una revisión sistemática para comparar la exactitud de la Developmental, Dimensional, and Diagnostic Interview (3di), la Autism Diagnostic Interview™ Revised (ADI‐R), el Autism Diagnostic Observation Schedule (ADOS), la Childhood Autism Rating Scale (CARS), la Diagnostic Interview for Social and Communication Disorders (DISCO) y la Gilliam Autism Rating Scale (GARS), con un estándar de referencia para el diagnóstico que incluía un diagnóstico clínico de la mejor estimación hecho por más de un profesional, que utilizó la información disponible, para decidir si se cumplían los criterios de un sistema de clasificación diagnóstica aceptable como el Diagnostic and Statistical Manual of Mental Disorders ‐ Third Edition (DSM‐III), el DSM ‐ Fourth Edition (DSM‐IV), el DSM ‐ Fourth Edition ‐ Text Revision (DSM‐IV‐TR), la International Classification of Diseases and Related Health Problems ‐ Ninth Revision (ICD‐9) o la ICD ‐ Tenth Revision (ICD‐10). Se evaluó la sensibilidad y la especificidad de estas pruebas, y se reconoció que la sensibilidad y la especificidad deben ser altas para una prueba de diagnóstico.

En todos los estudios incluidos, la prevalencia del TEA fue alta para todas las pruebas y quizás haya sido mayor que en los ámbitos clínicos donde se utiliza la prueba. La prevalencia en la práctica variará según la naturaleza del servicio. Si un servicio se especializa en la evaluación y el tratamiento del TEA, la prevalencia probable en el momento de la evaluación del TEA será alta. Sin embargo, un servicio de diagnóstico y tratamiento que no es específico del autismo detectará una prevalencia inferior del TEA a la presentación de las evaluaciones. Los profesionales que realizan las evaluaciones del TEA deben calcular la prevalencia del TEA diagnosticado en el servicio y deben tenerla en cuenta cuando se tomen decisiones acerca del rendimiento de las pruebas de diagnóstico.

Resumen de los resultados principales

Debido al uso generalizado de estas pruebas, los datos de exactitud de la prueba de diagnóstico son relativamente limitados. En general, solo un estudio tuvo bajo riesgo de sesgo en todos los criterios y se supo que cuatro estudios tuvieron bajo riesgo de sesgo en tres o más factores, según lo evaluado por QUADAS‐2 (Quality Assessment of Studies of Diagnostic Accuracy ‐ Revised). El cegamiento del diagnóstico estándar de referencia a menudo se pasó por alto en el momento de la prueba índice, y la prueba índice en ocasiones se incorporó al estándar de referencia. Estos dos problemas introducen alto riesgo de sesgo a los estudios, ya que posiblemente exageran la sensibilidad y la especificidad de la prueba índice. Además, el 29% (seis de 21) de los análisis incluidos fueron publicados por autores de estudios con un conflicto de intereses potencial. Los análisis de sensibilidad para ADOS y CARS indican que la especificidad de las herramientas fue sensible al riesgo de sesgo, con una especificidad calculada inferior en los estudios considerados con bajo riesgo de sesgo. Aunque, en general, los estudios fueron aplicables a la práctica con respecto a la selección de los pacientes, en casi la mitad de los estudios incluidos el estándar de referencia no coincidió, o no estaba claro si coincidió, con las recomendaciones actuales para la práctica diagnóstica.

En esta revisión se incluyeron 21 grupos de análisis encontrados en 13 publicaciones. Un resumen de los resultados de los metanálisis se puede encontrar en Resumen de los hallazgos, tabla 1. Los valores de sensibilidad y especificidad publicados para TEA versus ningún TEA en las herramientas clínicamente disponibles variaron entre 0,19 y 0,98 para la sensibilidad y entre 0,20 y 1,00 para la especificidad, y ADOS informó una sensibilidad resumida más alta y una especificidad similar a CARS e ADI‐R. Las sensibilidades más bajas se informaron en los estudios que incluyeron a niños que presentaban TEA con discapacidad intelectual asociada. Los niveles de sensibilidad inferiores también se observaron en los estudios que utilizaron cohortes de niños que fueron sometidos al cribado del TEA versus los estudios con muestras clínicas. Ningún artículo informó los valores de sensibilidad y especificidad para GARS, DISCO o 3di. Desde la publicación del protocolo de esta revisión (Samtani 2011) han surgido nuevas versiones de las pruebas incluidas, pero en el momento de escribir esta revisión no estaban disponibles datos de exactitud de la prueba de diagnóstico.

Cuatro estudios compararon la exactitud de la prueba de diagnóstico de dos (ADOS e ADI‐R) o tres (ADOS, ADI‐R y CARS) pruebas índice en la misma cohorte de niños. La magnitud de la sensibilidad y la especificidad para cada prueba varió entre los estudios. Dentro de los estudios se observaron pocas diferencias significativas entre las pruebas para la sensibilidad y la especificidad. En un estudio se encontró una diferencia entre ADOS (con sensibilidad mayor) e ADI‐R y CARS (ambas con especificidad mayor), lo que demuestra el equilibrio conocido entre sensibilidad y especificidad. Uno de estos estudios también realizó análisis para evaluar la exactitud de dos pruebas (ADOS e ADI‐R) utilizadas solas o en combinación y no encontró diferencias concluyentes entre estos dos enfoques.

La evaluación de si la exactitud de la prueba de diagnóstico varía para factores clínicos importantes fue limitada. En un grupo de análisis de ADOS calculados en una cohorte que incluyó solo niños con discapacidades intelectuales, la especificidad fue inferior que en otros análisis. Además, la especificidad fue mayor en el metanálisis de los datos de ADOS cuando se utilizó con niños mayores. Lo anterior no se repitió para CARS, y la heterogeneidad persistente y los escasos análisis limitaron la interpretación de los resultados.

Fortalezas y limitaciones de la revisión

La variedad de métodos de estudio y enfoques diferentes para el análisis hizo que la extracción y la síntesis de los datos no fueran sencillas. Por ejemplo, se utilizaron diferentes módulos de ADOS en diferentes estudios, en algunos se informaron por separado y en otros se combinaron. Algunos estudios se omitieron porque utilizaron algoritmos actualizados para ADOS o módulos actualizados (ADOS‐T [niños pequeños]). Se decidió omitirlos de esta versión de la revisión porque los algoritmos todavía no se utilizan en el diagnóstico ni en la evaluación clínica, y porque los módulos no están disponibles por separado para el uso clínico. Sin embargo, estos componentes ahora están incluidos como parte de ADOS‐2 revisado, que se incluirá en las actualizaciones futuras de esta revisión.

Los autores de la revisión también encontraron dificultades para examinar los estudios por edad en el momento de inclusión, con varios estudios que reclutaron un rango amplio de edad de los participantes y a veces informaron los resultados para subgrupos de niños dentro de una muestra más grande. A pesar de la amplia estrategia de búsqueda, la falta de datos disponibles para GARS, 3di y DISCO ha significado que actualmente no es posible evaluar la exactitud de la prueba de diagnóstico de todas las pruebas en la forma prevista.

Una posible limitación de esta revisión es que los diagnósticos del TEA se agruparon según DSM‐IV, ICD‐10 y sistemas de clasificación anteriores, lo que no coincide directamente con el TEA del DSM ‐ Fifth Edition (DSM‐5). Esta decisión se tomó para asegurar que la revisión reflejara, en lo posible, la práctica actual. Existe confianza en que este enfoque no habría influido de manera diferencial en las diferencias en los resultados entre los estudios de la misma prueba o entre las pruebas.

Aplicabilidad de los hallazgos a la pregunta de la revisión

La mayoría de los datos disponibles estaban relacionados con la exactitud de la prueba de diagnóstico como herramienta única, lo que permite las comparaciones indirectas entre diferentes tipos de pruebas (entrevista, observación, combinadas). Hubo datos limitados disponibles para las comparaciones de herramientas directas y el uso combinado de las pruebas. Esta deficiencia impide responder de forma definitiva las preguntas planteadas por esta revisión. Otra inquietud es que el reclutamiento de muchos estudios no se hizo de una manera que reflejara el contexto clínico actual en el cual se utilizan estas pruebas. El diagnóstico de referencia tampoco cumplió siempre las normas actuales recomendadas para hacer un diagnóstico de TEA. De relevancia particular es la proporción alta de niños con un diagnóstico de TEA en los análisis incluidos. Aunque la sensibilidad y la especificidad de estas pruebas se mantengan en poblaciones con prevalencias diferentes, la utilidad de las pruebas cambiará. Específicamente, habrá riesgo de sobrediagnóstico, pues una proporción mayor de los que reciben un resultado positivo no presentará TEA cuando se utilice en ámbitos de prevalencia baja.

Clinical pathway.
Figuras y tablas -
Figure 1

Clinical pathway.

Study flow diagram.
Figuras y tablas -
Figure 2

Study flow diagram.

Risk of bias and applicability concerns summary: review authors' judgements about each domain for each included study.
Figuras y tablas -
Figure 3

Risk of bias and applicability concerns summary: review authors' judgements about each domain for each included study.

Summary ROC Plot of tests: ADOS, CARS, and ADI‐R.
Figuras y tablas -
Figure 4

Summary ROC Plot of tests: ADOS, CARS, and ADI‐R.

ADOS.
Figuras y tablas -
Test 1

ADOS.

CARS.
Figuras y tablas -
Test 2

CARS.

ADI‐R.
Figuras y tablas -
Test 3

ADI‐R.

Summary of findings Diagnostic accuracy of Autism Diagnostic Observation Schedule (ADOS), Childhood Autism Rating Scale (CARS), and Autism Diagnosis Interview ‐ Revised (ADI‐R) for diagnosing autism spectrum disorder in preschool children

Should ADOS, CARS, or ADI‐R be used to diagnose ASD in children younger than 6 years of age?

Participants: children younger than 6 years of age

Settings: Included studies involved children from the following range of settings: hospitals and university‐based clinics screening for early diagnosis of ASD; hospital‐based developmental evaluation clinics; research studies; university‐based child psychiatry centres (median prevalence of ASD across all studies: 74%)

Reference standards: Assessments were administered by 1 or more professionals trained in tool administration. Best‐estimate clinical diagnosis was made after review of all assessment results by 1 or more professionals experienced in the diagnosis of ASD

Study designs: cross‐sectional or case‐control studies

Test

Number of studies (number of participants)

Risk of bias (number of studies)

Combined sensitivity (95% CI)

Range of sensitivities

Combined specificity (95% CI)

Range of specificities

Number of true‐positives per 1000 tested (95% CI)

Number of false‐positives per 1000 tested (95% CI)

Number of true‐negatives per 1000 tested (95% CI)

Number of false‐negatives per 1000 tested (95% CI)

Interpretation in 1000 children tested with a pre‐test probability of ASD of 74%

ADOS

12 (1625)

Low (0)

High (8)

Unclear (4)

0.94 (0.89 to 0.97)

Range = 0.76 to 0.98

0.80 (0.68 to 0.88)

Range = 0.20 to 1.00

696 (659 to 718)

52 (31 to 83)

208 (177 to 229)

44 (22 to 88)

The diagnosis will be missed in 44 children with ASD, and 52 children without ASD will be incorrectly classified as having ASD. See Figure 1

CARS

4 (641)

Low (1)

High (2)

Unclear (1)

0.80 (0.61 to 0.91)

Range = 0.66 to 0.89

0.88 (0.64 to 0.96)

Range = 0.21 to 1.00

592 (451 to 673)

31 (10 to 94)

229 (166 to 250)

148 (67 to 289)

The diagnosis will be missed in 148 children with ASD, and 31 children without ASD will be incorrectly classified as having ASD

ADI‐R

5 (634)

High (4)

Unclear (1)

0.52 (0.32 to 0.71)

Range = 0.19 to 0.75

0.84 (0.61 to 0.95)

Range = 0.63 to 1.00

385 (237 to 525)

42 (13 to 101)

218 (159 to 247)

355 (215 to 503)

The diagnosis will be missed in 355 children with ASD, and 42 children without ASD will be incorrectly classified as having ASD

ADI‐R: Autism Diagnostic Interview ‐ Revised; ADOS: Autism Diagnostic Observation Schedule; ASD: autism spectrum disorder; CARS: Childhood Autism Rating Scale; CI: confidence interval.

Figuras y tablas -
Summary of findings Diagnostic accuracy of Autism Diagnostic Observation Schedule (ADOS), Childhood Autism Rating Scale (CARS), and Autism Diagnosis Interview ‐ Revised (ADI‐R) for diagnosing autism spectrum disorder in preschool children
Table 1. Tests, method of administration, and guidelines in which they were listed at the time of commencement of this review

Test

Administration

Guidelines that included each test

SIGN 2007

Ministry of Health New Zealand 2008

Ministry of Health Singapore 2010

Missouri Autism Guidelines Initiative 2010

Ohio Developmental Disabilities Council 2010

Johnson 2007

ADI‐R

Parent or carer interview, face‐to‐face

X

X

X

X

X

DISCO‐10

Parent or carer interview, face‐to‐face

X

X

3di

Parent or carer interview, face‐to‐face with electronic data entry

X

GARS‐2

Parent or carer interview, questionnaire

X

X

CARS

Combination of interview and observations of unstructured activity

X

X

X

X

X

X

ADOS or ADOS‐G

Semi‐structured observational assessment

X

X

X

X

X

ADI‐R: Autism Diagnostic Interview ‐ Revised; ADOS: Autism Diagnostic Observation Schedule; ADOS‐G: Autism Diagnostic Observation Schedule ‐ Generic; CARS: Childhood Autism Rating Scale; DISCO‐10: Diagnostic Interview for Social and Communication Disorders ‐ Tenth Revision; GARS‐2: Gilliam Autism Rating Scale; 3di: Developmental, Dimensional, and Diagnostic Interview.

Figuras y tablas -
Table 1. Tests, method of administration, and guidelines in which they were listed at the time of commencement of this review
Table 2. Operationalisation of issues relevant to 'Risk of bias' and applicability assessment

Items and guide to classification

Domain 1: patient selection

A. Risk of bias

  1. Was a consecutive or random sample of patients enrolled?

    1. Classify as ‘yes’ if the study enrolled all consecutive, or a random sample of, eligible patients referred for further diagnosis of ASD

    2. Classify as ‘no’ if there was clear evidence of selective sampling

    3. Classify as ‘unclear’ if insufficient information was given to make a judgement

  2. Was a case‐control design avoided?

    1. Classify as ‘yes’ if the study consisted of children referred for further diagnosis of ASD

    2. Classify as ‘no’ if the study used only healthy controls or enrolled patients with a known diagnosis of ASD and a control group without a diagnosis

    3. Classify as ‘unclear' if insufficient information was given to make a judgement

  3. Did the study avoid inappropriate exclusions?

    1. Classify as ‘yes' if the study consisted of children representing a mixture of conditions (including absence of any condition) that are usually present (e.g. autistic disorder; pervasive developmental disorder not otherwise specified; developmental disability that is not autism but has some characteristics in common, such as global developmental delay in association with language delay, language delay alone, attachment disorders, ADHD, anxiety disorders)

    2. Classify as ‘no’ if the study made inappropriate exclusions, such as excluding 'difficult to diagnose' patients

    3. Classify as ‘unclear’ if insufficient information was given to make a judgement

B. Concerns regarding applicability

Is there concern that the included patients do not match the review question?

  1. Classify concern: low/high/unclear

Domain 2: index test(s)

A. Risk of bias

  1. Were the index test results interpreted without knowledge of results of the reference standard?

    1. Classify as ‘yes’ if results of the index test were interpreted blind to results of the reference test

    2. Classify as ‘no’ if the assessor of the index test was aware of the results of the reference standard

    3. Classify as ‘unclear' if insufficient information was given on independent or blind assessment of the index test

  2. If a threshold was used, was it pre‐specified?

    1. Classify as ‘yes’ if a threshold was used and pre‐specified

    2. Classify as ‘no’ if a threshold was used but was not pre‐specified

    3. Classify as ‘unclear’ if insufficient information was given on the use of a threshold

B. Concerns regarding applicability

Is there concern that the index test, its conduct, or its interpretation differ from the review question?

  1. Classify concern: low/high/unclear

Domain 3: reference standard

A. Risk of bias

  1. Is the reference standard likely to correctly classify the target condition?

    1. Classify as ‘yes’ if the reference standard consists of a clinical diagnosis of autism or other ASD using a current, accepted classification system (DSM‐III, DSM‐III‐R, DSM‐IV, DSM‐IV‐TR, ICD‐9, or ICD‐10), as assigned by an experienced multi‐disciplinary team (including assessment of social behaviour, language and non‐verbal communication, adaptive behaviour, motor skills, atypical behaviours, and cognitive status/intellectual function), and based on information from a clinical assessment and from health professionals involved in the child's care and those caring for the child in community settings such as preschool or child care settings

    2. Classify as ‘no’ if the above‐mentioned methods were not used

    3. Classify as ‘unclear’ if insufficient information was given on the reference standard

  2. Were the reference standard results interpreted without knowledge of results of the index test?

    1. Classify as ‘yes’ if results of the reference standard were interpreted blind to results of the index test

    2. Classify as ‘no’ if the assessor of the reference standard was aware of results of the index test

    3. Classify as ‘unclear’ if insufficient information was given on independent or blind assessment of the reference standard

B. Concerns regarding applicability

Is there concern that the target condition as defined by the reference standard does not match the review question?

  1. Classify concern: low/high/unclear

Domain 4: flow and timing

A. Risk of bias

  1. Was there an appropriate interval between index test(s) and reference standard?

    1. Classify as ‘yes’ if the time period between the index test and the reference standard was 6 months or shorter

    2. Classify as ‘no’ if the time period between the index test and the reference standard was longer than 6 months

    3. Classify as ‘unclear’ if there was insufficient information on the time period between the index test and the reference standard 

  2. Did all patients receive a reference standard?

    1. Classify as ‘yes’ if it is clear that all patients or a random selection of those who received the index test went on to receive a reference standard, even if the reference standard was not the same for all patients

    2. Classify as ‘no’ if not all patients or a random selection of those who received the index test received verification by a reference standard

    3. Classify as ‘unclear’ if insufficient information was provided to assess this item

  3. Did patients receive the same reference standard?

    1. Classify as ‘yes’ if it is clear that all patients who received the index test were subjected to the same reference standard

    2. Classify as ‘no’ if different reference standards were used

    3. Classify as ‘unclear’ if insufficient information was provided to assess this item

  4. Were all patients included in the analysis?

    1. Classify as ‘yes’ if it is clear what happened to all patients who entered the study (all patients are accounted for, preferably in a flow chart), or if study authors explicitly reported the absence of any withdrawals

    2. Classify as ‘no’ if it is clear that not all patients who were entered completed the study (received both index test and reference standard), and not all patients were accounted for

    3. Classify as ‘unclear’ when the paper did not clearly describe whether or not all patients completed all tests and are included in the analysis

Notes

  1. Relevant clinical information: Were the same clinical data available when the index test results were interpreted as would be available when the test is used in practice?

    1. Classify as ‘yes’ if only clinical data (e.g. speech and language therapy; occupational therapy; developmental or psychology reports that address general assessments that are not specific for autism assessments; information from a doctor, nurse, teacher or allied health professional that lists why autism is of concern) were available in the study that normally would be available when the test results would be interpreted

    2. Classify as ‘no’ if this is not the case (e.g. if other test results are available that cannot be regarded as part of routine care)

    3. Classify as ‘unclear’ if the paper did not explain what clinical information was available at the time of assessment

  2. Conflicts of interest avoided: Were conflicts of interest avoided or absent?  

    1. Classify as ‘yes’ if study authors/researchers were not involved in development of the diagnostic instrument

    2. Classify as ‘no’ if study authors/researchers were involved in development of the diagnostic instrument

    3. Classify as ‘unclear’ if insufficient information was given

ADHD: attention‐deficit/hyperactivity disorder;ASD: autism spectrum disorder; DSM‐III:Diagnostic and Statisticial Manual of Mental Disorders ‐ Third Edition;DSM‐III‐R:Diagnostic and Statistical Manual of Mental Disorders ‐ Third Edition ‐ Revised; DSM‐IV:Diagnostic and Statistical Manual of Mental Disorders ‐ Fourth Edition;DSM‐IV‐TR:Diagnostic and Statistical Manual of Mental Disorders ‐ Fourth Edition ‐ Text Revision; ICD‐9:International Classification of Diseases ‐ Ninth Revision; ICD‐10:International Classification of Diseases ‐ Tenth Revision.

Figuras y tablas -
Table 2. Operationalisation of issues relevant to 'Risk of bias' and applicability assessment
Table 3. Study results for ADOS

Study

Number of participants

Age of group (mean age, if available)

Study group source

Diagnostic groups (number of participants)

Test

Module (cutoff)

Sensitivity (%) (95% CI)

Specificity (%) (95% CI)

PPV (%) (95% CI)

NPV (%) (95% CI)

Corsello 2013

118

24 to 36 months

Sample was 138 consecutive children between the ages of 24 and 36 months evaluated for ASD at a children's hospital developmental evaluation clinic

ASD (98)

NS (20)

ADOS

M1 or M2

97 (0.91 to 0.99)

85 (0.62 to 0.97)

97 (0.91 to 0.99)

85 (0.62 to 0.97)

Gray 2008 ADOS

209 (M1: n = 195; M2: n = 14)

20 to 55 months

(38.5 months)

Assessment clinic for children with developmental concerns or ASD

ASD (139)

NS (56)

ADOS

M1 and M2

76 (0.68 to 0.83)

94 (0.85 to 0.98)

96 (0.91 to 0.99)

65 (0.54 to 0.74)

Kim 2012b ADOS Cohort A

151

21 to 47 months

(34 months)

Non‐verbal (NV) children from 3 data sources:

  1. Early diagnosis of autism

  2. First words and toddlers at University of Michigan Autism and Communication Disorders Centre

  3. Clinic patients at University of Michigan Autism Clinic

ASD (123)

NS (28)

ADOS

ADOS modules not specified but assume M1 and M2, given age of children

98 (0.94

to 1.00)

64 (0.44 to 0.81)

92 (0.86 to 0.96)

90 (0.68 to 0.99)

Kim 2012b ADOS Cohort B

110

21 to 47 months

(40 months)

Children with phrase speech from 3 sources:

  1. Early diagnosis of autism

  2. First words and toddlers at University of Michigan Autism and Communication Disorders Centre

  3. Clinic patients at University of Michigan Autism Clinic

ASD (69)

NS (41)

97 (0.90 to 1.00)

68 (0.52 to 0.82)

84 (0.74 to 0.91)

93 (0.78 to 0.99)

Le Couteur 2008 ADOS

101

24 to 49 months

(37 months)

Recruited from 2 previous unrelated studies (McConachie 2005;Shearer 2001); children suspected of having ASD

ASD (77)

NS (24)

ADOS

All M1 but 2 who received M2

83 (0.73 to 0.91)

100 (0.86 to 1.00)

100 (0.94 to 1.00)

65 (0.47 to 0.80)

Lord 2000*

*There were other analyses in this publication for older cohorts that were not eligible for inclusion in this review. Overall results reported here were generated from M1 and M2 data for children who did meet the age limit for inclusion

129

51 months

University of Chicago Developmental Disorders Clinic, USA

ASD (96)

NS (33)

ADOS‐G

Overall

97 (0.91 to 0.99)

91 (0.76 to 0.98)

97 (0.91 to 0.99)

91 (0.76 to 0.98)

74

15 months to 10 years (50 months)

ASD (57)

NS (17)

M1

98 (not calculated)

94 (not calculated)

98 (not calculated)

94 (not calculated)

ASD (39)

NS (16)

M2

95 (not calculated)

88 (not calculated)

95 (not calculated)

88 (not calculated)

55

2 to 7 years

(51 months)

Mazefsky 2006 ADOS

75

22 months to 8 years (48 months)

Specialised clinic for assessment of pervasive developmental disorders at a US university medical centre

ASD (56)

NS (19)

ADOS‐G

M1 and M2

93 (0.83 to 0.98)

84 (0.60 to 0.97)

95 (0.85 to 0.99)

80 (0.56 to 0.94)

Oosterling 2010b ADOS

208

20 to 40 months (32.5 months)

Karakter Child and Adolescent Psychiatry University Centre, Netherlands

ASD (143)

NS (65)

ADOS

M1 (204) and M2 (4)

77 (0.69 to 0.84)

83 (0.72 to 0.91)

91 (0.84 to 0.95)

62 (0.51 to 0.72)

Risi 2006 Study 1 ADOS Cohort A

270

< 36‐Month group

(mean age not reported);

21 to 34‐month group

(28 months)

  1. University of Michigan Autism and Communication Disorders Clinic, USA

  2. TEACCH® Centers at the University of North Carolina, Chapel Hill, and the University of Chicago

  3. Universiy of Chicago Developmental Disorders Clinic

ASD (227)

NS (43)

ADOS

ADOS module not specified but assume M1 and M2, given age of children

86 (0.81 to 0.90)

84 (0.69 to 0.93)

97 (0.93 to 0.99)

53 (0.40 to 0.65)

Risi 2006 Study 1 ADOS Cohort B

67

36 to 112 months (62.5 months)

Mental Retardation, USA

ASD (57)

NS (10)

96 (0.88 to 1.00)

20 (0.03 to 0.56)

87 (0.77 to 0.94)

50 (0.07 to 0.93)

Ventola 2006 ADOS

45

16 to 31 months

(26 months)

Screening study for toddlers who failed the Modified Checklist for Autism in Toddlers

ASD (36)

NS (9)

ADOS‐G

M1

97 (0.85 to 1.00)

67 (0.30 to 0.93)

92 (0.79 to 0.98)

86 (0.42 to 1.00)

Wiggins 2008 ADOS

142

16 to 37 months

(26 months)

Screening study of toddlers who failed the Modified Checklist for Autism in Toddlers

ASD (73)

NS (69)

ADOS‐G

M1 mostly reported

96 (0.88 to 0.99)

65 (0.53 to 0.76)

74 (0.64 to 0.83)

94 (0.83 to 0.99)

ADOS: Autism Diagnostic Observation Schedule; ADOS‐G: Autism Diagnostic Observation Schedule ‐ Generic; ASD: autism spectrum disorder; CI: confidence interval; M: module; NPV: negative predictive value; NS: non‐spectrum;NV: non‐verbal; PPV: positive predictive value.

Figuras y tablas -
Table 3. Study results for ADOS
Table 4. Study results for Autism Diagnosis Interview ‐ Revised

Study

Number of participants

Age of group (age range)

Study group source

Diagnostic groups (number of participants)

Test/Algorithm/Variations

(i.e. variation from cutoffs met for 3 domains of social interaction, communication, and repetitive behaviours)

Specific cutoffs:

Social interaction = 10

Restricted and repetitive behaviours = 3

Communication = 8 verbal and 7 non‐verbal

Sensitivity (%) (95% CI)

Specificity (%) (95% CI)

PPV (%) (95% CI)

NPV (%) (95% CI)

Cox 1999

30 for calculations

(as 15 TD cases removed from original 45)

20 months (range not reported)

Group 1: high AD risk

Group 2: medium AD risk

Group 3: no AD risk

ASD (21)

NS (9)

Elevated scores in all 3 domains

19 (0.05 to 0.42)

100 (0.66 to 1.00)

100 (0.40 to 1.00)

35 (0.17 to 0.56) 

Gray 2008 ADI‐R

209

38.5 months (20 to 55 months)

Assessment clinic for children with developmental concerns or ASD

ASD (143)

NS (66)

Not specified, but assume elevated scores in all 3 domains

73 (0.65 to 0.80)

77 (0.65 to 0.87)

87 (0.80 to 0.93)

57 (0.46 to 0.67)

Oosterling 2010b ADI‐R*

208

32.5 months (20 to 40 months)

Karakter Child and Adolescent Psychiatry University Centre, Netherlands

ASD (143)

NS (65)

Revised algorithms for ASD (as per Risi 2006 study 1 ADI‐R). Meets criteria for:

  1. social interaction and communication (not behavioural);

  2. social interaction AND within 2 points for communication;

  3. communication AND within 2 points for social interaction; or

  4. within 1 point for both social and communication

75 (0.67 to 0.82)

63 (0.50 to 0.75)

82 (0.74 to 0.88)

53 (0.42 to 0.65)

Ventola 2006 ADI‐R

45

26 months (16 to 31 months)

Screening study for

toddlers who failed the Modified Checklist for Autism in Toddlers

ASD (36)

NS (9)

Elevated scores in all 3 domains

ADI‐R (n = 35)

Toddler ADI‐R (n = 10)

53 (0.35 to 0.70)

67 (0.30 to 0.93)

86 (0.65 to 0.97)

26 (0.10 to 0.48)

Wiggins 2008 ADI‐R

142

26 months (16 to 37 months)

Screening study for

toddlers who failed the Modified Checklist for Autism in Toddlers

ASD (73)

NS (69)

Elevated scores in all 3 domains

33 (0.22 to 0.45)

94 (0.86 to 0.98)

86 (0.67 to 0.96)

57 (0.47 to 0.66)

AD: autistic disorder; ADI‐R: Autism Diagnostic Interview ‐ Revised; ASD: autism spectrum disorder; CI: confidence interval; NPV: negative predictive value; NS: non‐spectrum;PPV: positive predictive value; TD: typically developing.

Figuras y tablas -
Table 4. Study results for Autism Diagnosis Interview ‐ Revised
Table 5. Study results for Childhood Autism Rating Scale (cutoff < 30 not autism spectrum disorder)

Study

Number of participants

Mean age of group (age range)

Diagnostic groups (number of participants)

CARS cutoff values

Sensitivity (%)

(95% CI)

Specificity (%)

(95% CI)

PPV (%)

(95% CI)

NPV (%)

(95% CI)

+ LR

− LR

Chlebowski 2010

354

26 months (21 to 30 months)

ASD (236)

NS (118)

30

66 (0.59 to 0.72)

96 (0.90 to 0.99)

97 (0.93 to 0.99)

58 (0.51 to 0.65)

15.5

0.4

Russell 2010

100

61 months (range not reported)

ASD (86), included 1 child with Rett's syndrome

NS (14)

Severe/profound intellectual disability (72) and

Unspecified intellectual disability (21)

30

87 (0.78 to 0.93)

21 (0.05 to 0.51)

87 (0.78 to 0.93)

21 (0.05 to 0.51)

1.1

0.6

Ventola 2006 CARS

45

26 months (16 to 31 months)

ASD (36)

NS (9)

Not clearly stated but assume 30

89 (0.74 to 0.97)

100 (0.66 to 1.00)

100 (0.89 to 1.00)

69 (0.39 to 0.91)

 ‐

0.1

Wiggins 2008 CARS

142

26 months (16 to 37 months)

ASD (73)

NS (69)

Not clearly stated but assume 30

71 (0.59 to 0.81)

93 (0.84 to 0.98)

 91 (0.81 to 0.97)

75 (0.65 to 0.84)

9.8 

 0.3

ASD: autism spectrum disorder; CI: confidence interval; + LR: positive likelihood ratio;‐ LR: negative likelihood ratio; NPV: negative predictive value; NS: non‐spectrum;PPV: positive predictive value.

Figuras y tablas -
Table 5. Study results for Childhood Autism Rating Scale (cutoff < 30 not autism spectrum disorder)
Table 6. Studies addressing more than one instrument in the same study sample

Study authors

Number of participants

Age range

Sensitivity

Specificity

Number with ASD

ADOS (95% CI)

CARS (95% CI)

ADI‐R (95% CI)

Number without ASD

ADOS (95% CI)

CARS (95% CI)

ADI‐R (95% CI)

Gray 2008 ADI‐R;

Gray 2008 ADOS

209

20 to 55 months

143

0.76 (0.68 to 0.83)

0.73 (0.65 to 0.80)

66

0.94 (0.85 to 0.98)

0.77 (0.65 to 0.87)

Oosterling 2010b ADI‐R;

Oosterling 2010b ADOS

208

20 to 40 months

143

0.77 (0.69 to 0.84)

0.75 (0.67 to 0.82)

65

0.83 (0.72 to 0.91)

0.63 (0.50 to 0.75)

Ventola 2006 ADI‐R;

Ventola 2006 ADOS;

Ventola 2006 CARS

45

16 to 31 months

36

0.97 (0.85 to 1.00)

0.89 (0.74 to 0.97)

0.53 (0.35 to 0.70)

9

0.67 (0.30 to 0.93)

1.00 (0.66 to 1.00)

0.67 (0.30 to 0.93)

Wiggins 2008 ADI‐R;

Wiggins 2008 ADOS;

Wiggins 2008 CARS

142

16 to 37 months

73

0.96 (0.88 to 0.99)

0.71 (0.59 to 0.81)

0.33 (0.22 to 0.45)

69

0.65 (0.53 to 0.76)

0.93 (0.84 to 0.98)

0.94 (0.86 to 0.98)

ADIR: Autism Diagnostic Interview ‐ Revised;ADOS: Autism Diagnostic Observation Schedule;ASD: autism spectrum disorder; CARS: Childhood Autism Rating Scale; CI: confidence interval.

Figuras y tablas -
Table 6. Studies addressing more than one instrument in the same study sample
Table Tests. Data tables by test

Test

No. of studies

No. of participants

1 ADOS Show forest plot

12

1625

2 CARS Show forest plot

4

641

3 ADI‐R Show forest plot

5

634

Figuras y tablas -
Table Tests. Data tables by test