Santé dentaire > problèmes oraux > Santé dentaire > Identifier les incidents cas oraux et le cancer du pharynx en utilisant le fond de l'assurance-maladie claims

Identifier les incidents cas oraux et le cancer du pharynx en utilisant le fond de l'assurance-maladie claims

 

Résumé
Baseline et données sur les tendances de l'incidence orale et cancer du pharynx est limité. Un nouvel algorithme a été calculé à l'aide de la Surveillance, Epidemiology, and End Results (SEER) -Medicare base de données liée à créer un algorithme pour identifier les cas incidents de cancer de la bouche et du pharynx à l'aide de revendications Medicare.
Méthodes
L'utilisation d'un échantillon fractionné approche, Medicare prétend «codes de procédure et de diagnostic ont été utilisés pour générer un nouvel algorithme pour identifier les cas de cancer de la bouche et du pharynx et de valider ses caractéristiques de fonctionnement.: Résultats
L'algorithme avaient une sensibilité élevée (95%) et la spécificité (97% ), qui a peu varié par groupe d'âge, le sexe, la race et l'origine ethnique. Exemples
Conclusion de l'utilité de cet algorithme et ses caractéristiques de fonctionnement comprennent l'utiliser pour obtenir des estimations de référence et des tendances de l'incidence du cancer de la bouche et du pharynx. De telles mesures pourraient être utilisées pour fournir des estimations d'incidence où ils font défaut ou pour servir des estimations de comparaison pour les registres de tumeurs.
Mots-clés
Medicare cancer buccal secondaire SEER d'analyse de données électronique matériel supplémentaire
La version en ligne de cet article ( doi:. 10 1186 /1472-6831-13-1) contient du matériel supplémentaire, qui est disponible pour les utilisateurs autorisés
Contexte
Le rapport du Surgeon General sur la santé bucco-dentaire en Amérique a déclaré que les bases de données de surveillance par voie orale et craniofaciale. pour les maladies, les services de santé, et l'utilisation des soins de santé sont limitées ou font défaut [1]. Ce rapport a appelé à la poursuite du développement et la validation des mesures de résultats [1]. L'Institut national de recherche dentaire et craniofaciale (NIDCR) a noté des préoccupations similaires [2], et décrit le besoin de données de référence afin de reconnaître les tendances au fil du temps, en particulier pour les populations mal desservies et les conditions moins communes dans la population générale [2].
Oral et pharyngée (OP) cancers sont diagnostiqués chez environ 30 000 personnes aux États-Unis chaque année, et la mortalité annuelle pour le cancer de l'OP est d'environ 7500 [1-3]. Une grande partie des cas de OP diagnostiqués sont parmi les individus âgés de 65 ans et plus [4]. Malgré le grand nombre de nouveaux cas chaque année, OP cancer relativement parlant, est une maladie rare; si grands paramètres de population sont souvent nécessaires pour répondre à des questions de recherche importantes. Ainsi, nous avons généré et validé un algorithme pour identifier les cas OP incidents basés sur les demandes d'assurance-maladie.
Les enquêteurs ont utilisé Medicare réclamations pour études sur le cancer et d'autres résultats pour la santé. Hôpital, consultations externes, et les médecins revendications peuvent être reconfigurés en bases de données longitudinales. Ceux-ci peuvent inclure des diagnostics et des interventions codes, coût des services fournis, ainsi que les dates correspondantes de ces diagnostics et procédures.
Cooper et al. [5] ont étudié la sensibilité des données de Medicare pour identifier l'incident de la prostate, du poumon, colorectal, du sein, du pancréas, et les cas de cancer de l'endomètre. Un algorithme par Freeman et al. [6] pour identifier les cas de cancer du sein d'incidents basés sur les demandes d'assurance-maladie avaient une sensibilité élevée (90%), et également mesuré la spécificité et la valeur prédictive positive de leur algorithme. McClish et Penberthy [7] utilisés Medicare prétend quantifier le nombre de cas manqués dans le registre du cancer Virginie. réclamations d'assurance-maladie ont créé une occasion unique pour leur travail car il fallait des données provenant de trois sources distinctes, le registre du cancer en Virginie, le Medicare Part A prétend, et les revendications Medicare Part B. Mandelblatt et al. [8] et Mandelblatt et al. [9] ont utilisé l'algorithme de Freeman et al. [6] pour identifier les cas de cancer du sein pour enquêter sur les traitements et les perceptions du traitement du cancer. Un intérêt particulier pour Mandelblatt et al. [8] étaient les disparités en santé raciales. En plus de l'algorithme développé par Freeman et al. [6], Nattinger et al. [10] a créé un algorithme en quatre étapes pour identifier les cas de cancer du sein chez la population Medicare et améliorer la valeur prédictive positive (≥89%) pour l'identification des cas, tout en conservant un niveau élevé de sensibilité et de spécificité.
Dans cette étude, la SEER-Medicare lié base de données a été utilisée pour calculer un algorithme qui identifie les cas de cancer incident OP chez les personnes âgées utilisant revendications Medicare seulement. Cet algorithme peut permettre des études futures de répondre aux questions de recherche sur le cancer OP à travers l'analyse des données secondaires sur les demandes d'assurance-maladie. Les individus identifiés par l'algorithme peuvent simultanément être liés à leurs dossiers médicaux (demandes d'assurance-maladie) pour évaluer les trajectoires de santé. Les estimations des taux d'incidence du cancer OP peuvent également être obtenues à l'aide de cet algorithme pour les bénéficiaires de Medicare, une population importante base inclusive de nombreuses populations difficiles à atteindre rurales et d'autres aux États-Unis.
Méthodes
sources de données
La base de données liée SEER-Medicare a été utilisé pour cette étude. Le Center for Medicare et Medicaid Services liés Surveillance, Epidemiology, and End Résultats données du registre (SEER) tumorales avec Medicare réclamations et recensement des informations pour créer le SEER-Medicare lié base de données. Ces données contiennent des informations sur les personnes atteintes d'un cancer, identifiés comme étant des cas dans le registre des tumeurs SEER, qui avaient également l'assurance-maladie comme indiqué par l'assurance-maladie des dossiers d'inscription. La quasi-totalité (97%) aux États-Unis la population de 65 ans et plus ont l'assurance maladie couverture Medicare [11], qui fournit une hospitalisation, établissement de soins infirmiers qualifiés, santé à domicile, et de soins palliatifs (Partie A) de couverture. La plupart des bénéficiaires ont également une couverture pour les services médicaux et de soins ambulatoires (Partie B) [11]. L'information démographique était également disponible à partir de fichiers de Medicare d'inscription, y compris l'adhésion à Health Maintenance Organizations, ou HMO [11]. Pour cette étude, seuls les patients hospitalisés (Partie A) et le médecin et ambulatoires réclamations (partie B) Medicare ont été utilisés. Des études antérieures de la base de données SEER-Medicare indiquent qu'environ 93,6% des cas dans le registre de la tumeur SEER ont également été inclus dans la base de données SEER-Medicare pour les sujets âgés de 65 ans et plus [12].
Le SEER-Medicare lié base de données composé de deux types de fichiers de dénominateur, le droit des patients et le diagnostic Résumé fichier (PEDSF) et fichier Sommaire des Dénominateur (SumDenom). Le fichier PEDSF contenait les données démographiques recueillies à la fois par SEER et la Social Security Administration. Ces mesures incluses telles que la date de naissance, la race, l'origine ethnique, le comté de résidence, Medicare admissibilité, l'adhésion de HMO et la date du décès. Seules les personnes diagnostiquées dans un registre SEER avec le cancer ont été inclus dans le fichier PEDSF; mesures ainsi tumorales (par exemple, le site du cancer, la date du diagnostic, le stade de la tumeur, etc.) à partir de SEER ont également été inclus dans ces fichiers. Notre fichier PEDSF inclus des patients dans la base de données liée SEER-Medicare dont le diagnostic de cancer a eu lieu de 1973 à 2002. Nous avons obtenu 100% des fichiers pour les sujets atteints de cancers diagnostiqués OP au cours de ces années. Les sujets atteints de cancers autres que le cancer OP ne sont pas inclus dans ces analyses. Le fichier SumDenom contenait des informations démographiques similaires à l'PEDSF, avec ses informations recueillies uniquement auprès de l'Administration de la sécurité sociale. Les informations contenues dans le fichier SumDenom était un échantillon de 5% des personnes vivant dans des zones SEER qui avaient non liés à un registre SEER de la tumeur. Les informations contenues dans notre fichier SumDenom couvrait les années 1986 à 2004. The Medicare revendique des portions de la SEER-Medicare liées base de données (en milieu hospitalier, le médecin et les fichiers externes) étaient liés les uns aux autres par le biais, une variable commune identifiant spécifique à l'objet. Les fournisseurs Medicare Analysis Review (MedPAR) dossiers contenaient revendications des patients hospitalisés. Ces codes inclus ICD-9-CM diagnostic, codes de procédure ICD-9-CM, ainsi que les dates correspondantes des diagnostics et des procédures. Les /fournisseur (médecin) fichiers 100% des médecins étaient un sous-ensemble des fichiers d'historique national des réclamations, et ont été désignés comme les fichiers NCH. Ces données comprenaient des codes de diagnostic ICD-9-CM et un code de procédure CPT, ainsi que les dates correspondantes de ces diagnostics et procédures. Les fichiers ambulatoire standard analytique (ambulatoire) ont également un sous-ensemble des fichiers d'historique national des réclamations, et ont été désignés comme les fichiers OutSAF. la cohorte de l'étude de ces données comprenaient les codes ICD-9-CM diagnostic, codes de procédure ICD-9-CM, et un code de procédure CPT avec les dates d'accompagnement.
Un total de cas de cancer du OP 3.050 incidents avec une date de diagnostic l'année civile 2002 ont été identifiés. La limite d'âge inférieure pour l'inclusion était de 66 ans pour permettre aux sujets de vieillissement dans l'assurance-maladie à 65 ans pour répondre à nos critères de couverture avant, laissant 2.751 cas. Afin d'assurer une information complète pour les antécédents médicaux de chaque sujet, seuls les sujets avec une couverture par l'assurance-maladie (parties A et B), mais pas par un HMO au cours de l'année précédant le diagnostic par le biais de l'année après le diagnostic (ou par la mort pour les sujets qui sont morts dans l'année de leur diagnostic) ont été inclus. À la suite de cette exclusion, 1.807 cas de cancer de l'OP sont restés. Pour les contrôles non-cancéreuses, 472,293 sujets ont été identifiés à partir du fichier SumDenom comme vivants en 2002. Une «date pseudo-diagnostic» a été attribué au hasard comme une date dans l'année civile 2002. (Stratégies d'affectation aléatoire alternatifs ne influence probable que les résultats ne les tendances temporelles relatives aux revendications associées à l'incidence du cancer de l'OP ont été anticipé.) Un total de 368,666 contrôles étaient au moins 66 ans sur ces données pseudo-diagnostic. En utilisant les mêmes critères d'inclusion /exclusion pour ces sujets pour l'assurance-maladie et pas de couverture HMO à la date pseudo-diagnostic et sa fenêtre de temps correspondant à gauche 242,654 non-OP sujets de lutte contre le cancer.
Mesures d'étude
cancers OP ont été identifiés à l'aide du SITE RECODE variables à partir des fichiers PEDSF. Les valeurs entières de 1-10 signifiaient les sites de cancer suivants (respectivement): lèvre; langue; glande salivaire; plancher de la bouche; la gomme et d'autres la bouche; nasopharynx; amygdale; oropharynx; hypopharynx; et une autre cavité buccale et du pharynx. Pour les sujets avec plus d'un diagnostic primaire à 66 ans ou plus de cancer du OP, l'apparition diagnostiqué dans l'année civile 2002 a été utilisé. L'échantillon représentatif de personnes qui ont servi de sujets témoins consistait en observations à partir du fichier SumDenom. Évaluation de Aucun variables ont été nécessaires pour les identifier en tant que témoins, comme leur position dans ce fichier d'échantillon de 5% entre eux ont identifié comme étant un bénéficiaire de Medicare vivant dans une zone de SEER qui n'a pas été diagnostiqué avec le cancer. De la performance de l'algorithme à travers diverses caractéristiques démographiques ont été réalisés dans le processus de validation. Les mesures suivantes contenues dans les deux fichiers PEDSF et SumDenom ont été utilisés pour cette analyse: le groupe d'âge, le sexe, la race et l'origine ethnique. Diagnostic et procédure codes de demandes d'assurance-maladie ont été utilisés pour l'algorithme pour prédire si un individu était un cas OP cancer incident ou non (contrôle). Les dates qui correspondaient à ces diagnostics et les procédures ont également été localisés dans les revendications Medicare, et ont été utilisés pour limiter l'apparition de ces codes à moins d'un an (avant ou après) la date potentielle d'incidence.
Construire l'algorithme
Pour générer notre algorithme, 1.807 cas de cancer OP incident avec une date de diagnostic dans l'année civile 2002 qui répondaient à nos critères d'inclusion ont été identifiés. Un total de 242,654 sujets à partir des fichiers SumDenom qui étaient vivants en 2002 et attribué au hasard une «date pseudo-diagnostic» de l'année civile 2002. Medicare (MedPAR, NCH, et OutSAF) réclamations relatives à ces sujets qui avaient une date dans un an (un an avant par un an après) leur date date de diagnostic /pseudo-diagnostic ont été sélectionnés. codes de procédure CIM-9 et les codes de procédure CPT de ces demandes ont été utilisées. Un échantillon aléatoire simple de 60% (sans remplacement) de ces sujets a été sélectionné pour dériver l'algorithme (n = 1.085 cas de cancer du OP; n = 145,548 contrôles), laissant les 40% restants (n = 722 cas de cancer du OP; n = 97,106 contrôles ) disponible pour validation. Les tableaux de contingence ont été générés pour comparer les caractéristiques démographiques et cliniques de la construction de l'algorithme (60%) et de validation (40%) des échantillons. Ces caractéristiques ont été comparées entre les échantillons en utilisant le test du chi carré de Pearson.
Revendications Medicare ont été utilisés pour générer des poids pour l'algorithme. Chaque source de réclamation (MedPAR, NCH, et OutSAF) a été traitée séparément dans le processus qui suit. La première étape de l'algorithme est de réduire le nombre de types de revendications. Ainsi, en utilisant les cas OP, seules les procédures qui ont un code ICD-9 diagnostic du cancer de la OP (valeurs 140.XX-149.XX) au moins 50% du temps que la procédure est produite ont été retenus. Ensuite, les fréquences relatives d'occurrence de (au moins un) de chacun de ces CIM-9 procédure et CPT codes uniques dans les revendications parmi les cas OP ont été calculées, puis à nouveau parmi les contrôles. Le journal 2 du rapport de ces fréquences relatives (de présence pour chaque CIM-9 code de procédure et chaque code CPT au sein de chaque source de la demande) parmi les cas OP et parmi les témoins a été utilisé pour générer un poids pour chaque code. (Pour les codes qui se sont produits seulement parmi les cas d'OP, la valeur de fréquence relative utilisée pour les sujets témoins était un divisé par le nombre de contrôles plus un pour éviter la division par zéro.) Poids avec une valeur inférieure ou égale à quatre dans la CIM -9 codes de procédure et les codes CPT ont été mises à zéro. (Cela a été justifié sur la base d'une faible discrimination entre les fréquences relatives parmi les cas OP par rapport aux contrôles.) Un score pour chaque cas d'OP et pour chaque commande a été générée en additionnant les poids pour chaque code qui était présent lors de leurs deux ans fenêtre autour de leurs dates de diagnostic /pseudo-diagnostic. Poids de la présence d'un diagnostic valeur de code de 140.XX-149.XX (code OP diagnostic de cancer) CIM-9 ont également été générés en prenant le journal 2 du rapport des fréquences relatives d'occurrence d'un tel code ( dans chaque source de données) parmi les cas OP par rapport aux témoins non cancéreux, puis en ajoutant ce poids au score de chaque sujet. Formellement, l'équation pour déterminer chacun des sujets score était Score = Σ

x
Med ·
code s
Med < mtr> + Σ

x
NCH ·
code s
NCH +
Σ
x
Out ·
code s Out
où: codes
Med
représenté les différents poids de la procédure CIM-9 et de diagnostic codes et des codes de procédure CPT défini ci-dessus à partir de la source de données MedPAR et x
Med
représenté les variables indicatrices correspondantes (1 si elle est présente; 0 si non présent) pour savoir si le sujet avait le code dans leurs revendications pendant la fenêtre de temps définie; Codes
NCH
et x
NCH
représenté ces valeurs pour la source de données NCH; et des codes
Out
et x
Out
les représenter à la source de données OutSAF.
Étant donné les scores dérivés pour chaque source de données (MedPAR, NCH, et OutSAF ), l'algorithme identifié des sujets comme des cas si elles avaient une valeur positive dans l'une quelconque de ces trois scores. Les sujets ayant une valeur de zéro dans tous les trois de ces scores ont été identifiés comme ne pas avoir le cancer du OP par l'algorithme. Histogrammes des scores pour chaque source de données et la source combinée ont été présentés pour les cas de cancer de l'OP et les contrôles. (En raison de la taille de la source de données pour les contrôles, un échantillon aléatoire simple [sans remplacement] de ceux qui ne pas avoir le cancer de l'OP a été utilisé pour sélectionner les sujets pour ces histogrammes.) Seuils supplémentaires ont également été explorées et une des caractéristiques de fonctionnement du récepteur ( ROC) courbe [13] a été présenté. Les seuils supplémentaires inclus la distance euclidienne minimale du point (0%, 100%) sur la courbe ROC (représentant 100% de sensibilité et spécificité de 100%), et qui maximise la spécificité. Les estimations de la sensibilité et de spécificité, ainsi que leurs intervalles de confiance à 95% [13] ont été générés pour chacun de ces points coupés.
Validation de l'algorithme
En utilisant les poids pour chaque code utilisé pour calculer l'algorithme correspondant, les scores étaient généré pour toutes les réclamations d'assurance-maladie (MedPAR, NCH, et OutSAF) pour chaque sujet au cours de leurs fenêtres temporelles individuelles (centrée sur leur date de diagnostic /pseudo date de diagnostic) dans le reste de l'échantillon de 40%, a appelé l'échantillon de validation. Les sujets qui avaient une valeur positive dans l'une quelconque de ces trois scores ont été identifiés par l'algorithme comme ayant un cancer de l'OP, et ceux qui ont une valeur de zéro dans tous les trois de ces scores ont été identifiés comme ne pas avoir le cancer du OP. A titre de comparaison, l'algorithme a également été évaluée au niveau des seuils supplémentaires décrits ci-dessus.
A priori l'hypothèse de recherche est que l'algorithme dérivé aurait des valeurs de sensibilité et de spécificité d'au moins 85% et 95%, respectivement. Les estimations ponctuelles et les intervalles de confiance à 95% pour ces sensibilité et la spécificité [13] ont également été générés.
Variation de la sensibilité et de la spécificité des facteurs démographiques a également été évaluée. Utilisation de l'échantillon de validation, des modèles de régression logistique inconditionnelle [14] prédire l'état du cancer tel que déterminé par l'algorithme ont été générés, d'abord parmi ceux avec le cancer du OP (sensibilité), puis chez les témoins (pour la spécificité). Backwards élimination a été utilisée pour sélectionner le modèle en utilisant le groupe d'âge, le sexe, la race et l'origine ethnique. Toutes les interactions possibles ont été autorisés, et le critère de sélection a été mis à p & lt; 0,1 (test de Wald) de rester dans le modèle. A priori
hypothèse de recherche est que les valeurs de sensibilité et de spécificité ne seraient pas varier selon les sous-groupes démographiques. Les probabilités prévues et les intervalles de 95% de confiance correspondants ont été estimés [14]. L'ajustement du modèle a été évaluée à l'aide de la bonté de l'ajustement test de Hosmer-Lemeshow [14].
Les valeurs prédictives positives et négatives ont également été estimés pour l'algorithme sur l'échantillon de validation. Ces valeurs représentent: la probabilité qu'un sujet identifié par l'algorithme comme un cas de cancer du OP était, en fait, un cas de cancer du OP (valeur prédictive positive); et la probabilité qu'un sujet indiqué par l'algorithme comme un sujet de contrôle vraiment n'a pas eu le cancer du OP (valeur prédictive négative). Parce que les contrôles ne représentaient qu'un échantillon de 5% de cette population, les sujets de cet échantillon ont été pondérées par un facteur de 20 pour obtenir une estimation appropriée pour ces valeurs. Quatre-vingt cinq pour cent des intervalles de confiance [13] ont été estimés pour cet échantillon gonflé pour ces estimations.
Ce projet a été approuvé par l'Université du Kansas Sujets Centre médical humaines Comité (HSC # 10914). Résultats de versions SAS 9.1, 9.2 et 9.3 (SAS Institute, Cary, Caroline du Nord) ont été utilisés pour la gestion des données et des analyses.
Parmi les cas de cancer de l'OP, les distributions du groupe d'âge, le sexe, la race et l'origine ethnique étaient similaire entre le bâtiment et les échantillons d'algorithme de validation. La même chose était vraie pour les échantillons de contrôle aussi bien. Ces résultats ont été présentés dans le tableau 1 1.Table distributions de fréquence (%) des caractéristiques des échantillons de construction d'algorithmes et de validation
Caractéristique
Algorithme échantillon de construction
échantillon Validation

Pearson'sx 2 test de p-valeur
cas de cancer du OP *
1085 (100,0)
722 (100,0)

Groupe d'âge
66-69
201 (18,5)
116 (16.1)
0,1370

70-74
271 (25,0)
184 (25,5)
75-79
266 (24,5)
195 (27,0)
80-84
205 (18,9)
114 (15,8)


85 ans et plus
142 (13.1)
113 (15,7) Femme

Sex

417 (38,4)
287 (39,8)
0,5738
Homme
668 (61,6)

435 (60,3)
Race et l'ethnicité
noir
59 (5.4)
43 (6.0)
0.8859
17 (1.6)
9 (1.3)
Autre
hispanique
49 (4.5)
30 (4.2)
Blanc
960 (88,5)
640 ( 88,6)
contrôles non-cancer
145548 (100,0)
97106 (100,0)
Groupe d'âge
66-69
28.549 (19,6)
19.036 (19,6)
0,2610
70-74
36.729 (25,2) sur
24.269 (25,0)
75-79
33.361 (22,9)

22597 (23,3)
80-84
24.635 (16,9)
16.479 (17,0)

85 ans et plus
22.274 (15,3)
14.725 (15,2)
Sex
Femme

89736 (61,7)
60,050 (61,8)
0,3564
Homme
55.812 (38,4)
37056 ( 38.2)
Race et l'ethnicité
Noir
10385 (7.1)
7148 (7.4)
0,0037
hispanique
3685 (2.5)
2279 (2.4)
Autre
8681 (6.0)
5897 (6.1)
Blanc
122.797 (84,4)
81.782 (84,2)

* OP:. Algorithme de bouche et du pharynx construit
les poids de chacun des codes pour générer des scores globaux ont été présentés (voir fichier supplémentaire 1: Annexe tableaux AD). Utilisation du point de coupe d'un résultat positif (gt &; 0) score, la sensibilité et la spécificité étaient de 93,9% et 96,2%, respectivement. Histogrammes des distributions des scores entre les cas de cancer de l'OP et les contrôles ont été présentés dans la figure 1. La courbe ROC pour différents seuils de la partition de l'algorithme pour indiquer un cas de cancer de l'OP a été présenté à la figure 2, en se concentrant uniquement sur les valeurs avec une spécificité élevée (& gt; 96%). Ce chiffre indique que la valeur de la plus petite distance euclidienne du point (0%, 100%) sur la courbe ROC avait une spécificité élevée. Cette distance minimale est produite lorsque les revendications Medicare classement avaient une valeur & gt; 5,48, et produit une sensibilité de 93,8% et une spécificité de 97,1%. En utilisant une approche plus ad hoc de la priorité à la maximisation de la spécificité (en raison de l'incidence relativement rare de cancer du OP), nous avons constaté que une découpe point de & gt; 37.43 avait une sensibilité de 75,0% et une spécificité de 99,3%. Ces résultats, ainsi que les intervalles de 95% de confiance correspondant, ont été présentés dans le Tableau 2. Figure 1 histogrammes des scores basés sur l'assurance-maladie revendique des sources et leur total combiné *. * Oral et pharyngée (OP) de cas de cancer (magenta) et de contrôle (bleu) marque; barres verticales de référence pour: le score cut-point initial (& gt; 0 indiquant l'algorithme identifiant comme un cas de cancer du OP) qui avait une sensibilité de 93,9% et une spécificité de 96,2%, la distance euclidienne minimale point de coupe (& gt; 5,48) qui avait une sensibilité de 93,8% et une spécificité de 97,1%, et pour la coupe point qui maximise la spécificité (& gt; 37,43). qui avait 75,0% de sensibilité et 99,3% de spécificité
figure 2 caractéristiques de fonctionnement du récepteur (ROC) courbe scores basés sur Medicare réclamations pour identifier les cas de cancer de la bouche et du pharynx incidents *. * Les lignes de référence indiqués: pour le score cut-point initial (& gt; 0 indiquant l'algorithme identifiant comme un cas de cancer du OP) avait une sensibilité de 93,9% et une spécificité de 96,2%; la sensibilité et la spécificité de la distance euclidienne cut-point minimum (& gt; 5,48) étaient de 93,8% et 97,1%, respectivement; et pour la coupe point qui maximise la spécificité (& gt; 37,43), la sensibilité était de 75,0% et la spécificité était de 99,3%
Tableau 2 Valeurs sensibilité et de spécificité pour le score différents seuils pour la construction du modèle et des échantillons de validation
. revendications Medicare marquer point de coupe
Sensibilité (IC à 95%) *
Spécificité (IC à 95%) *
& gt; 0,00
93,9 (92,5 à 95,3) /95,3 (93,8 à 96,8)
96,2 (96,1 à 96,3) /96,0 (95,9 à 96,2)
& gt; 5,48
93,8 (92,4 à 95,3) /95,3 (93,8 à 96,8)
97,1 (97,0 à 97,2) /97,0 (96,9 à 97,1)
& gt; 37,43
75,0 (72,5 à 77,6) /79,8 (76,9 à 82,7)
99,3 (99,3 à 99,3) /99,3 (99,2 à 99,3)
*%; IC: intervalle de confiance; des valeurs d'échantillons de construction de l'algorithme /valeurs d'échantillons de validation. La validation de l'algorithme
Les scores différents points de découpage produit des valeurs de sensibilité et de spécificité équivalente à celle de l'échantillon de la construction de l'algorithme. Le score cut-point initial (& gt; 0 indiquant l'algorithme identifiant comme un cas de cancer du OP) avaient une sensibilité de 95,3% et une spécificité de 96,0%. La sensibilité et la spécificité de la distance euclidienne cut-point minimum (& gt; 5,48) étaient de 95,3% et 97,0%, respectivement. Pour le point de coupe qui maximise la spécificité (& gt; 37,43), la sensibilité était de 79,8% et la spécificité était de 99,3%. Ces résultats, ainsi que les intervalles de 95% de confiance correspondant, ont été présentés dans le tableau 2.
Le modèle de sensibilité indique que la sensibilité était plus faible pour les hommes que pour les femmes (p = 0,0531). La sensibilité estimée était de 97,2% pour les femmes et 94,2% pour les hommes. (Étant donné le nombre de paramètres dans ce modèle, le test de Hosmer-Lemeshow bonté de l'ajustement n'a pas pu être réalisée.) Le modèle de la spécificité était plus complexe. Le modèle final inclus groupe d'âge (p & lt; 0,0001), le sexe (p & lt; 0,0001), la race et l'origine ethnique (p = 0,0158), et le groupe d'âge par la race et de l'interaction de l'appartenance ethnique (p = 0,0072). Aucun ajustement de manque d'significative a été détectée pour ce modèle (p = 0,5155). Tous sauf un groupe d'âge par sexe par la race et l'origine ethnique sous-groupe avait un valeurs de spécificité estimées supérieures à 95%. Le groupe avec une spécificité inférieure à ce seuil était mâles hispaniques 85 ans et plus, et avait une valeur de 94,0%. La sensibilité et la spécificité des valeurs estimées et les intervalles de confiance à 95% de ces modèles correspondants ont été présentés dans le tableau 3. En particulier, tandis que les variations statistiquement significatives ont été détectées, les valeurs de sensibilité et de spécificité étaient similaires dans groups.Table 3 ajusté les valeurs de sensibilité et de spécificité pour le minimum euclidien distance de point cut pour les échantillons de validation
Sensibilité (intervalle de confiance à 95%)
femmes (quel que soit le groupe d'âge et de la race et l'origine ethnique)
97,2 (94,5 à 98,6)
mâles (quel que soit le groupe d'âge et de la race et l'origine ethnique)
94,0 (91,4 à 95,9)
Spécificité (95% intervalle de confiance)

Ages 66-69
Femme
Noir
97,3 (96,4 à 97,9)
hispanique
98,0 (96,1 à 99,0)
Autre
98,2 (97,3 à 98,7)
Blanc
97,6 (97,4 -97.8)
Homme
Noir
96,4 (95,3 à 97,2)
hispanique
97,4 ( 94,9 à 98,7)
Autre
97,5 (96,4 à 98,3)
Blanc
96,8 (96,5 à 97,2)

Ages 70-74
Femme
Noir
97,6 (96,8 à 98,2)
hispanique
98,3 (97,2 à 99,0)
Autre
98,2 (97,5 à 98,8)
Blanc
97,1 (96,9 Tous les auteurs ont lu et approuvé le manuscrit final.