Modèle logistique binaire

L`idée de base de la régression logistique est d`utiliser le mécanisme déjà développé pour la régression linéaire en modélisant la probabilité pi à l`aide d`une fonction de prédicteur linéaire, c`est-à-dire une combinaison linéaire des variables explicatives et un ensemble de coefficients de régression qui sont spécifiques au modèle à la main, mais les mêmes pour tous les essais. La fonction de prédicteur linéaire f (i) {displaystyle f (i)} pour un point de données particulier i est écrite comme: la régression logistique a été développée par le statisticien David Cox en 1958. 1 [2] le modèle de régression logistique binaire a des extensions à plus de deux niveaux de la variable dépendante: les sorties catégorielles avec plus de deux valeurs sont modélisées par la régression logistique multinomiale, et si les catégories multiples sont ordonnées, par ordinale régression logistique, par exemple le modèle logistique ordinale de cotes proportionnelles. [1] le modèle lui-même modélise simplement la probabilité de sortie en termes d`entrée, et n`effectue pas de classification statistique (ce n`est pas un classifieur), bien qu`il puisse être utilisé pour faire un classifieur, par exemple en choisissant une valeur de coupure et en classant les entrées avec probabilité supérieure à la coupure comme une classe, en dessous de la coupure comme l`autre; C`est une façon courante de faire un classifieur binaire. Les coefficients ne sont généralement pas calculés par une expression de forme fermée, contrairement aux moindres carrés linéaires; Voir § raccord modèle. Afin de prouver que cela est équivalent au modèle précédent, Notez que le modèle ci-dessus est surspécifié, dans ce PR (Y i = 0) {displaystyle Pr (y_ {i} = 0)} et PR (Y i = 1) {displaystyle Pr (y_ {i} = 1)} ne peut pas être spécifié de manière indépendante: plutôt PR (Y i = 0) + PR (Y i = 1) = 1 {displaystyle Pr (y_ {i} = 0) + Pr (y_ {i} = 1) = 1} donc, sachant qu`on détermine automatiquement l`autre. Par conséquent, le modèle est non identifiable, en ce que plusieurs combinaisons de β0 et β1 produira les mêmes probabilités pour toutes les variables explicatives possibles. En fait, on peut voir que l`ajout d`un vecteur constant à chacun d`eux produira les mêmes probabilités: les degrés de liberté pour la différence entre les deux modèles sont égaux au nombre de variables prédictitrices dans le mode, et peuvent être obtenus en utilisant : On peut commencer à comprendre la régression logistique en examinant d`abord un modèle logistique avec des paramètres donnés, puis en voyant comment les coefficients peuvent être estimés («régressé») à partir des données. Considérez un modèle avec deux prédicteurs, x 1 {displaystyle x_ {1}} et x 2 {displaystyle x_ {2}}; Il peut s`agir de variables continues (en prenant un nombre réel comme valeur) ou de fonctions d`indicateur pour les variables binaires (en prenant la valeur 0 ou 1). Ensuite, la forme générale du log-Odds (ici notée par l) est: ce modèle a une variable latente distincte et un ensemble distinct de coefficients de régression pour chaque résultat possible de la variable dépendante. La raison de cette séparation est qu`il est facile d`étendre la régression logistique aux variables catégorielles à plusieurs résultats, comme dans le modèle de logit multinomiale. Dans un tel modèle, il est naturel de modéliser chaque résultat possible à l`aide d`un ensemble différent de coefficients de régression. Il est également possible de motiver chacune des variables latentes distinctes comme l`utilité théorique associée à faire le choix associé, et donc de motiver la régression logistique en termes de théorie de l`utilité.

Comments are closed, but trackbacks and pingbacks are open.