Modele de regresie liniara

Le plus souvent, l`analyse de régression évalue l`attente conditionnelle de la variable dépendante en fonction des variables indépendantes, c`est-à-dire la valeur moyenne de la variable dépendante lorsque les variables indépendantes sont fixées. Moins communément, l`accent est mis sur un quantile, ou un autre paramètre d`emplacement de la distribution conditionnelle de la variable dépendante étant donné les variables indépendantes. Dans tous les cas, une fonction des variables indépendantes appelées la fonction de régression doit être estimée. Dans l`analyse de régression, il est également intéressant de caractériser la variation de la variable dépendante autour de la prédiction de la fonction de régression à l`aide d`une distribution de probabilité. Une approche connexe mais distincte est l`analyse de condition nécessaire [1] (NCA), qui évalue la valeur maximale (plutôt que la moyenne) de la variable dépendante pour une valeur donnée de la variable indépendante (ligne de plafond plutôt que ligne centrale) afin d`identifier la valeur de la variable indépendante est nécessaire mais insuffisante pour une valeur donnée de la variable dépendante. La performance des méthodes d`analyse de régression en pratique dépend de la forme du processus de génération de données et de la façon dont elle se rapporte à l`approche de régression utilisée. Étant donné que la véritable forme du processus générateur de données n`est généralement pas connue, l`analyse de régression dépend souvent dans une certaine mesure de formuler des hypothèses sur ce processus. Ces hypothèses sont parfois testables si une quantité suffisante de données est disponible. Les modèles de régression pour la prédiction sont souvent utiles même lorsque les hypothèses sont modérément violées, même si elles peuvent ne pas fonctionner de manière optimale. Cependant, dans de nombreuses applications, en particulier avec de petits effets ou des questions de causalité basées sur des données observationnelles, les méthodes de régression peuvent donner des résultats trompeurs. 2 La première forme de régression est la méthode des moindres carrés, qui a été publiée par Legendre en 1805 [6] et par Gauss en 1809. Legendre et Gauss ont tous deux appliqué la méthode au problème de déterminer, à partir d`observations astronomiques, les orbites des corps sur le soleil (surtout les comètes, mais aussi plus tard les planètes mineures alors nouvellement découvertes) [7].

Gauss publia un nouveau développement de la théorie des moindres carrés en 1821 [8], dont une version du théorème de Gauss-Markov. Les variables indépendantes et dépendantes font souvent référence aux valeurs mesurées à des endroits ponctuels. Il peut y avoir des tendances spatiales et l`autocorrélation spatiale dans les variables qui violent les hypothèses statistiques de régression. La régression pondérée géographique est une technique pour traiter ces données. [19] en outre, les variables peuvent inclure des valeurs agrégées par zones. Avec les données agrégées, le problème de l`unité surfacale modifiable peut entraîner une variation extrême des paramètres de régression. [20] lors de l`analyse des données agrégées par les frontières politiques, les codes postaux ou les résultats des zones de recensement peuvent être très distincts avec un choix différent d`unités. C`est un fait attesté par l`expérience statistique que ces moyens ne se situent pas chaotiquement sur toute la table, mais se situent plus ou moins étroitement autour d`une courbe lisse, que nous nomons la courbe de régression de x sur y. Pour un bon modèle de régression, vous souhaitez inclure les variables que vous testez spécifiquement ainsi que d`autres variables qui affectent la réponse afin d`éviter les résultats biaisés. Minitab Statistical Software propose des mesures et des procédures statistiques qui vous aident à spécifier votre modèle de régression.

De nombreuses techniques de réalisation de l`analyse de régression ont été développées. Les méthodes familières telles que la régression linéaire et la régression des moindres carrés ordinaires sont paramétriques, dans la mesure où la fonction de régression est définie en termes d`un nombre fini de paramètres inconnus qui sont estimés à partir des données. La régression non paramétrique fait référence aux techniques qui permettent à la fonction de régression de se situer dans un ensemble de fonctions spécifié, qui peut être de dimension infinie. Où E indique la valeur attendue. Voir aussi la régression multiple et l`estimation des moindres carrés.