Saturday, 14 January 2017

Verwenden Von Margins Command In Stata Forex

Willkommen im Institut für Digitale Forschung und Bildung Stata FAQ Wie kann ich den Randbefehl verwenden, um mehrere Interaktionen in der logistischen Regression zu verstehen (Stata 11) Der in Stata 11 neu entwickelte Ränderbefehl kann ein sehr nützliches Werkzeug sein, um Interaktionen zu verstehen und zu interpretieren. Wir werden den Befehl für ein logistisches Regressionsmodell mit zwei kategorischen durch kontinuierliche Interaktionen veranschaulichen. Wir beginnen mit dem Laden des Datasets mlogcatcon. In diesem Datensatz ist y die binäre Antwortvariable und m und s sind stetige Prädiktoren. Die Variable f. Die für weiblich steht, ist ein binärer Prädiktor. Wir werden f mit m und s interagieren. Hier ist das logistische Regressionsmodell. Sie werden feststellen, dass die f-s-Interaktion statistisch signifikant ist, während die f von m-Interaktion nicht ist. Da es sich um ein nichtlineares Modell handelt, müssen wir die Werte aller Kovariaten berücksichtigen, um zu verstehen, was im Modell vor sich geht. Wir beginnen mit einem Margins-Befehl, der die diskrete Wahrscheinlichkeitsdifferenz zwischen Männern und Weibchen für fünf verschiedene Stufen von s betrachtet, während sie m auf ihrem Mittelwert hält. Wir erhalten den diskreten Unterschied in der Wahrscheinlichkeit mit der dydx-Option mit dem binären Prädiktor. Die Variable m wird auf ihrem Mittelwert mit der Option atmeans gehalten. Während die Ergebnisse des oben genannten Margins-Befehls vollkommen korrekt sind, spiegeln sie die diskrete Änderung der Wahrscheinlichkeit für nur einen einzigen Wert von m wider. Wenn wir die atmeans-Option entfernen, erhalten wir den mittleren Randeffekt, d. h. die diskrete Änderung der Wahrscheinlichkeit für jeden der Werte von s, gemittelt über die beobachteten Werte von m. So sieht nun der Befehl margins aus. Lets Go ahead und grafische Darstellung dieser Ergebnisse einschließlich der 95 Konfidenzintervalle. Wir beginnen mit dem Platzieren von notwendigen Werten in eine Matrix unter Verwendung von Techniken, die in der Stata-FAQ gezeigt werden: Wie kann ich die Ergebnisse des Ränderbefehls grafisch darstellen. Den Matrixbefehlen folgt ein zweizeiliges Liniendiagramm. Der Ränderbefehl und die Grafik oben geben uns eine ziemlich gute Vorstellung davon, wie sich die diskrete Änderung der Wahrscheinlichkeit über verschiedene Werte von s hinweg ändert, aber wir wissen noch nicht, wie sich diese mit unterschiedlichen Werten von m ändert. Lets versuchen, die Ränder noch einmal, diesmal variiert sowohl s und m. Die ersten fünf Zeilen geben die diskrete Änderung für die fünf Werte von s, während m bei 30 gehalten wird. Die nächsten fünf Halten m bei 40. Und so weiter. Eines der interessanteren Merkmale ist, dass nur wenige der diskreten Veränderungen statistisch signifikant sind, obwohl die Gesamt-f-s-Wechselwirkung signifikant war. Nun können wir die notwendigen Werte in eine Matrix zur Vorbereitung für die Graphik sammeln. Beginnen wir mit der grafischen Darstellung der Wirkung verschiedener Werte von s mit getrennten Zeilen für jeden Wert von m. Obwohl es nicht viele signifikante Werte in der Margintabelle oben gab, sind die Zeilen für jeden der Werte von m ziemlich unterschiedlich voneinander. Während die Linie für m gleich 30 ziemlich flach ist, zeigt die Linie für m gleich 70 viel mehr Variabilität, zuerst fallen und dann steil um s gleich 50 steigen. Jetzt, da wir wissen, welche Unterschiede in s für Werte von m aussehen, können wir Reversieren Sie die Variablen im Grafikbefehl (twoway line), um zu sehen, welche Unterschiede in m für Werte von s aussehen. Natürlich suchen wir die gleichen 25 Werte wie die vorherige Grafik, nur anders organisiert. Diesmal ist die Linie für s gleich 70 diejenige, die sich von den anderen abhebt. Wenn Ihr Modell komplexer als dieses ist, müssen Sie entscheiden, was mit jeder der Kovariaten zu tun. Sie können sie konstant halten auf einen oder mehrere Werte oder können Sie über sie. Was auch immer Sie wählen, müssen Sie erkennen, dass die Werte aller Kovariaten in nichtlinearen Modellen von Bedeutung sind. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der University of California ausgelegt werden. Erforschung der Regression Ergebnisse mit Margen Sobald Sie eine Regression laufen, ist die nächste Herausforderung, um herauszufinden, was die Ergebnisse. Der Ränderbefehl ist ein leistungsfähiges Werkzeug für das Verstehen eines Modells, und dieser Artikel zeigt Ihnen, wie man es benutzt. Es enthält die folgenden Abschnitte: Die Abschnitte 1 und 2 sind direkt aus dem Statistik-Bereich von Stata for Researchers entnommen (sie werden hier zu Gunsten derjenigen, die speziell für Informationen über die Verwendung von Margen suchen, wiedergegeben). Wenn Sie mit diesem Material vertraut sind, können Sie zu Abschnitt 3 überspringen. OLS-Regression (mit nicht linearen Bedingungen) Der Ränderbefehl kann nur verwendet werden, nachdem Sie eine Regression ausgeführt haben, und wirkt auf die Ergebnisse des letzten Regressionsbefehls. Für unser erstes Beispiel, laden Sie die Auto-Datensatz, der mit Stata kommt und führen Sie die folgende Regression: sysuse auto reg Preis c. weightc. weight i. foreign i. rep78 mpg Verschiebung Ebenen der Outcome Variable Wenn Sie nur: alle von selbst , Berechnet Stata den prognostizierten Wert der abhängigen Variablen für jede Beobachtung und berichtet dann den Mittelwert dieser Vorhersagen (zusammen mit dem Standardfehler, der t-Statistik usw.). Wenn den Rändern eine kategoriale Variable folgt, identifiziert Stata zunächst alle Ebenen der kategorischen Variablen. Dann wird für jeden Wert berechnet, was der mittlere vorhergesagte Wert der abhängigen Variablen wäre, wenn alle Beobachtungen diesen Wert für die kategorische Variable hatten. Alle anderen Variablen bleiben unverändert. Also: Zuerst fragt, was der mittlere Preis wäre, wenn alle Autos heimisch waren (aber immer noch ihre vorhandenen Gewichte, Verschiebungen usw.) und fragt dann, was der mittlere Preis wäre, wenn alle Autos fremd für alle gleich sind Fünf Werte von rep78. Aber da gibt es so viele von ihnen ist ein guter Kandidat für eine grafische Darstellung. Der Befehl marginsplot nimmt die Ergebnisse des vorherigen Ränderbefehls an und wandelt sie in einen Graphen um: Bei stetigen Variablen können die Ränder natürlich alle möglichen Werte sehen, aber Sie können mit der Option: margins, at (weight (2000 4000)) Dies berechnet den mittleren prognostizierten Wert des Preises mit einem Gewicht von 2000 Pfund und dann wieder mit einem Gewicht von 4000 Pfund. Denken Sie an jeden Wert als quotscenarioquot8212die oben genannten Szenarien sind sehr einfach, aber Sie können viel komplizierter Szenarien durch Auflistung mehrere Variablen und Werte in der Option. Die Margins-Ausgabe weist zunächst jedem Szenario eine Zahl zu und gibt dann ihre Ergebnisse nach Anzahl an. Die Werte werden mit einer Numliste angegeben. Eine Numliste ist eine Liste von Zahlen wie eine Varlist ist eine Liste von Variablen und wie eine Varlist gibt es viele verschiedene Möglichkeiten, eine Numliste zu definieren. Geben Sie help numlist ein, um sie alle zu sehen. Die einfachste Methode ist nur, um die Zahlen, die Sie wollen, wie oben aufgelistet. Sie können auch eine Numliste definieren, indem Sie start (interval) end angeben: margins, at (weight (1500 (500) 5000)) Dies berechnet den mittleren prognostizierten Wert des Preises mit dem Gewicht auf 1500, 2000, 2500 usw. nach oben Bis 5000. (Die tatsächlichen Gewichte reichen von 1760 bis 4840.) Auch dies ist ein guter Kandidat für eine Grafik: Wirkung einer Kovariate Wenn Sie den Randeffekt einer Kovariate oder die Ableitung des mittleren vorhergesagten Wertes betrachten wollen In Bezug auf diese Kovariate, verwenden Sie die dydx-Option: In diesem einfachen Fall ist das Derivat nur der Koeffizient auf mpg. Was bei einem linearen Modell immer der Fall sein wird. Aber erwägen, Gewicht zu ändern. Da das Modell sowohl Gewicht als auch Gewicht im Quadrat enthält, müssen Sie berücksichtigen, dass sich beide ändern. Dieser Fall ist besonders verwirrend (aber nicht ungewöhnlich), weil der Koeffizient für das Gewicht negativ ist, aber der Koeffizient des quadratischen Gewichts positiv ist. Somit wird der Nettoeffekt des sich ändernden Gewichts für jedes gegebene Fahrzeug sehr stark von seinem Startgewicht abhängen. Der Margins-Befehl kann sehr leicht sagen, die mittlere Wirkung: Was Margen hier ist die numerische Ableitung des erwarteten Preises in Bezug auf Gewicht für jedes Auto, und dann berechnet den Mittelwert. Dabei schauen die Margen auf die tatsächlichen Daten. So betrachtet es den Effekt des Änderns des Honda Civics-Gewichts von 1.760 Pfund sowie das Ändern der Lincoln Continentals von 4.840 (das Gewicht quadrierte Bezeichnung ist wichtiger mit dem letzteren als das erstere). Es dann mittelt sie zusammen mit allen anderen Autos, um sein Ergebnis von 2,362865 zu erhalten, oder dass jedes zusätzliche Pfund des Gewichts erhöht den durchschnittlichen erwarteten Preis um 2,36. Um zu sehen, wie sich die Wirkung des Gewichts als Gewichtsänderung ändert, verwenden Sie erneut die Option at und dann die Ergebnisse: margins, dydx (weight) at (weight (1500 (500) 5000)) marginsplot Dies sagt uns, dass für niedrige Werte des Gewichts (Weniger als etwa 2000), erhöht das Gewicht tatsächlich den Preis des Autos. Jedoch für die meisten Autos steigendes Gewicht erhöht Preis. Die dydx-Option funktioniert auch für binäre Variablen: Weil aber Fremd in das Modell als i. foreign eingetragen wurde. Margins weiß, dass es nicht die Ableitung in Bezug auf ausländische (d. h. berechnen, was passieren würde, wenn alle Autos etwas mehr fremd). So berichtet es den Unterschied zwischen dem Szenario, wo alle Autos fremd sind und das Szenario, wo alle Autos inländisch sind. Sie können dies überprüfen, indem Sie: ausführen und die Subtraktion selbst durchführen. Binäre Ergebnismodelle und vorhergesagte Wahrscheinlichkeiten Der Randbefehl wird mit binären Ergebnismodellen noch nützlicher, da sie immer nichtlinear sind. Löschen Sie den automatischen Datensatz aus dem Speicher und laden Sie dann den Absolvent aus der SSCC-Website: clear use ssc. wisc. edussccpubsfilesgrad. dta Dies ist ein fiktiver Datensatz bestehend aus 10.000 Studenten. Genau die Hälfte von ihnen sind quothigh sozioökonomischen Statusquot (highSES) und die Hälfte nicht. Genau die Hälfte jeder Gruppe erhielt eine Intervention, oder quottreatmentquot (behandeln) entworfen, um die Wahrscheinlichkeit der Graduierung zu erhöhen. Die Gradvariable gibt an, ob sie tatsächlich graduiert haben. Ihre Ziele sind zu bestimmen, 1) ob die Behandlung einen Unterschied gemacht, und 2) ob die Wirkung der Behandlung unterschiedlich durch sozioökonomischen Status (SES). Sie können die erste Frage mit einem einfachen Logit-Modell beantworten: logit grad treat highSES Der Koeffizient bei der Behandlung ist positiv und signifikant, was darauf hindeutet, dass die Intervention die Wahrscheinlichkeit der Graduierung erhöht hat. Beachten Sie, dass highSES einen noch größeren Einfluss hatte. Als nächstes wird untersucht, ob der Effekt von SES abhängt, indem eine Interaktion zwischen den beiden hinzugefügt wird: logit grad treathighSES Der Koeffizient bei treathighSES unterscheidet sich nicht signifikant von Null. Aber das bedeutet wirklich, dass die Behandlung genau die gleiche Wirkung hatte, unabhängig von SES Binäre Ergebnisse werden oft in Form von Quotenverhältnissen interpretiert, also wiederholen Sie die vorherige Regression mit der oder Option, um sie zu sehen: logit grad treathighSES oder Dies sagt uns, dass die Chancen Des Abschlusses, wenn Sie behandelt werden, sind ca. 2,83 mal die Chancen des Abschlusses, wenn Sie nicht behandelt werden, unabhängig von Ihrem SES. Die Forscher manchmal verwechseln Odds Ratios mit Wahrscheinlichkeitsverhältnissen, d. H. Sie sagen, Sie sind 2,83 mal mehr quantItyquot zu absolvieren, wenn Sie behandelt werden. Das ist falsch. Wenn Sie Margins bitten, die Interaktion zwischen zwei kategorischen Variablen zu untersuchen, werden Szenarien für alle möglichen Kombinationen dieser Variablen erstellt. Sie können damit die prognostizierte Wahrscheinlichkeit der Graduierung für alle vier möglichen Szenarien (hohe SESlow SES, behandelt nicht behandelt) leicht zu erhalten: Für niedrige SES-Schüler erhöht die Behandlung die vorhergesagte Wahrscheinlichkeit des Abschlusses von etwa 0,49 auf etwa 0,73. Für hohe SES-Studierende erhöht die Behandlung die vorhergesagte Wahrscheinlichkeit des Abschlusses von etwa 0,96 auf etwa 0,98. Nun, wenn Sie diese Wahrscheinlichkeiten in die Formel für die Berechnung der Odds-Verhältnis stecken, werden Sie feststellen, dass die Odds Ratio ist 2.83 in beiden Fällen (verwenden Sie die vollen Zahlen aus der Marge-Ausgabe, nicht die zweistellige Approximationen hier). Die Behandlung addiert die gleiche Menge zu der linearen Funktion, die durch die logistische Funktion in beiden Fällen übergeben wird. Aber erinnern die Form der logistischen Funktion: Die Behandlung hat eine viel kleinere Wirkung auf die Wahrscheinlichkeit der Graduierung für hohe SES-Studenten, weil ihre Wahrscheinlichkeit ist bereits sehr hoch8212it kann nicht viel höher. Niedrige SES-Schüler sind in dem Teil der logistischen Kurve, der steil abfällt, so dass Änderungen in der linearen Funktion viel größere Auswirkungen auf die vorhergesagte Wahrscheinlichkeit haben. Der Randbefehl kann die Frage direkt beantworten. Die Wirkung der Behandlung variiert mit SEquot mit einer Kombination von dydx () und at (): Ränder, dydx (behandeln) bei (highSES (0 1)) (Sie können dies auch tun Mit Rändern highSES, dydx (behandeln).) Noch einmal sind diese die gleichen Zahlen, die Sie erhalten durch Subtraktion der oben erhaltenen Ebenen. Wir schlagen immer Blick auf Ebenen sowie Änderungen8212wnowing, wo die Änderungen beginnen, gibt Ihnen ein viel besseres Gefühl, was los ist. Es ist eine allgemeine Regel, daß es am einfachsten ist, die vorausgesagte Wahrscheinlichkeit für Subjekte, die das Marginquoton sind, zu ändern, d. h. diejenigen, deren vorausgesagte Wahrscheinlichkeit nahe bei 0,5 beginnt. Dies ist jedoch eine Eigenschaft der logistischen Funktion, nicht der Daten. Es ist eine Annahme, die Sie vornehmen, wenn Sie ein Logitmodell ausführen möchten. Multinomial Logit Multinomiale Logitmodelle können noch schwerer interpretiert werden, da die Koeffizienten nur zwei Zustände vergleichen. Löschen Sie den Statas-Speicher und laden Sie den folgenden Datensatz, der sorgfältig konstruiert wurde, um die Fallstricke bei der Interpretation multinomialer Logit-Ergebnisse zu veranschaulichen: clear use ssc. wisc. edussccpubsfilesmarginsmlogit. dta Es enthält zwei Variablen, eine Ganzzahl y, die die Werte 1, 2 und 3 übernimmt 3 und einer stetigen Variablen x. Sie sind negativ korreliert (cor y x). Führen Sie nun das folgende Modell: Der Koeffizient von x für das Ergebnis 2 ist negativ, so dass seine Versuchung zu sagen, dass als x erhöht die Wahrscheinlichkeit von y ist 2 Abnahmen. Aber in der Tat, das ist nicht der Fall, wie der Ränder Befehl wird Ihnen zeigen: Ränder, dydx (x) vorhersagen (Ergebnis (2)) Die Vorhersage () - Optionen können Sie die Antwort Ränder zu untersuchen. Vorhersage (Ergebnis (2)) gibt an, dass Sie an der erwarteten Wahrscheinlichkeit des Ergebnisses interessiert sind 2. Und tatsächlich erhöht sich die Wahrscheinlichkeit von Ergebnis 2 mit x. Wobei das Derivat 0,016 ist. Wie kann daran erinnert werden, dass die von mlogit angegebenen Koeffizienten nur die Wahrscheinlichkeit eines gegebenen Ergebnisses mit dem Basisergebnis vergleichen. Somit weist der x-Koeffizient von -5,34 für das Ergebnis 2 darauf hin, daß sich die Beobachtungen wahrscheinlich von dem Ergebnis 2 zu dem Ergebnis 1 verschieben werden. In der Zwischenzeit liefert der x-Koeffizient von -21,292 für das Ergebnis 3, daß bei einer Erhöhung der Beobachtungen die Wahrscheinlichkeit zunimmt, sich zu bewegen Von Ergebnis 3 bis Ergebnis 1. Was es nicht sagen, ist, dass, wie x erhöht Beobachtungen auch von Ergebnis 3 zu Ergebnis 2 zu bewegen, und in der Tat, dass die Wirkung dominiert die Bewegung von 2 bis 1. Sie können es sehen, wenn Sie die Basiskategorie ändern Der Regression: mlogit yx, base (2) Nun geben die Koeffizienten die Wahrscheinlichkeit für jedes Ergebnis im Vergleich zu dem Ergebnis 2 an und die Tatsache, daß der negative x-Koeffizient für das Ergebnis 3 viel größer ist (in absoluten Zahlen) als das positive x Koeffizient für das Ergebnis 1 zeigt an, dass zunehmendes x die Wahrscheinlichkeit des Ergebnisses erhöht 2. Wir empfehlen dringend, mit Margen zu erkunden, was Ihre Regressionsergebnisse bedeuten. Letzte Änderung: 2142014


No comments:

Post a Comment