21.03.2017

Регресивна Діагностика: Тестування Припущення Лінійної Регресії

Original: http://people.duke.edu/~rnau/testing.htm

 

Чотири припущення щодо регресії

Тестування лінійності й адитивності передбачених відносин

Тестування незалежності (відсутності кореляції) помилок

Тестування на гомоскедастичність (постійну дисперсію) помилок

Тестування на нормальність розподілу помилок


Існують чотири основні припущення, які виправдовують використання моделі лінійної регресії для цілей логічного висновку або прогнозування:

(i) лінійності і адитивності відносин між залежними і незалежними змінними:

(а) очікуване значення залежної змінної є прямолінійною функцією кожної незалежної змінної, утримуючи інші фіксовані.

(б) Нахил цієї лінії не залежить від значень інших змінних.

(в) Ефекти різних незалежних змінних від очікуваного значення залежної змінної є адитивними.

(ii) статистична незалежність помилок (зокрема, відсутність кореляції між послідовними помилками в разі даних часових рядів)

(iii) гомоскедастичність (постійна дисперсія) помилок

) в залежності від часу (в разі даних часових рядів)

(б) в порівнянні з прогнозами

(в) в порівнянні з будь-якою незалежної змінної

(iv) нормальність розподілу помилок.

Якщо який-небудь з цих припущень порушується (тобто, якщо є нелінійні зв’язки між залежними і незалежними змінними або кореляції помилок виставки, гетероскедастичності або ненормальність), то прогнози, довірчі інтервали, а також наукових знань, отриманих в результаті регресійній моделі може бути (в кращому випадку) або неефективно (у гіршому випадку) серйозно упереджено або вводить в оману. Більш детальна інформація про цих припущень і обгрунтування для них (чи ні) в конкретних випадках, дається на вступ до регресії сторінці.

В ідеалі статистичне програмне забезпечення буде автоматично надавати графіки і статистичні дані, які перевіряють, чи є ці припущення виконуються для будь-якої даної моделі. На жаль, багато програмні пакети не забезпечують такий висновок за замовчуванням (додаткові команди меню повинні бути виконані або код повинен бути написаний), а деякі (наприклад, Excel вбудований в регресії надбудови) пропонують тільки обмежені можливості. Регресія дійсно дає такий висновок і в графічних деталях. Див. цю сторінку для прикладу виходу з моделі, яка порушує всі вище припущень, але, ймовірно, буде прийнято наївним користувачем на підставі великого значення R-квадрат, і див. цю сторінку для прикладом модель, яка задовольняє умовам досить добре, який отриманий з першого за допомогою нелінійного перетворення змінних. Нормальні квантильні сюжети з цих моделей також показані в нижній частині цієї сторінки.

Ви будете іноді бачити додаткові (або різні) припущення, перераховані, такі як “змінні вимірюються точно” або “вибірка є репрезентативною населення” і т.д. Ці важливі міркування в будь-якій формі статистичного моделювання, і вони повинні бути приведені належної уваги, хоча вони не належать до властивостей лінійного рівняння регресії по суті. (Догори сторінки.)


Порушення лінійності або адитивності надзвичайно серйозні: якщо ви підходите лінійну модель до даних, які нелінійно або неадитивно пов’язані між собою, ваші прогнози, ймовірно, будуть серйозно помилки, особливо, коли ви екстраполювати за межі діапазону вибірки даних.

Як діагностувати: нелінійність, як правило, найбільш яскраво проявляється в графіку спостерігається в порівнянні з прогнозованими значеннями або графіку залишків в порівнянні з прогнозованими значеннями, які є частиною стандартного виводу регресії. Точки повинні бути симетрично розташовані навколо діагональної лінії в першій ділянці або навколо горизонтальної лінії в останній ділянці, з приблизно постійною дисперсією. (Залишковий-проти-передбачені-сюжет краще, ніж спостерігається-порівнянні з прогнозом ділянки для цієї мети, оскільки він усуває візуальну відволікання візерунка похилим.) Подивіться уважно на свідоцтво “опущеною” зразок, показуючи, що модель робить систематичні помилки, коли він робить незвичайно великі або малі прогнози. У кількох моделях регресії, або нелінійність неаддитивну також можуть бути виявлені за допомогою систематичного застосування на ділянках залишкових в порівнянні з окремими незалежними змінними.

Як виправити: розглянути питання про застосування нелінійного перетворення до залежним і/або незалежних змінних, якщо ви можете думати про трансформацію, що представляється доцільним. (Не просто зробити щось!) Наприклад, якщо дані строго позитивні, логарифмічна перетворення є опцією. (Логарифм база не має значення – всі функції журналу однакові до лінійного масштабування. – Хоча натуральний логарифм, як правило, краще, так як невеликі зміни в природному журналі еквівалентні процентних змін. Див. ці замітки для більш докладної інформації.) Якщо логарифмічна перетворення застосовується до залежної змінної тільки, це еквівалентно припущенню про те, що він росте (або убуває) експоненціально залежно від незалежних змінних. Якщо логарифмічна перетворення застосовується до обох: залежною змінною і незалежними змінними, це еквівалентно припущенню, що ефекти незалежних змінних мультиплікативний, а не адитивний в своїх вихідних одиницях. Це означає, що, на полях, невелике процентне зміна в одній з незалежних змінних, індукує пропорційну процентну зміну очікуваного значення залежної змінної, при інших рівних умовах. Моделі такого роду зазвичай використовуються при моделюванні відносин ціни попиту, як це показано на прикладі продажів пива на даному веб-сайті.

Ще одна можливість розглянути, є додавання іншого регресора, що є нелінійної функцією одного з інших змінних. Наприклад, якщо ви регрес Y на X, і графік залишків в порівнянні з прогнозованими значеннями передбачає параболічну криву, то вона може мати сенс регресувати Y на Х і Х^2 (тобто X-квадрат). Останнє перетворення можливо, навіть тоді, коли X і/або Y мають негативні значення, в той час як реєстрація не є. членів вищого порядку такого роду (кубічний і т.д.) також можуть бути розглянуті в деяких випадках. Але не захоплюйтеся! Такого роду “полиномиальной апроксимації кривої” може бути хорошим способом, щоб намалювати гладку криву через хвилястим візерунком точок (насправді, це варіант тренд-лінії на діаграмах розсіювання на Excel), але це, як правило, жахливий спосіб екстраполювати за межами діапазону даних вибірки.

І, нарешті, може виявитися, що ви випустили з уваги якийсь зовсім іншу незалежну змінну, яка пояснює або виправляє для нелінійного малюнка або взаємодій між змінними, які ви бачите в ваших залишкових ділянок. У цьому випадку форма малюнка, разом з фізичної або економічній логіці, може запропонувати деякі ймовірні підозрювані. Наприклад, якщо сила лінійної залежності між Y і X1 залежить від рівня деякої іншої змінної Х2, це, можливо, могло бути вирішені шляхом створення нової незалежної змінної, яка є твором X1 і X2. У разі тимчасових рядів даних, якщо напрямок в Y, як вважають, змінилися в певний момент часу, а потім додавання змінної кусочно-лінійного тренда (одна чия рядок значень виглядає як 0, 0,…, 0, 1, 2, 3,…) може бути використаний, щоб відповідати загин даних. Така змінна може розглядатися як твір змінної тренда і фіктивної змінної. Знову ж таки, хоча, ви повинні остерігатися перенавчання приклади даних, кидаючи в штучно сконструйовані змінні, які слабо мотивовані. Зрештою, ви повинні мати можливість інтерпретувати моделі і пояснити (або продати) його іншим. (Догори сторінки.)


Порушення незалежності потенційно дуже серйозно в моделях серії регресії час: послідовна кореляція помилок (тобто кореляції між послідовними помилками або помилками, розділених деяким іншим числом періодів) означає, що є місце для поліпшення моделі, і екстремальний серійної кореляції часто є симптомом погано неправильно зазначеної моделі. Автокорреляция (також відомий як автокорреляции “) іноді є побічним продуктом порушення лінійності припущення, як і в разі простою (тобто прямий) лінії тренду, встановлених на даних, які ростуть в геометричній прогресії з плином часу.

Незалежність також може бути порушена в моделях без часових рядів, якщо помилки, як правило, завжди мають однаковий знак при певних умовах, тобто, якщо модель систематично занижене або overpredicts, що буде відбуватися, коли незалежні змінні мають певну конфігурацію.

Як діагностувати: кращий тест для серійної кореляції, щоб подивитися на серії сюжет залишкового часу (залишки в порівнянні з номером рядка) і таблиці або ділянки залишкових автокореляцій. (Якщо ваше програмне забезпечення не забезпечує їх за замовчуванням для даних часових рядів, ви повинні з’ясувати, де в меню або код, щоб знайти їх.) В ідеалі, велика частина залишкових автокореляцій повинна знаходитися в межах 95% довірчими смуг навколо нуля, які знаходиться приблизно в плюс-мінус 2-більш-коренева-оф-n, де п розмір вибірки. Таким чином, якщо розмір вибірки 50, автокореляцій має бути в діапазоні +/- 0,3. Якщо розмір вибірки дорівнює 100, то вони повинні бути в межах +/- 0,2. Зверніть особливо пильну увагу на значущі кореляції на перших двох лагов і в безпосередній близькості від сезонного періоду, так як це, ймовірно, не через простої випадковості і теж можна виправити. Статистики Дарбина-Уотсона забезпечує тест на значній залишкової автокорреляции лага 1: стат. ДУ приблизно дорівнює 2 (1-а) де а залишковий автокорреляции лаг-1, так що в ідеалі вона повинна бути близька до 2,0 – кажуть , від 1,4 до 2,6 для розміру вибірки 50.

Як виправити: незначні випадки позитивної послідовної кореляції (скажімо, лаг-1 залишкова автокорреляции в діапазоні від 0,2 до 0,4, або статистики Дарбіна-Уотсона між 1.2 і 1.6) показують, що є деякі можливості для тонкої настройки в моделі. Розгляньте можливість додавання лаги залежною змінною і/або лагів деяких незалежних змінних. Або, якщо у вас є + процедуру регресорів ARIMA доступною в статистичне програмне забезпечення, спробуйте додати AR (1) або MA (1) термін регресійній моделі. AR (1) термін додає лаг залежною змінною до рівняння прогнозування, в той час як MA (1) термін додає відставання помилки прогнозу. Якщо існує значна кореляція лага 2, то відставання 2-го порядку може бути доцільним.

Якщо існує значна негативна кореляція в залишках (лаг-1 автокорреляции більш негативним, ніж -0.3 або ДУ стату більше, ніж 2.6), стежити за можливості того, що ви, можливо, надто диференціювали деякі з ваших змінних. Диференціювання має тенденцію вести автокорреляции в негативному напрямку, і занадто багато різницевий може привести до штучних форм негативної кореляції, які відставали змінних не може коригувати.

Якщо існує значна кореляція в сезонний період (наприклад, на лагом 4 для квартальних даних або запізнюватися 12 для місячних даних), це вказує на те, що сезонність не була належним чином враховані в моделі. Сезонність можуть бути оброблені у регресійній моделі в одному з наступних способів: (i) сезонного коригування змінних (якщо вони вже не з урахуванням сезонних коливань), або (ii) використовувати сезонні лаги і/або сезонних разностная змінні (увага: будьте обережні не надто диференціюйте!), або (iii) додати сезонні змінні фіктивні моделі (тобто індикаторні змінні для різних пір року, наприклад, МІСЯЦЬ = 1 або КВАРТАЛ = 2 і т.д.) фіктивна змінної підхід дозволяє адитивне сезонне регулювання повинна бути виконана в рамках моделі регресії: інша постійна добавка може бути оцінена для кожного сезону року. Якщо залежною змінною було зареєстровано, сезонна регулювання мультиплікативний. (Щось ще, щоб стежити за: цілком можливо, що хоча ваша залежна змінна вже з урахуванням сезонних коливань, деякі з ваших незалежних змінних не може бути, в результаті чого їх сезонні моделі просочитися в прогнозах.)

Основні випадки серійної кореляції (статистики, Дарбина-Уотсона значно нижче 1,0, автокорреляции значно вище 0,5), як правило, вказують на фундаментальну структурну проблему в моделі. Ви можете переглянути перетворення (якщо такі є), які були застосовані до залежними і незалежними змінними. Це може допомогти статиціонаризувати всі змінні через відповідні комбінації різницями, протоколювання і/або викачування.

Для перевірки порушень без часових рядів незалежності, ви можете подивитися на ділянках залишків в порівнянні з незалежними змінними або ділянок залишків в залежності від кількості рядків в ситуаціях, коли рядки були відсортовані або згрупованих в деякому роді, що залежить (тільки) на значення незалежних змінних. Залишки повинні бути випадковим чином і симетрично розподілені навколо нуля при будь-яких умовах, і, зокрема, не повинно бути ніякої кореляції між послідовними помилками, незалежно від того, як рядки сортуються, до тих пір, як на якийсь критерій, який не включає в себе залежною змінною. Якщо це не так, то це може бути пов’язано з порушенням лінійності припущення або через зсув, який можна пояснити опущених змінних (скажімо, умов взаємодії або манекенів для ідентифікованих умов).
(Догори сторінки.)


Порушення гомоскедастичності (які називаються “гетероскедастичності”) зробити це важко оцінити справжнє стандартне відхилення помилок прогнозу, як правило, в результаті довірчих інтервалів, які є занадто широкими або занадто вузькими. Зокрема, якщо дисперсія помилок зростає з плином часу, довірчі інтервали для вийшли з зразка передбачення матимуть тенденцію бути нереалістично вузьким. Гетероскедастичності може також мати ефект дає занадто багато ваги до невеликого підмножині даних (а саме підмножина, де дисперсія помилки була найбільшою) при оцінці коефіцієнтів.

Як діагностувати: подивитися на ділянці залишків в порівнянні з прогнозованими значеннями і, в разі даних часових рядів, ділянці залишкам в залежності від часу. Помічайте свідоцтва невязок, які ростуть більше, або в залежності від часу або залежно від прогнозованого значення. Щоб бути дійсно впевненими, Ви повинні також генерувати графіки залишків в порівнянні з незалежними змінними, щоб шукати послідовності там. Через неточності в оцінках коефіцієнтів, помилки можуть мати тенденцію бути трохи більше для прогнозів, пов’язаних з передбаченнями або значень незалежних змінних, які є крайніми в обох напрямках, хоча ефект не повинен бути занадто драматично. Те, що ви сподіваєтеся, щоб не бачити помилки, які систематично стають більше в одному напрямку на значну величину.

Як виправити: якщо в якості залежної змінної строго позитивна і якщо залишкова версус передбачений графік показує, що розмір помилки пропорційна розміру пророкувань (тобто, якщо помилки здаються послідовними у відсотках, а не абсолютних величинах) , перетворення журналу застосовується до залежної змінної може бути доцільним. У моделях часових рядів, гетероскедастичності часто виникає через вплив інфляції і/або зростання реального з’єднання. Певне поєднання реєстрації та/або здування часто стабілізують дисперсію в цьому випадку. Фондовий ринок може показати дані періоди підвищеної або зниженої волатильності з плином часу. Це нормально і часто моделюється за допомогою так званих умовних (гетероскедастичності авторегресивний) моделі ARCH, в яких дисперсія помилки встановлюється за допомогою моделі авторегресії. Такі моделі виходять за рамки цієї дискусії, але просте виправлення буде працювати з більш короткими інтервалами даних, в яких волатильність більш майже постійним. Гетероскедастичності також може бути побічним продуктом значного порушення лінійності і/або незалежності припущень, і в цьому випадку також може бути закріплений в якості побічного продукту при фіксації тих проблеми.

Сезонні закономірності в даних є загальним джерелом гетероскедастичності в помилках: незрозумілі зміни в залежною змінною протягом усього курсу сезону може бути послідовними у відсотках, а не абсолютному вираженні, в якому будуть зроблені разі більше помилок в сезони, коли активність більше, який буде відображатися як сезонний характер зміни дисперсії на залишкових проти часу ділянки. Перетворення журналу часто використовується для вирішення цієї проблеми. Наприклад, якщо сезонний патерн моделюється за рахунок використання фіктивних змінних протягом декількох місяців або кварталів року, перетворення журналу застосовується до залежної змінної перетворює коефіцієнти фіктивних змінних мультиплікативний поправочних коефіцієнтів, а не адитивних поправочних коефіцієнтів, і помилки в прогнозуванні зареєстровану змінну буде (приблизно) інтерпретуються в процентах помилок в прогнозуванні вихідної змінної. Сезонна коригування всіх даних перед установкою регресійній моделі може бути інший варіант.

Якщо перетворення журналу вже застосовується до змінної, то (як зазначалося вище) добавку, а не мультипликативной сезонної коригування слід використовувати, якщо це варіант що ваше програмне забезпечення пропозиції. Добавка сезонної коригування в принципі аналогічний включенню фіктивні змінні для сезонів року. Будь-або-не слід налаштувати поза моделлю, а не з манекенів залежить від того, чи хочете ви, щоб мати можливість вивчити дані з урахуванням сезонних коливань все само по собі і є чи нескоректована сезонні моделі в деяких незалежних змінних. (Еквівалент змінної підхід дозволив би вирішити зазначену проблему.) (Угору сторінки.)


Порушення нормальності створюють проблеми для визначення того, істотно відрізняються від нуля і для розрахунку довірчих інтервалів для прогнозів коефіцієнти моделі. Іноді розподіл помилок “перекіс” наявністю декількох великих викидів. Так як оцінка параметрів грунтується на мінімізації квадратичної помилки, кілька крайніх спостережень можуть надавати непропорційно великий вплив на оцінки параметрів. Розрахунок довірчих інтервалів і різних тестів значущості для коефіцієнтів засновані на припущеннях нормально розподілених помилок. Якщо розподіл помилок значно ненормальних, довірчі інтервали можуть бути занадто широким або занадто вузьким.

Технічно, нормальний розподіл припущення не є необхідним, якщо ви готові взяти на себе рівняння модель вірна і ваша єдина мета полягає в тому, щоб оцінити його коефіцієнти і генерувати передбачення таким чином, щоб звести до мінімуму середньоквадратичної помилки. Формули для розрахунку коефіцієнтів вимагають не більше того, і деякі посилання на регресійного аналізу не список нормально розподілених помилок серед основних припущень. Але в цілому ми зацікавлені в робити висновки про модель і/або оцінки ймовірності того, що дана помилка прогнозу перевищить деякий поріг в певному напрямку, в цьому випадку дистрибутивні припущення мають важливе значення. Крім того, значне порушення нормального розподілу припущення часто “червоний прапор”, вказуючи, що є деяка інша проблема з модельних припущень і/або що є кілька незвичайних точок даних, які повинні бути вивчені тісно і/або що краще модель все ще чекає десь там.

Як діагностувати: кращий тест для нормально розподілених помилок нормальний імовірнісний графік або нормальний квантиль ділянку залишків. Ці ділянки в квантилів розподілу помилок в порівнянні з квантилів нормального розподілу, що має ту ж середнє значення і дисперсію. Якщо розподіл є нормальним, точки на такій ділянці повинен падати близько до діагональної опорної лінії. Дугоподібних картина відхилень від діагоналі вказує на те, що залишки мають надмірну асиметрію (тобто вони не симетрично розподілені, занадто багато помилок в одному напрямку). S-подібної кривої відхилень вказує на те, що залишки мають надмірну ексцес. Тобто що є або занадто багато, або два кілька великих помилок в обох напрямках. Іноді проблема розкривається в тому, що є кілька точок даних на одному або обох кінцях, які значно відхиляються від вихідної лінії (“випадають”), в цьому випадку вони повинні отримати найпильнішу увагу.

Є також цілий ряд статистичних тестів для нормальності, в тому числі тест Колмогорова-Смирнова, тест Шапіро-Уілка, тест Харке-Бера, і тест Андерсона-Дарлінга. Випробування Андерсона-Дарлінга (який є одним використовується регресією), як правило, вважається кращим, тому що він є специфічним для нормального розподілу (на відміну від тесту КС), і він дивиться на все розподіл, а не тільки асиметрію і ексцес (наприклад, тест ХБ). Але всі ці тести надмірно “прискіпливі” на думку цього автора. Реальні дані рідко має помилки, які абсолютно нормально розподілені, і це не може бути можливим відповідно до вашими даними з моделлю, чиї помилки не порушують припущень нормальності на рівні значущості 0,05. Це, як правило, краще звертати більше уваги на порушення інших припущень і/або впливом декількох випадають (який може бути в основному відповідальні за порушення нормальності в будь-якому випадку) і дивитися на нормальній ймовірності ділянки або нормального квантільному сюжету і зробити власні висновки про те, що проблема є серйозною і чи є вона носить систематичний характер.

Ось приклад поганий вигляд нормального квантільному ділянки (S-подібної кривої з Р = 0 для А-Д стат, що вказує на досить значне ненормальність) з аналізу продажів пива на даному веб-сайті:

І ось приклад гарного вигляду (один лінійний шаблон з P = 0,5 для А-Д стат, що вказує на відсутність істотного відходу від нормальності):

Як виправити: часто виникають порушення нормальності або тому, що (а) розподілу залежних і/або незалежними змінними є самі по собі значно ненормальних, і/або (б) припущення про лінійність порушується. У таких випадках нелінійне перетворення змінних, можливо, вилікувати обидві ці проблеми. У разі двох нормальних квантільние ділянок вище, друга модель була отримана застосуванням природне перетворення журналу до змінних в першому.

Залежні і незалежні змінні у регресійній моделі не повинні бути розподілені нормально самі по собі – тільки помилки передбачення повинні бути розподілені нормально. (Насправді, незалежні змінні не потрібно навіть бути випадковим, як і в випадку тренда або соскою або лікування або ціни змінних.) Але якщо розподілу деяких змінних, які є випадковими вкрай асиметричним або довгохвоста, його може бути важко вписати їх в лінійної моделі, чиї помилки будуть розподілені нормально, і пояснити форму їх розподілу може бути цікавою темою все само по собі. Майте на увазі, що нормальне припущення про помилку, як правило, виправдане звернення до центральної граничної теореми, яка має місце в тому випадку, коли багато випадкові зміни сумуються. Якщо основні джерела випадку не взаємодіючих адитивно, цей аргумент не виконується.

Інша можливість полягає в тому, що існує два або більше підмножини даних, що мають різні статистичні властивості, в яких повинні бути побудовані тематичні окремі моделі, або ще якісь дані повинні просто бути виключені, за умови, що існує деякий апріорно критерій, який може бути застосований, щоб зробити це визначення.

У деяких випадках проблема з розподілу помилок, в основному, через одного або двох дуже великими помилками. Такі значення слід уважно проаналізувати: вони справжні (тобто, не результат помилок при введенні даних), вони зрозумілі, подібні події можуть відбутися в майбутньому, і який вплив вони у вашій моделі облягаючі результатів? Якщо вони просто помилки або якщо вони можуть бути пояснені як унікальних подій навряд чи буде повторюватися, то у вас є підстави, щоб видалити їх. У деяких випадках, однак, може бути, що крайні значення в даних, забезпечують найбільш корисну інформацію про значеннях деяких з коефіцієнтів і/або забезпечити найбільш реалістичне керівництво по величинам помилок прогнозування. (Догори сторінки.)

About The Author

admin

Comments are closed.