21.09.2016

Дві Моделі

Original: http://echo.edres.org:8080/betsy/2models.htm

Є два домінуючих байєсівської моделі для класифікації тексту, як називаються прості Байесови моделі, оскільки вони припускають умовну незалежність.

З багатовимірному бернуллиевского моделі, кожна з есе розглядається як окремий випадок всіх каліброваних особливостей. Як і в наведеному прикладі, присутність або не присутні всіх каліброваних ознак розглядається. Типове застосування байєсівської мережі, цей підхід був використаний в класифікації текстів Льюїса (1992), Кальт і Крофт (1996) та інші.

Під бернуллиевского моделі, умовна ймовірність присутності кожного члена оцінюється за часткою документів в рамках кожної категорії, які містять цей термін. Частоти висівають з 1, щоб не нульовий ймовірності, які а) неточними, і б) буде домінувати в розрахунки. Це лапласіан корекція. Умовні ймовірності відсутності терміну є 1 мінус ймовірності присутності термінів. Тому що кожен термін у словнику необхідно вивчити, ця модель може бере багато часу, щоб обчислити.

За допомогою поліноміальної моделі, кожна з есе розглядається як зразок каліброваних особливостей. Імовірність кожного бала для даного есе обчислюється як твір ймовірностей функцій, що містяться в статті. Часто використовується при розпізнаванні мови, де він називається “модель Юніграмма мову,” цей підхід був використаний в текстовій класифікації Мітчеллом (1997), Мак-Каллум, Розенфельдом і Мітчелл (1998) та інші.

Під полиномиальной моделі, умовна ймовірність присутності кожного члена оцінюється за частотою терміна в кожній категорії, поділеній на частоту всіх термінів в даній категорії. Знову ж, лапласіан корекція використовується, а частоти висівають з 1.

МакКаллум і Нігам (1998) показали, що протягом декількох наборів даних, поліноміальний модель зовсім точний, як і більш точною, ніж модель Бернуллі. Оскільки есе часто набрав на підставі наявності або відсутності ознак, дослідження, перш ніж будь-які висновки можна зробити щодо есе скорингу.

Умовна Незалежність – наївне байесовске припущення

Наївний байесовский припущення, що порядок слів не має значення, і, отже, що присутність одного слова не впливає на наявність або відсутність іншого слова і. Це припущення, очевидно, серйозно порушуються англійською мовою. Ефект в тому, що задня класифікація ймовірності є екстремальними – часто дуже близько до нуля або одиниці. Домінгуш і Пацані (1997) показали, що точність класифікації не серйозно постраждали від порушення цього припущення.

 

About The Author

admin

Comments are closed.