» ГЛАВНАЯ > К содержанию номера
 » Все публикации автора

Журнал научных публикаций
«Наука через призму времени»

Декабрь, 2020 / Международный научный журнал
«Наука через призму времени» №12 (45) 2020

Автор: Шаманова Любовь Сергеевна, студент
Рубрика: Физико-математические науки
Название статьи: Использование ядерных оценок плотности в задачах идентификации.

Статья просмотрена: 208 раз
Дата публикации: 11.12.2020

УДК 51

ИСПОЛЬЗОВАНИЕ ЯДЕРНЫХ ОЦЕНОК ПЛОТНОСТИ В ЗАДАЧАХ ИДЕНТИФИКАЦИИ

Шаманова Любовь Сергеевна

студентка

ФМФиТ Магистры МАТ- 1  КАЛМГУ

Республика Калмыкия, Целинный район, с. Троицкое

 

Аннотация. Одной из характерных черт современного состояния социально- экономических наук является широкое применение в них методов математической статистики. При этом практика выдвигает все новые и новые задачи, для решения которых требуются и новые методы. Таковыми, в частности, являются задачи классификации.

Байесовское решение задачи классификации. Использование принципа максимума апостериорной вероятности при классификации с обучением. Оценка априорных вероятностей и плотностей вероятностей по обучающей выборке. Параметрический подход с использованием линейного дискриминанта Фишера. Непараметрический подход с использованием оценки плотности распределения методом Розенблата- Парзена.

 

Одной из характерных черт современного состояния социально- экономических наук является широкое применение в них методов математической статистики. При этом практика выдвигает все новые и новые задачи, для решения которых требуются и новые методы. Таковыми, в частности, являются задачи классификации.

Любая схема классификации основывается на одном общем фундаментальном принципе, состоящем из двух положений:

1.               В один класс объединяются объекты, сходные между собой в некотором смысле.

2.               Степень сходства между собой у объектов, принадлежащих к одному классу, должна быть больше, чем степень сходства между собой у объектов, относящихся к разным классам.

Одной из наиболее строгих статистических процедур распознания является дискриминантный анализ.

Предметом исследования является задача статистической идентификации.

Цель исследования – теоретическое изучение задач дискриминантного анализа.

Задачи исследования:

·                 Общая характеристика методологического подхода к решению задачи упорядоченной классификации.

·                 Разработка одной модели дискриминантного анализа, именно классификатора, основанного на принципе максимума апостериорной вероятности с проверкой пяти ядер и четырех параметров сглаживания.

Методы исследования:

·                 Байесовское решение проблемы идентификации в рамках непараметрических методов;

·                 Восстановление плотности вероятностей в классе непрерывных функций методами Парзена.

Сущность байесовского метода решения проблемы классификации.

Проблема классификации возникает, когда исследователь делает некоторые число измерений, связанных с каким- то индивидуумом, и на основе этих измерений хочет отнести его к одной из нескольких категорий. Он не может непосредственно определить категорию, к которой относится индивидуум, и вынужден использовать эти измерения. Во многих случаях можно предположить, что имеется конечное число категорий или генеральных совокупностей, из которых мог быть взят рассматриваемый индивидуум, причем каждая из этих категорий характеризуется определенным законом распределения вероятностей для измерений. Таким образом, индивидуум рассматривается как случайное наблюдение над этой генеральной совокупностью. Вопрос ставится так: как пот результатам измерений определить, из какой генеральной совокупности взят данный индивидуум. [4]

Байесовское решение задачи классификации

Рассмотрим модельную постановку задачи классификации. Пусть множество исследуемых объектов разбито на К классов или групп . Каждый объект характеризуется набором  числовых параметров, которые непосредственно могут быть измерены, т. е. точкой в пространстве признаков. Предполагается, что  – случайная величина, а принадлежность объектов к разным классам выражается в том, что для объектов из класса , это случайная величина имеет расположение . Задача состоит в том, чтобы по наблюдению над  определить тот класс, к которому принадлежит соответствующий объект. [7]

Использование принципа максимума апостериорной вероятности при классификации с обучением. [1]

Для решения задачи классификации в рамках байесовского подхода с использованием принципа максимума апостериорной вероятности нам необходимо знать следующее:

1.               Априорные вероятности генеральных совокупностей, которые являются относительными частотами объектов составной генеральной совокупности, из которой извлечен объект, подлежащий идентификации.

2.               Плотности вероятностей  данного набора измерений  над объектом в К альтернативных генеральных совокупностях.

Тогда, если дан объект с измерениями , то объект относят к той совокупности, номер которой определяется из условия (1)

(1)

где

        (2)

- набор информантов для наблюдения . Правило (1) минимизирует математическое ожидание числа ложных идентификаций. Величины    пропорциональны апостериорным вероятностям классов, поэтому в данном случае,  байесовский принцип максимума апостериорной вероятности сводится к следующему: относить объект с характеристикой   к тому классу, апостериорная вероятность которого максимальна.

Оценка априорных вероятностей и плотностей вероятностей по обучающей выборке. [3,6]

Пусть имеющаяся база данных содержит результаты обследования N индивидуумов и пусть эти N объектов разбиты на K групп в соответствии с характером заболевания. Пусть   - число объектов k- ой группы. Тогда

,                                                   (3)

а оценки априорных вероятностей определяются соотношениями

(4)

Параметрический подход с использованием линейного дискриминанта Фишера. [5]

В этом случае распределение случайной величины U предполагается p-мерным нормальным в каждом из совокупностей. Линейный дискриминант Фишера опирается на предположение, что ковариационные матрицы классов равны. В этом случае ковариационная матрица оценивается по обучающим объектам всех классов, что повышает устойчивость оценки, особенно в случае малочисленных классов. Тогда  расчет информантов производится по следующему алгоритму. Представлен в формулах (5-11).

Вычисляются групповые средние

(5)

Вычисляются суммы взаимных произведений от средних

  (6)

Вычисляется объединенная ковариационная матрица

                                                   (7)

Вычисляются общие средние

                                                           (8)

Вычисляется обобщенная  статистика Махалонобиса

                            (9)

Значение V может быть использовано как хи- квадрат для проверки гипотезы, что средние значения одинаковы во всех К группах для данных p переменных. Вычисляются коэффициенты линейных дискриминантных функций

  (10)

Тогда информанты определяются соотношениями

                                                                  (11)

Непараметрический подход с использованием оценки плотности распределения методом Розенблата- Парзена.

Сущность данного метода заключается в следующем. Плотность вероятности  оценивается как функция правдоподобия

                                                                                 (12)

где   – одномерная плотность распределения, оценка которой осуществляется с помощью непараметрического метода Парзена

                                                                        (13)

Здесь где - расстояния от j-ой координаты наблюдения  от j-ой координаты всех базовых наблюдений k-ого класса, - параметры сглаживания, K(u) – функция (борелевское ядро), удовлетворяющее условиям

(14)

При программной реализации описанного алгоритма можно использовать следующие типы борелевских ядер. [2,8]

Стандартное ядро Гаусса

,                                                                                              (15)

два типа ядер с компактным носителем: ядро Епанечникова

                                                         (16)

и равнобедренное треугольное ядро

,                                                                             (17)

а также следующие два типа ядер: тригонометрическое ядро

                                                                                              (18)

Ядро Валле – Пуссена

.                                                                                            (19)



Список литературы:

  1. Антонов А. В., Чепурко В. А. Построение непараметрической плотности распределения на основании цензурированной информации // Надёжность. — М.: Издательский дом «Технология», 2005, № 2. - С. 3.
  2. Антонов А.В. Системный анализ. — М.: Высшая школа, 2004.—454 с.
  3. Деврой Л., Дьёрфи Л. Непараметрическое оценивание плотности. L1-подход. / Пер. с англ.— М.: Мир. 1988.—408с.
  4. Пенская М.Я. Об оценках априорной плотности. - В кн.: Статистические методы. Пермь:1982, с. 115-
  5. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989;
  6. Антонов А. В. Системный анализ. – М.: Высшая школа, 2004. -454с.;
  7. Деврой Л., Дьерфи Л. Непараметрическое оценивание плотности. / Пер. с англ. – М.: Мир 1988.- 408с.;
  8. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятностей и её применения. — 1969;
  9. Лапко А. В., Ченцов С. В., Крохов С. И., Фельдман Л. А. Обучающиеся системы обработки информации и принятия решений. Непараметрический подход. — Новосибирск: Наука, 1996
  10. Пенская М. Я. Об оценках априорной плотности.- В.кн.: Статистические методы. Пермь: 1982.
  11. Субботин С. В., Большаков Д. Ю. Применение байесовского классификатора для распознавания классов целей. // «Журнал Радиоэлектроники», 2006, № 4.
  12. Хардле В. Прикладная непараметрическая регрессия. — М.: Мир, 1993.


Комментарии:

Фамилия Имя Отчество:
Комментарий: