Параметрические и непараметрические методы. Параметрические и непараметрические методы обработки данных. Основания для принятия решения о выборе метода. Меры среднего и меры разброса. U-критерий Манна-Уитни для независимых выборок

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки Красноярского края

Государственное образовательное учреждение

высшего профессионального образования

«Сибирский государственный аэрокосмический университет

имени академика М.Ф. Решетнева»

Кафедра системного анализа и исследования операций

по теме: «Параметрические и непараметрические методы оценивания»

Выполнил студент

группы БС 11-01

Малаховский М. А.

Проверил преподаватель

Медведев А.В.

Красноярск 2013

ВВЕДЕНИЕ

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Параметрические методы оценки

Непараметрические методы оценки

ПРАКТИЧЕСКАЯ ЧАСТЬ

Практическая часть №1

Практическая часть №2

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ВВЕДЕНИЕ

В последние годы сравнительно остро возникла проблема решения разнообразных задач кибернетики в условиях, когда объем априорной информации об исследуемом процессе или объекте оказывается довольно малым, и сведения о функции цели, ограничениях, действующих на него, не являются исчерпывающими. Это объясняется тем фактом, что быстрая замена одних технологических процессов другими, замена технологического оборудования или его модернизация приводят к необходимости развития методов и подходов построения разнообразных адаптивных систем, способных в процессе функционирования, с целью рационального ведения этих процессов, улучшать свои рабочие характеристики. Потребность в построении обучающихся систем возникает не только в технологических и производственных процессах, но и в других областях деятельности человека (экономика, медицина, социология, биология и т.п.). По существу речь идет об исследуемом объекте и достаточному для математической постановки задачи, которая имеет место в каждом конкретном случае.

Непараметрическая статистика, в частности стохастические аппроксимации различных типов, явились основой для разработки соответствующих адаптивных систем. Последние сохраняют основные свойства стохастических аппроксимаций, которые были положены в основу при их синтезе, и тесно связаны с объемом априорной информации. В данном реферате основное внимание уделяется изложению информации о параметрических и непараметрических системах адаптации.

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Параметрические методы оценки

Процедура Роббинса-Монро

Пусть f(x) - некоторая неизвестная функция, значения которой могут быть измерены в любой точке x E 1 . Функция f(x) - монотонная, непрерывная и имеет единственный корень f(x)=0 в точке x 0 . Задача состоит в том, чтобы выработать такой план эксперимента, чтобы x s x 0 при s. Наблюдения y s =f(x s) статически независимы. Тогда имеем

y s +1 (x s , )=f (x s )+g (s +1,x s , (s +1, )),

где (s,) - последовательность независимых случайных величин, определенным на некотором вероятностном пространстве (,U,P) - элементарные случайные события, причем M{g(s,x,)}=0 при любых xE 1 . Для решения этой задачи Роббинса-Монро предложена следующая процедура

x s +1 =x s + s f s +1 (x s , ),

где x 0 - произвольное число. Последовательность положительных чисел s удовлетворяет условиям Роббинса-Монро

Первое из этих условий необходимо для сходимости x s к x 0 при s даже при отсутствии случайных ошибок. Иными словами, необходимо, чтобы s были не слишком малыми. с другой стороны s должны быть не слишком большими, в противном случае случайные ошибки нарушают эту сходимость, поэтому необходимо выполнение второго условия (1.4.5).

Теорема 1.1. Пусть выполнены неравенства:

1) sup f (x )(x-x 0)<0 >0,

<x-x 0 < -1 ,

2) f 2 (x )+M {g 2 (s,x, )}<b (1-x 2), b>0 - постоянная.

Тогда при выполнении условий Роббинса-Монро для любого xЕ 1 , процесс x s , определяемый (1.4.4), сходится с вероятностью 1 при s к корню уравнения f(x)=0, т.е. к x 0 и

P {lim x s =x 0 }=1.

Можно также показать, что x s сходится к x 0 в среднеквадратическом.

Алгоритм Литвакова

Алгоритм Литвакова позволяет отыскать близкое к оптимальному значение вектора параметров с помощью следующей процедуры

при не оптимальном.

Сущность его состоит в следующем.

Пусть дана обучающая выборка объема. Положив и, где а - некоторая постоянная, осуществляется итеративный процесс вычислений по формуле на п -ом шаге находится, которое принимается в качестве нового начального условия и процесс вычислений продолжается по той же самой выборке.

В результате получаем оценку. Продолжая этот процесс к -раз, найдем оценку. Результат Литвакова и состоит в том, что оценка для достаточно больших к (точнее) приближается к. Во многих практических задачах к не превышает 5.

Алгоритм Кестена

Известно, что скорость сходимости рекуррентных вероятностных алгоритмов типа при определяется степенным знаком - это следствие влияние помех. Если бы помехи отсутствовали, то следовало бы и скорость сходимости при этом возрастает и определяется показательным законом.

Сущность алгоритма Кестена состоит в том, что вдали от роль помех при измерениях мала и разность будет иметь постоянный знак, а вблизи знак уже существенно зависит от помех и будет меняться. Поэтому в алгоритме Кестена не меняется, когда разность уже не меняет своего знака, и меняется, если знак изменяется.

Чтобы определить разность необходимо по крайней мере два наблюдения. Поэтому и выбираются произвольно (обычно равными единице). Дальнейшее определение подчинено правилу

где целочисленная функция, определяемая выражением

где z - произвольный аргумент.

Непараметрические методы оценки

Здесь мы рассмотрим стохастические аппроксимации непараметрического типа. Основным их отличительным свойством от известных является отсутствие этапа выбора конкретной формы аппроксимирующего полинома с точностью до вектора параметров.

Непараметрические аппроксимации основаны на соответствующих оценках плотности вероятности, введенных Парзеном Е. в 1962 г.

Непараметрическая оценка плотности вероятности

Пусть х i ., статически независимые наблюдения случайной величины х, распределенной с плотностью вероятности р(х). Естественно связать с каждой точкой дельта функцию, тогда статистика

оказывается несмещенной оценкой р(х) .

Действительно, вычислим M{p(x)}:

Поскольку p(x 1)=p(x 2)=…=p(x n),то и

Следовательно,

Применяя известное свойство д-функции, получим а это и означает несмещенность данной оценки, но она не может быть использована в конкретных расчетах, поэтому естественно д-функцию "размазать" в окрестности точки

где уже не дельта-функция, но обращается в последнюю при n>?.Далее, в качестве мы будем рассматривать следующий тип колоколообразных функций

Тогда оценка p n (x)примет вид

где интегрируемая с квадратом функция Ф такова, что

а параметр С n (коэффициент размытости) удовлетворяет условиям:

C n >0, n=1,2…,

Непараметрическая оценка кривой регрессии

Пусть имеется статически независимые наблюдения двух случайных величин (х,у)=(х 1 ,у 1),…,(х n ,у n), распределенных с неизвестной плотностью вероятности Р(х,у). Предполагается, что р(х)>0 x(x). При аппроксимации неизвестных стохастических зависимостей у от х часто используют регрессию у по х:

непараметрическая оценка которой, как известно, имеет вид

Данную оценку можно получить из подстановкой в нее непараметрической оценки двумерной плотности вероятности Р(х,у) и при условии, что

Выполнение последнего требования всюду в дальнейшем предполагается.

ПРАКТИЧЕСКАЯ ЧАСТЬ

Практическая часть №1

Постановка цели

В первой части практической работы необходимо получить приближение зависимости, используя параметрические методы оценки.

Заранее известна функция, для которой нужно получить приближение - 1)y=0,35*cos(0.5x) - пробный эксперимент; 2)y=sin(0.5x). Исходя из зависимости, необходимо сформировать выборку, с помощью которой собственно и необходимо оценить параметры для приближения.

Практические результаты

Хотелось бы отметить, что, так как зависимость заранее известна и на заданном промежутке данная кривая схожа с прямой, параметр оценки всего один. Это сделано, прежде всего, для лучшего понимания процесса.

Для приближения не случайно выбрана несовпадающая структура, это вносит некоторые помехи в выборочные значения.

В данной работе использовалось процедура Робинса-Монро, которая была оптимизирована с помощью алгоритмов Литвакова и Кестона. В результате этой оптимизации, параметр не влияет на оценку параметра. Доказательством чего является процесс сходимости при разных.

1)y=0,35*cos(0.5x) - пробный эксперимент

В качестве приближения была выбрана следующая зависимость -

При выборке n=100

Увеличим выборку (n=400):

В качестве приближения возьмем -

При сходимости по параметрам, но при неправильном выборе структуры, модель может быть неадекватной реальному объекту или процессу, требуют знания структуры.

В качестве приближения была выбрана следующая зависимость -

В целом, можно отметить, что полученные результаты достаточно неплохи, потому что график функции и приближения схожи, а значение среднеквадратической ошибки не так велико.

Вывод: При сходимости по параметрам, но при неправильном выборе структуры, модель может быть неадекватной реальному объекту или процессу, требуют знания структуры. Если структура выбрана верно, то с увеличением выборки аппроксимация становится лучше.

Практическая часть №2

параметрический стохастический аппроксимация регрессия

Постановка задачи

В данной части работы необходимо получить приближение зависимости с помощью непараметрических методов оценки.

Также как и в первой работе, изначально известна функция - y=7 cos(x), для которой необходимо получить приближение. Исходя из данной зависимости, необходимо получить выборку значений. После чего, полученные выборочные значения должны быть использованы для получения зависимости. Зависимость нужно восстановить, используя методы непараметрической оценки.

Практические результаты

В данной работе получение приближения осуществлялось с помощью следующей оценки:

Параметр размытости (сглаживания) был определен следующим образом - =0,4. В результате получилось следующее приближение:

При выборке n=100

Попробуем увеличить выборку (n=400)

Аппроксимация становится лучше.

Для того чтобы убедиться в правильности работы процедуры, данная непараметрическая оценка была применена к другой функции: y=sin(x)

При выборке n=400

В данной работе проводились эксперименты со значением параметра размытости. Значение сначала было увеличено, затем уменьшено. Итогом увеличения параметра стало следующее приближение:

При выборке n=100 и =7

Аппроксимация хуже, что еще раз доказывает правильность работы процедуры.

А при выборке n=100 и =0.2:

Уменьшение же параметра не привило, к каким либо кардинальным изменениям, в силу того, значение параметра =0,4 достаточно мало, чтобы получить достойное приближение.

Попробуем одновременно увеличить выборку и параметр размытости:

Точная аппроксимация, совпадение с истиной.

Вывод: При увеличении объема выборки и уменьшении параметра размытости аппроксимация улучшается, независимо от функции, для которой необходимо получить приближение, не требуется знание структуры.

ЗАКЛЮЧЕНИЕ

Таким образом, можно сделать следующие выводы:

«Параметрический подход» подразумевает, что мы знаем структуру исследуемого процесса или объекта, но не знаем параметры этой структуры, эти параметры необходимо определить.

От уровня априорной информации зависит то, с каким видом алгоритма (параметрическим или непараметрическим) мы будем работать. Если априорной информации достаточно для выбора структуры объекта, то можно работать с параметрическими алгоритмами. Непараметрический подход используется в случаях недостаточной априорной информации об изучаемом процессе, объекте. Непараметрический и параметрический подходы имеют свои преимущества и недостатки.

Преимущества параметрических алгоритмов:

· Менее ресурсоемкие алгоритмы (требует меньшего количества вычислительных операций в сравнении с непараметрическими алгоритмами);

· После определения неизвестных коэффициентов мы можем определить характер поведения объекта или процесса в любой части допустимой области.

Недостатки параметрических алгоритмов:

· Требуют знания структуры объекта, процесса;

· При сходимости по параметрам, но при неправильном выборе структуры, модель может быть неадекватной реальному объекту или процессу.

Преимущества непараметрических алгоритмов (непараметрическая аппроксимация):

· Отсутствие необходимости выбора структуры объекта с точностью до вектора неизвестных параметров;

· Универсальность алгоритмов позволяет работать с различными зависимостями;

· При увеличении объема выборки, согласно среднеквадратичной сходимости, оценка функциональной зависимости сходится к истинной зависимости.

Недостатки непараметрических алгоритмов (непараметрическая аппроксимация):

· Большое число вычислительных операций (в сравнении с параметрическим подходом);

· Являются более сложными методами обработки исходной информации (выборки).

СПИСОК ЛИТЕРАТУРЫ

1. Медведев А.В. Математические основы теории адаптивных систем. Красноярск, СибГАУ, 2007.

2. Методы стохастической аппроксимации.

Размещено на Allbest.ru

Подобные документы

    Главная задача спектрального анализа временных рядов. Параметрические и непараметрические методы спектрального анализа. Сущность понятия "временный ряд". График оценки спектральной плотности для окна Дирихле, при центрированном случайном процессе.

    курсовая работа , добавлен 17.09.2009

    Первые два момента состоятельной оценки спектральной плотности, исследование асимптотического поведения математического ожидания и дисперсии построенной оценки. Сравнительный анализ оценки спектральной плотности в зависимости от окон просмотра данных.

    курсовая работа , добавлен 12.04.2012

    Формализм Якверта. Оценка физической плотности вероятности для оценки риск-нейтральной плотности. Оценка опционов на покупку по теореме Бридена–Литценбергера. Использование свойств функции полезности Канемана–Тверски для прогнозирования финансовых рынков.

    контрольная работа , добавлен 17.10.2016

    Исследование первого момента состоятельной оценки взаимной спектральной плотности. Задачи спектрального анализа временных рядов. Графики оценки для временного ряда, представляющего собой последовательность наблюдений температуры воздуха в городе Бресте.

    курсовая работа , добавлен 16.08.2011

    Исследование кривой второго порядка. Определение типа кривой с помощью инвариантов. Приведение к каноническому виду, построение графиков. Исследование поверхности второго порядка. Определение типа поверхности. Анализ формы поверхности методом сечений.

    курсовая работа , добавлен 28.06.2009

    Оценивание параметров закона распределения случайной величины. Точечная и интервальная оценки параметров распределения. Проверка статистической гипотезы о виде закона распределения, нахождение параметров системы. График оценки плотности вероятности.

    курсовая работа , добавлен 28.09.2014

    Нахождение выборочной средней и дисперсии. Построение гистограммы продолжительности телефонных разговоров и нормальной кривой Гаусса. Нахождение групповых средних и коэффициента корреляции. Выборочные характеристики и параметры уравнений регрессии.

    контрольная работа , добавлен 30.11.2013

    Подходы к оценке кредитного риска: недостатки методик Базеля II. Модели оценки: качество и прозрачность методик, структура данных. Скоринговые методики, кластерный и дискриминантный анализ, нейронные сети и дерево классификаций, data mining и регрессии.

    курсовая работа , добавлен 21.08.2008

    Понятие вероятности события. Петербургский парадокс. Выявление наличия взаимосвязи между признаками в регрессионном анализе. Сравнение коэффициентов корреляции и регрессии. Нахождение тренда с прогнозами в Excel. Методы математического программирования.

    контрольная работа , добавлен 12.02.2014

    Определение вероятности наступления определенного события по законам теории вероятности. Вычисление математического ожидания, дисперсии и среднего квадратичного отклонения. Нахождение выборочного уравнения регрессии по данным корреляционной таблицы.

Статистические шкалы

Статистическая обработка данных исследования

Статистические данные применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в эксперименте, возможно больше полезной информации.

Применение тех или иных статистических методов определяется тем, к какой статистической шкале относится полученный материал.

Шкала наименований. К этой шкале относятся материалы, в которых изучаемые объекты отличаются друг от друга по их качеству, а порядок не важен. Например, распределение участников конференции. При статистической обработке таких материалов нужно считаться с тем, каким числом единиц представлен каждый объект.

Шкала порядка. Порядок следования объектов находится в центре внимания. К этой шкале в статистике относятся такие исследовательские материалы, в которых рассмотрению подлежат объекты, принадлежащие к одному или нескольким классам, но отличающиеся при сравнении одного с другим: больше – меньше, выше – ниже и т.п.

Проще всего показать типические особенности шкалы порядка, если обратиться к итогам любых спортивных соревнований. В них последовательно перечисляются участники, занявшие соответственно первое, второе, третье и прочие

по порядку места, а сведения о фактических достижениях спортсменов отходят на второй план, или отсутствуют.

Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных единицах. Материалы, соответствующие шкале интервалов, должны иметь единицу измерения, которая была ба при всех повторных измерениях тождественной самой себе.

Шкала отношений. К этой шкале относятся материалы, в которых учитывается не только число фиксированных единиц, как в шкале интервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолютную точку, от которой и ведется отсчет.

Если данные, которыми располагает исследователь, при их внимательном рассмотрении лишь в незначительной степени расходятся с кривой нормального распределения Гаусса, то это дает право исследователю применять в статистической обработке параметрические методы, исходные положения которых основываются на нормальной кривой распределения Гаусса. Нормальное распределение называют параметрическим потому, что для построения и анализа кривой Гаусса достаточно иметь всего два параметра: среднее арифметическое, значение которого должно соответствовать высоте перпендикуляра, восстановленного в центре кривой, и так называемое среднее квадратическое, или стандартное, отклонение – величины, характеризующей размах колебаний данной кривой.

При невозможности применить параметрические методы, надлежит обратиться к непараметрическим.

Вопросы по непараметрическим критериям.

Статистический критерий – решающее правило, обеспечивающее принятие истинной и отклонение ложной гипотезы с высокой вероятностью Одновременно с этим статистический критерий – метод расчета определенного числа и само это число.

Параметрические критерии используются в случае, когда выборка является нормальной, при этом в расчет в данных критериях включены признаки вероятностного распределения признака, то есть средние и дисперсия. При этом предполагается, что данные непрерывны. К параметрическим критериям относятся: t-критерий Стьюдента, критерий хи-квадрат. Подходят для шкал интервальных отношений.

Непараметрические критерии используются, когда нельзя говорить о нормальном распределении, критерии основаны на оперировании рангами или частотами. К непараметрическим относятся критерий знаков, критерий Вилкоксона, критерий Манна-Уитни, Джонкхиер. Подходят для шкал, более слабых, чем интервальные.

Перед выбором критерия мы должны проверить выборку на нормальность.

Я понятия не имею, что написать по мерам среднего и мерам разброса, ибо судя по всему там все те же понятия дисперсии и бла бла прочего *_*

2. Методы проверки статистических гипотез: t-критерий,критерий Вилкоксона, критерий Манна-Уитни,Краскал-Уоллеса(условия применения, формулировка гипотез, распределения статистик, идея расчета)

t-критерий (Стьюдент) – применяется если выборка нормальная. Гипотезы формулируются таким образом:

1. формулируется H0

2. формулируется H1, альтернативная H0 (обычно она свидетельствует о взаимодействии признаков).

3. Выбирается статистика для выбора между двумя гипотезами

4. Для каждого уровня значимости α устанавливается критическая область, где а) попадание результата в эту область свидетельствует скорее об H1, чем об H0 б) вероятность попадания результата в эту область при H0 истинной равна α.

Вероятность допустимой ошибки первого рода α=0,05, если значение критерия по нашей выборке окажется больше t 0,05 , то мы принимает гипотезу H0, отвергаем гипотезу H1.

Для одной выборки

Для независимых выборок.

Критерий знаковых рангов Вилкоксона – рассматривает не значения чисел в выборке, а лишь их знаки. Критерий учитывает абсолютные величины членов выборки. Применяется в случае, когда выборка может не быть нормальной и когда требуется решить, имеет ли выборка существенно отличное от нуля среднее значение. Для применения требуется:

1) Установить уровень значимости α и найти соответствующий нижний квантиль Вилкоксона.


2) Расположить все члены выборки в порядке возрастания абсолютной величины, подписать под ними ранги.

3) Вычислить статистику Вилкоксона, для чего подсчитать сумму рангов, приписанных отрицательным членам выборки.

4) Сравнить полученную статистику с найденным ранее квантилем. Если эта сумма рангов меньше нижнего квантиля, мы отвергаем гипотезу H0, принимает гипотезу H1. Точно так же если сумма рангов всех положительных членов выборки больше верхнего квантиля, мы принимаем H1 и отвергаем H0.

Критерий Манна-Уитни (U) – критерий для независимых выборок, аналог t-критерия Стьюдента. Его эмпирическое значение показывает, насколько совпадают два ряда значений признака. Применяется когда выборка может не быть нормальной, сохраняется лишь требование подобия распределений, но они не обязаны быть нормальными + когда требуется решить проблему, можно ли утверждать о том. Что среднее значение экспериментальной выборки существенно выше среднего значения контрольной группы.

1) Записываем члены обеих выборок в порядке возрастания, выделяя при этом члены различных выборок по-разному.

2) Для каждого числа первой (контрольной) выборки подсчитываем, сколько чисел второй (экспериментальной) выборки расположено левее него. Если число первой выборки равно числу второй, то прибавляем 0,5. Получаем последовательной результатов и складываем ее.

3) Смотрим на выбранном нами уровне значимости нижний квантиль по Манну-Уитни. Если полученная нами сумма меньше нижнего квантиля, то отвергаем гипотезу H0, принимаем гипотезу H1.

Распределение Манна-Уитни симметрично (т.е. можно подсчитывает по обратной схеме и использовать верхнюю квантиль).

Критерий Краскал-Уоллеса – является непараметрическим аналогом однофакторного дисперсионного анализа для независимых выборок. Сходен с критерием Манна-Уитни. Оценивает степень совпадения нескольких рядов значений измененного признака. Основная идея – представление всех значений сравниваемых выборок в виде общей последовательности ранжированных значений с последующим вычислением среднего ранга для каждой из выборок.

Вычисляется после ранжирования.

N – суммарная численность всех выборок.

k – количество сравниваемых выборок.

R i – сумма рангов для конкретной выборки.

n i – численность выборки i.

Чем сильнее различаются выборки, тем больше вычислительное значение H, меньше p-уровень значимости. При отклонении нулевой статистической гипотезы принимается альтернативная о статистически достоверных различиях по данному признаку без конкретизации направления различий. (для направления необходим критерий Манна-Уитни, т.к. он для двух выборок, а этот для больше двух).

Рассмотренная выше общая стратегия оценки статистических гипотез в первую очередь определяет применение так называемых параметрических методов математической статистики.

Параметрические методы основаны на некоторых, как правило, вполне вероятных предположениях о характере распределения случайной величины. Обычно параметрические методы, используемые в анализе экспериментальных данных, основаны на предположении нормальности распределения этих данных. Следствием такого предположения является необходимость оценки исследуемых параметров распределения. Так, в случае рассматриваемого далее t -теста Стьюдента такими оцениваемыми параметрами являются математическое ожидание и дисперсия. В ряде случаев делаются дополнительные предположения по поводу того, как параметры, характеризующие распределение случайной величины в разных выборках, соотносятся между собой. Так, в тесте Стьюдента, который часто используют для сравнения средних значений (математического ожидания) двух рядов данных на предмет их однородности или неоднородности, дополнительно делается предположение об однородности дисперсий распределения случайных величин в двух генеральных совокупностях, из которых эти данные были извлечены.

Достоинством методов параметрического анализа данных является тот факт, что они обладают достаточно высокой мощностью. Под мощностью теста имеют в виду его способность избегать ошибки второго рода, или β-ошибки. Чем меньше оказывается β-ошибка, тем выше мощность теста. Иными словами, мощность теста = 1 – β.

Высокая мощность параметрических тестов, или критериев, обусловлена тем, что данные методы требуют, чтобы имеющиеся данные были описаны в метрической шкале . Как известно, к метрическим шкалам относят интервальную шкалу и шкалу отношений, которую иногда еще называют абсолютной шкалой. Интервальная шкала позволяет исследователю выяснить не только отношения равенства или неравенства элементов выборки (как это позволяет сделать шкала наименований ) и не только отношения порядка (как это позволяет сделать шкала порядка ), но также и оценивать эквивалентность интервалов. Абсолютная шкала вдобавок к этому позволяет оценивать эквивалентность отношений между элементами множества, полученными в ходе измерения. Именно поэтому метрические шкалы относят к сильным измерительным шкалам. Благодаря этой силе параметрические методы позволяют более точно выразить различия в распределении случайной величины при условии истинности пулевых или альтернативных гипотез.

Следует также отметить, что в целом параметрические методы статистики более разработаны в теории математической статистики и поэтому применяются значительно шире. Практически любой экспериментальный результат может быть оценен с помощью какого-либо из этих методов. Именно такие методы и рассматриваются преимущественно в учебниках и руководствах по статистическому анализу данных.

В то же время трудности, связанные с использованием методов параметрического анализа в статистике, состоят в том, что в ряде случаев априорные предположения о характере распределения исследуемых случайных величин могут оказаться неверными. И эти случаи весьма характерны именно для психологических исследований в тех или иных ситуациях.

Так, если сравнивать две выборки с помощью t -теста Стьюдента, можно обнаружить, что распределение наших данных отличается от нормального, а дисперсии в двух выборках значительно разнятся. В этом случае использование параметрического теста Стьюдента может до некоторой степени исказить выводы, которые хочет сделать исследователь. Такая опасность увеличивается, если значения вычисленной статистики оказываются близкими к граничным значениям квантилей, которые используются для принятия или отвержения гипотез. В большинстве случаев, однако, как, например, в случае использования t -теста, некоторые отклонения от теоретически заданных предположений оказываются некритичными для надежного статистического вывода. В других случаях такие отклонения могут создавать серьезную угрозу такому выводу. Тогда исследователи могут разрабатывать специальные процедуры, которые могут скорректировать процедуру принятия решения по поводу истинности статистических гипотез. Назначение этих процедур состоит в том, чтобы обойти или смягчить слишком жесткие требования параметрических моделей используемой статистики.

Один из вариантов таких действий исследователя, когда он обнаруживает, что полученные им данные по своим параметрам отличаются от того, что задано в структурной модели используемого параметрического теста, может состоять в том, чтобы попытаться преобразовать эти данные к нужному виду. Например, как отмечалось в гл. 1, измеряя время реакции, можно избежать высокого значения асимметрии его распределения, если использовать для анализа логарифмы получаемых значений, а не сами значения времени реакции.

Другой вариант действий состоит в отказе от использования каких-либо априорно заданных предположений о характере распределения случайной величины в генеральной совокупности. А это означает отказ от параметрических методов математической статистики в пользу непараметрических.

Непараметрическими называют методы математической статистики, при которых не выдвигаются какие-либо априорные предположения о характере распределения исследуемых данных и не предполагается каких-либо допущений о соотношении параметров распределения анализируемых величин. В этом заключается главное достоинство этих методов.

В полной мере преимущество непараметрической статистики раскрывается тогда, когда результаты, полученные в эксперименте, оказываются представленными в более слабой неметрической шкале , представляя собой результаты ранжирования. Такая шкала называется шкалой порядка. Конечно, в ряде случаев исследователь может преобразовать эти данные к более сильной интервальной шкале, используя процедуры нормализации данных, но, как правило, оптимальным вариантом в этой ситуации является применение именно непараметрических тестов, специально созданных для статистического анализа.

Как правило, тесты непараметрической статистики предполагают оценивание имеющихся соотношений ранговых сумм в двух или более выборках, и на основании этого формулируется вывод о соотношении этих выборок. Примерами таких тестов являются критерий знаков, критерий знаковых рангов Уилкоксона, а также U-критерий Манна Уитни, которые используются в качестве аналога параметрического t -теста Стьюдента.

В то же время, если результаты измерения оказываются представленными в более сильной шкале, использование непараметрической статистики означает отказ от части информации, содержащейся в данных. Следствием этого является опасность возрастания ошибки второго рода, свойственной этим методам.

Таким образом, методы непараметрической статистики оказываются более консервативными по сравнению с методами параметрической статистики. Их использование грозит в большей мере ошибкой второго рода, т.е. ситуацией, когда исследователь, например, не может обнаружить отличия двух выборок, когда такие отличия на самом деле имеют место. Иными словами, такие методы оказываются менее мощными по сравнению с параметрическими методами. Поэтому использование параметрической статистики в анализе экспериментальных данных, отличающихся от простого ранжирования, как правило, является предпочтительным.

При решении вопросов построения моделей систем особую акту­альность имеет задача формирования исходной информации о парамет­рах элементов, входящих в состав системы. От точности и достовер­ности исходной информации зависит точность оценок анализируемых характеристик систем, точность расчетов по оптимизации стратегий функционирования и правил их обслуживания, решение проблем, связан­ных с прогнозированием поведения системы в будущем, и другие воп­росы. При формировании исходной информации о параметрах элемен­тов, как правило, за основу берется информация, получаемая в ходе проведения обследования систем и изучения опыта ее эксплуатации. Иными словами за основу берется информация о поведении комплек­тующих элементов системы в процессе ее функционирования.

Анализ исходных показателей элементов, узлов, составных частей, который производят на этапах эксплуатации, испытаний, конструкторс­ких разработок, выполняется в целях разрешения следующих вопросов:

    определения фактических значений исследуемых характеристик комплектующих элементов в условиях их реальной эксплуатации;

    выявления взаимосвязи изучаемых характеристик элементов и условий их эксплуатации, анализа влияния на исследуемые показатели вне­шних воздействий;

    прогнозирования поведения вновь создаваемого оборудования.

Таким образом, для решения указанных задач, в первую очередь,

необходимо организовать контроль за поведением оборудования в ре­альных условиях его эксплуатации. В дальнейшем информация, полу­чаемая в процессе эксплуатации объектов, используется для построе­ния моделей систем, в отношении которых проводится анализ.

При проведении экспериментальных исследований большую роль играет информация, полученная в результате наблюдений за объекта­ми, поведение которых имеет вероятностную природу. Изучение таких систем осуществляется по результатам реализации выходных парамет­ров, являющихся случайными величинами. Наиболее общей характе­ристикой, описывающей поведение одномерной случайной величины, является ее плотность распределения / (0- Зная плотность распреде­ления случайной величины, можно однозначно определить такие харак­теристики, как вероятность реализации некоторого события, интенсив­ность наступления события, среднее время между реализациями собы­тий и пр. Приведем формулы, позволяющие оценить соответствующие показатели.

Вероятность реализации события за время t определяется по фор­муле

Q{t) = F(t)=\f(t)dt.

На практике часто находит применение величина, определяемая через функцию распределения следующим образом:

Например, в теории надежности так определяется вероятность бе­зотказной работы.

Среднее время между реализациями событий определяется из соот­ношения

T a =]tf(f)dt=]p(t)dt.

Интенсивность наступления события можно определить по формуле

" _ /(f) _ ClF j t ) I _ dP (t) 1 P(t)dt P{t) dt Pit)"

Таким образом, зная плотность или функцию распределения случай­ной величины, можно перейти к определению характеристик сложной системы. На практике функция распределения бывает неизвестна. Ее приходится восстанавливать по статистическим данным реализации случайной величины. Поскольку статистика о результатах наблюдений всегда присутствует в ограниченном виде, восстановление функции распределения возможно с некоторой долей достоверности. Следова­тельно, если функция распределения оценена с определенной ошибкой,

урЫа

f - т ) 2 ^ 2а 2

" (х-т ) 2 ^ 2 а 2

Вычислим частные производные:

d P N (t,m, o ) _ 1

d m

d P N (t, т, О ) _ д а 2

г г \ т

2 о 2

\ /-J

то и вычисление характеристик системы будет также осуществляться с ошибкой.

Точность оценивания показателей сложных систем характеризует­ся величиной дисперсии. Пусть необходимо произвести оценивание не­которого показателя R(t). Покажем, как определяется дисперсия в его оценке. Будем считать, что показатель R(t ) определяется через функ­цию распределения. Пусть функция распределения зависит от двух па­раметров аир. Примерами двухпараметрических функций являются нормальное распределение, усеченное нормальное, логарифмически нормальное, гамма-распределение, распределение Вейбулла и ряд дру­гих. Итак, пусть F(t) = F(t, а, р). Соответственно оцениваемый показа­тель сложной системы можно представить как функционал от F(t) = F(t, а, р):

K(r) = K = K(f,a,p).

Разложим оценку R ( t) в ряд Тейлора в точке а, р и ограничимся тре­мя членами:

i(0 = K(0+^®(a-a)+^®(p-p).

К обеим частям данного выражения применим операцию вычисле­ния дисперсии

(t- m ) 2

ехр

Нормальное распределение

Плотность нормального закона распределения имеет вид

P n (t, m , о) = 1 -7=- J ехр

F n (t , т, о) = -у=- J ехр

(t-m )

2

Среднее время между реализациями событий определяется по форму­

(t- m) 2 2 a 2

где cov(a, Р) - ковариация между параметрами аир. Таким образом, для оценки дисперсии некоторого показателя необходимо определить ча­стные производные данного показателя по параметрам закона распре­деления и дисперсии в оценке параметров закона распределения.

Рассмотрим вопросы определения частных производных для пока­зателей, введенных выше для конкретных законов" распределения. Оп­ределение дисперсии оценок параметров законов распределения будет описано далее.

В качестве примера рассмотрим определение частных производных оцениваемого показателя по параметрам закона распределения для нормального закона.

Ґ ( t-m) 2 ^

2 с 2

Соответственно частные производные определяются как

d T N (m, a ) 1 7

-- - = - f=~ ехр

d m V2nab

d T N (m , o ) I

i t = Ф

f 2 ~\ m

2 0

\ /

И, наконец, для интенсивности наступления события имеем

X(t, т,о) = -

Одностороннее усеченное нормальное распределение

Плотность распределения усеченного нормального закона с одно­сторонним усечением слева в точке 0 имеет вид

/ (t-m ) 2 ^ 2 а 2

\ І2 по

(X - т) 2 2а 2

\І2по{

Выражения для частных производных имеют вид

dX N (t, m,a ) _ f N (t, m,a )" m (l -F N (t, m,o))-f N (t, m,o )[ l-F N (t, m,o )]" m m

2

d m

с = -

(*-Ю 2 2 Ъ

о yj2nb

, ., t-m I (t-m ) 2

f H (fW O ra =Ir=-T ex PV

Ґ , ч2 4 V

( t-m) 2

( 2 M т

2 а 2

\

7

\ / J

" a2

da 2

2

[( t-m ) 2 - a 2 ] 2л/2лст 3

(t-m )

d x

P (Щ ,Ь) = \- {

(t -m) 2 a 2

m 2O 2

\ =

(t - m) exp

m exp

2 2 по 3

Введем обозначения:

R = J ехр

J

Таким образом, представлены формулы для определения соответ­ствующих производных показателей по параметрам закона распреде­ления для нормального закона. Обобщением нормального закона рас­пределения является усеченное нормальное распределение. Рассмот­рим применение одностороннего усеченного нормального распределе­ния в задачах оценивания показателей сложных систем. В ряде задач системного анализа случайные параметры положительно определены. Примером могут служить задачи теории надежности, в которых слу­чайные параметры имеют область определения от 0 до например, наработка до отказа - величина положительно определенная. В этом случае нормальный закон распределения применять для описания дан­ных случайных величин неправомерно. В таких ситуациях применяют усеченное слева нормальное распределение. Рассмотрим данный слу­чай применительно к оцениванию показателей надежности.

(х-ц) 2 2 Ь

( х - У-У

dx ; Q = j exp

Соответствующие производные имеют вид

Ґ 2\ .Hl

2 Ъ

r," H

d b (Q-Rf

где соответствующие составляющие определяются по формулам

Среднее время между реализациями событий определяется по форму­ле

2 Ь 2

/ . .і \ (*-Ю

S / ч’ ^

л/тс л/тс фГ Г-М-

(Q-W b =^ exp

I^lb I- J l b Jb

Обозначим числитель через L.

Соответствующие производные вычисляются по формулам

Логарифмически-нормальное распределение

Логарифмически-нормальному закону распределения подчиняется случайная величина t, логарифм которой распределен по нормальному закону. Плотность распределения логарифмически-нормального закона имеет вид

КМЬ) _ i;q-% l Jf _ urz _______

"-!Li S )

/ 2 N .й! 2fc

ЩАМ KQ-Ul.

-^ , А,-ех Р

Функция распределения имеет вид

2 Ь 2

Наконец, интенсивность наступления событий равна

(*-10 2 В

2 Ь

где В = Ъ 1 .

Запишем формулы для определения показателей надежности

-M-) 2 2 Ъ

(x -\i .? 2 Ъ

dx -j exp о

Я„(*,И,Д) = I - Jexp

Введем обозначение

Соответствующие производные имеют вид

(*-Ю

M = ехр

2 \

( (I n f -H ) 2 В

Р лн (; , Н.Д ) _ 1 Эн - J l nB

P„Jt,\i,B) 1пг-н

Определим производные интенсивности по параметрам

dk yM (t,№) _ M^jQ-R )- (Q -RY 11 M ЭЦ (Q-R) 2 :

э в


( (г-н) м 2 Ь

Для определения средней наработки до отказа используют формулу

(г-ю 2

M 11 =-т^ехр

; (б-Л)"= ехр

и последнее выражение

Производные равны

дТ ля Ц , р , В ) 1 (в ,

Запишем выражение для вероятности безотказной работы

Выражение для определения интенсивности отказов имеет вид \J t, \i , B) = -

P B (t,a,b) = exp\

K a J

Вычислим производные данного выражения по параметрам распреде­ления:

<У2дВ I 2 В

Э P^(t,a,b) _ b да а

d P B (t, a , b ) _

Частные производные определяются из выражений

Э КЛ^В) _

^ 2

L tjbw в ехр|

(lnf - |X ) 2 2 В

где (/ лн (0)

7 B(a ^) = J ex P

(Inf-(X ) 2 2 В

Э T B (a,b)_~ r b(t

* (t" In

\d f , Э7в(а ^ э ь

дК»ЩВ) (0 ) " й (I - (0 )- /л. (I - F n J t))"

ЭВ 2

* п

Интенсивность отказа равна

(^ b -" , а

Производные по параметрам имеют вид

it, а, Ь )

(1 - F „„) = - I n Vii exp

_ (I n f - (X ) 2 В

Э^а, b ) Ь 2

Э Х в іа,Ь )_Ґ" Ь

да ~ а 2

д Ь а ь а

а ,

Распределение Вейбулла

Плотность распределения Вейбулла имеет вид

f B (t,a,b) = -(-

Гамма-распределение

Плотность гамма-распределения записывается следующим обра­

F B (t,a,b) = 1-ехр

Соответственно функция распределения имеет вид

х, а *

F r (t, X,а) = f х а ~ " exn (-Xx ) dx.

Вероятность безотказной работы вычисляется по формуле

P v (t , X , a) = I fехр(-Xx)dx.

Производные по параметрам равны

і і OcX a4 Jx a4 exp (-Xx) Jx-X a Jx a exp( -Xx)dx

Э Х г (г,а,Х ) _ (f r ( ‘Xa)) K - / r (f ,X, a ); Эа 2

J ехр(-Хх)(а - Xx)dx \

[!-,F r (ZAa)];=-

дР г (t, X , а) _ X 1

Па) і

дР ^да а) = ~ Г^а) I * а ~" ex P(-^t r (a)(ta ^ - 111 0 - Г"(а)]Жс, где Г(а) = J X a t a ~ " ехр(- Xt)dt =J Z a " 1 ехр(-г)<&; Г(а) = J г“"’ exp(-z) In z 4 z

Средняя наработка до отказа определяется по формуле

Г г (о,Х)= J^- e xp (-Xt)d i =~.

оГ(а)X

Соответствующие производные равны

дТ г (а,Х ) а дГ г ( а ,Х) _ 1 ЭХ. X 2 да ~Х"

Интенсивность отказов записывается

X a t a -" е хр (- Xt )

X r (t, а ) =

(f r (t , X ,a )) a = ^-y-^-[(X a InXf a "exp(- Xt)+X a t a 1 Infexp(-Xt))-

X 1 V a " 1 exp(-Xf)r„ (a)];

Г а ((X)X a Jjr a " 1 exp (-Xx) Jx-

t t X а In Xj X а ’ 1 exp (-Xx)dx +X a Jx a 1 Injfexp (-Xx)dx

Таким образом, получены выражения, позволяющие решать вопро­сы оценки точности в определении показателей сложных систем. Рас­смотрены наиболее часто используемые в системном анализе законы распределения. Получены формулы для определения основных показа­телей систем и вычислены первые частные производные показателей по параметрам соответствующих законов распределения. Следующим вопросом, который требует решения, является вопрос оценивания па­раметров выбранного закона распределения. Рассмотрим, как решает­ся данная задача.

Производные по параметрам определяются в виде

d X r ( t,a , X) _ (f r (t X а) ) \ -/ r (t , X,a) 2

где a ^ g " 1 «pW-X-r-exp(-Xr)