Основное содержание
Статистика для средней школы
Course: Статистика для средней школы > Модуль 2
Урок 3: Меры разброса данных: итогиМеры рассеяния
В прошлом видео мы рассмотрели несколько так называемых мер центральной тенденции — показателей, каким-то образом характеризующих центр набора данных. В этом видео мы рассмотрим меры, характеризующие разброс, или рассеяние данных. Создатели: Сэл Хан.
Хотите присоединиться к обсуждению?
Пока нет ни одной записи.
Транскрипция к видео
в прошлом видео мы обсудили несколько вариантов вычисления центральной тенденции несколько способов охарактеризовать середину наборы данных в этом видео мы рассмотрим другие показатели характеризующие разброс или рассеяние данных в наборе давайте рассмотрим несколько наборов данных скажем минус 10 0 10 20 и 30 это будет первый набор а во втором наборе пусть будут числа 8 9 10 11 и 12 давайте посчитаем среднее арифметическое обоих наборов данных дальше изучая статистику вы встретитесь с такими терминами как генеральная совокупность и выборка в нашем примере мы считаем что и первый и второй набор это генеральная совокупность полный всеобъемлющей набор неких данных и мы будем считать среднеарифметическое генеральной совокупности и дальше будем считать меры рассеяния для генеральных совокупностей сейчас наверное эти слова для вас непонятны в будущем у нас может не быть полного набора данных а будет лишь некая выборка из него и мы будем пытаться делать выводы о генеральной совокупности по ее части но пока мы не будем рассматривать это более подробно я просто хотела пояснить этот момент если вы и дальше собираетесь изучать статистику и так среднее арифметическое генеральной совокупности наборы наших данных равно минус 10 + 0 + 10 + 20 + 30 и всё это делим на количество элементов на 5 чему это равно минус 10 и 10 сокращаются 30 плюс 20 это 50 делим на 5 получается 10 а чему равно среднее арифметическое этого набора данных 8 + 9 + 10 + 11 плюс 12 и всё это делится на 5 удобнее будет читать так 8 плюс 12 это 29 плюс 11 это тоже 20 получается 40 и плюс оставшаяся десятка получается 50 снова получается 50 разделить на 5 это 10 выходит что у этой генеральной совокупности точно такое же среднее арифметическое можно не пользоваться терминами выборка или генеральная совокупность скажу проще у обоих наборов данных одинаковые среднее арифметическое здесь сумма всех чисел деленное на 5 равна 10 и здесь сумма всех чисел деленное на 5 тоже равна 10 но эти наборы данных явно различаются если посмотреть на меру центральной тенденции можно подумать что наборы похоже но если посмотреть на сами наборы данных одна особенность сразу бросается в глаза все эти числа близки к десяти смотрите от десяти до двенадцати всего две единицы а здесь числа гораздо дальше от 10 даже до самых близких чисел 10 единиц а до дальних 20 значит вот этот набор данных более рассеянный его элементы сильнее рассеяны относительно среднего арифметического а в этом наборе данных они ближе к среднему арифметическому и теперь давайте поговорим как можно измерить это растение как можно охарактеризовать насколько далеко находятся элементы от среднего арифметического одна из таких мер наверное самая простая называется размах размах используется не часто но зато это самый простой способ показать разброс от минимального до максимального значения в наборе это буквально разница между максимальным числом в нашем примере это 30 и минимальным число 30 минус минус 10 получается 40 это мера говорит о том что разница между наибольшим и наименьшим числом равна 40 во втором наборе максимальное число 12 а минимальная 8 их разность 4 в нашем случае размах очень наглядно характеризует рассеяние мы видим что среднее арифметическое обоих наборов равно 10 но если посмотреть на размах то видно что в первом случае размах больше а значит и данные в наборе рассеянной сильнее но размах не всегда адекватно оценивает рассеивание может быть так что у двух наборов данных размах одинаковый а числа в них все равно разбросанные совершенно по-другому одна из самых распространенных мир разброс и или россии не называется дисперсия самое распространенное наверное это среднеквадратическое отклонение мы о нем еще поговорим но она тесно связана с дисперсией мы говорим о дисперсии генеральной совокупности повторюсь мы предполагаем что нам даны все данные они небольшая выборка из них дисперсии обозначается маленькой греческой буквой сигма в квадрате как мы узнаем позже просто сигмой без квадрат и обозначается среднеквадратическое отклонение и это неспроста как считаете дисперсия берется разница каждого элемента и среднего арифметического возводится в квадрат а затем считается среднее арифметическое от этих квадратов звучит запутанно но мы сейчас все посчитаем и вы поймете что не все так страшно и так среднее арифметическое 10 берем первый элемент -10 вычитаем из него среднеарифметическая и возводим в квадрат от этого число станет положительным плюс второй элемент 0 минус 10 среднее арифметическое мы считаем разницу со средним арифметическим возводим в квадрат плюс 10 минус 10 в квадрате это центральная десятка плюс 20 минус 10 в квадрате плюс 30 минус 10 в квадрате это у нас квадраты разности между каждым элементом и средним арифметическим а вот этой десятка везде это среднее арифметическое я считаю разность между каждым элементом и средним арифметическим возвожу в квадрат складываю и делю на количество элементов то есть считая среднее арифметическое от получившихся значений от квадратов расстояний в такой формулировке все звучит запутанно но мы по сути считаем насколько далеко от середины каждое число в наборе возводим это в квадрат и считаем среднее 1 2 3 4 5 делим на 5 чему все это равняется минус 10 минус 10 это минус 20 минус 20 в квадрате 400 0 минус 10 минус 10 в квадрате 100 значит плюс 110 минус 10 в квадрате это 0 в квадрате то есть про 100 0 плюс 20 минус 10 это 10 в квадрате 100 плюс 30 минус 10 это 20 в квадрате 400 и всё это делим на 5 что получается 400 + то это 500 плюс еще 500 это 1000 1000 разделить на 5 это 200 и так в первом случае дисперсия равна 200 ом вот оно нашим мира рассеяния давайте сравним со вторым набором данных то есть узнаем какой будет дисперсия 2 набора с меньшим разбросом данных давайте посчитаем дисперсию этого набора данных среднее арифметическое мы знаем и так дисперсия будет равняться 8 минус 10 в квадрате плюс 9 минус 10 в квадрате плюс 10 минус 10 в квадрате плюс 11 минус 10 в квадрате плюс 12 минус 10 в квадрате напоминаю 10 это среднее арифметическое мы его уже вычислили для дисперсии нужно сначала вычислить среднее арифметическое и всё это делится на 1 2 3 4 5 на 5 чему это равно 8 -10 это минус 2 в квадрате это будет плюс 49 минус 10 это минус 1 в квадрате единица 10 минус 1000 в квадрате 011 -10 это 1 в квадрате тоже 112 -10 это 2 в квадрате 4 всё это делим на 5 что получается 10 разделить на 5 равняется двум дисперсия нашего менее рассеянного наборы получилось гораздо меньше дисперсия 2 набора данных которые равна всего лишь 2 и это логично судя по этим мерам данные во втором наборе расположены гораздо плотнее друг другу чем в первом где они больше расбросаны но в дисперсии кроется одна проблема мы берем разницу каждого элемента и среднего арифметического а затем возводим в квадрат получается немного странное число если наши данные имеют единицу измерения скажем пусть это будут расстояние в метрах это у нас минус 10 метров 0 метров 10 метров а здесь 8 метров и так далее то возведя в квадрат мы получим квадратные метры при чем тут квадратные метры и для этого придумали среднеквадратическое отклонение которые иногда называют стандартным отклонением оно равно корню квадратному из дисперсии или корню квадратному от сигмы в квадрате и обозначается среднеквадратическое отклонение простой сигмой то есть вычислив дисперсию мы сейчас легко можем вычислить среднеквадратическое отклонение обоих наборы в данных среднеквадратическое отклонение первого набора данных равно корню квадратному из 200 чему равен корень квадратный из 200 200 это два на 100 значит получается 10 корней из 2 это первый набор данных среднеквадратическое отклонение 2 в наборы данных будет равняться корню квадратному из дисперсии то есть просто корню из 2 итак среднеквадратическое отклонение 2 набора данных в 10 раз меньше среднеквадратического отклонения первого набора данных здесь 10 корней из 2 здесь просто корень из 2 мера рассеяния первого набора получилось в 10 раз больше меры рассеяния 2 набора и получившиеся данные уже кажется более логичными давайте вспомним как мы их посчитали сначала мы посчитали дисперсию для этого посчитали насколько удалён каждый элемент от среднего арифметического возвели в квадрат и взяли среднее арифметическое затем извлекли квадратный корень чтобы согласовать единицы измерения и получилось что среднеквадратическое отклонение у первого набора данных в 10 раз больше чем у второго давайте вернемся к изначальным набором данных у этого среднеквадратическое отклонение в 10 раз больше и интуитивно это кажется логичным до среднее арифметическое обоих наборов 10 но девятка отличается от 10 на единицу a 0 на 10 в 10 раз больше 8 отличается от среднего на 2х минус 10 на 20 в 10 раз больше среднем элементы первого набора в 10 раз дальше от центра чем элементы второго набора поэтому среднеквадратическое отклонение лучше показывает насколько далеки в среднем элементы набора от среднего арифметического спасибо что подписывайтесь на наш канал нам очень важно знать ваше мнение если у вас возникают вопросы касательно данного видеоролика то нестись не