Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или




Скачать 39,77 Kb.
НазваниеОбластная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или
Дата03.02.2016
Размер39,77 Kb.
ТипРеферат




Областная научно-практическая конференция учащихся “Молодость – науке” памяти А. Л. Чижевского


Начальная статистическая обработка информации
или
как я работала статистиком.


Автор:

Смирнова Мария Романовна

МОУ “Лицей №48 г. Калуги”, 10 “В” класс

Руководитель:

Смирнова Ирина Николаевна

учитель МОУ “Лицей №48 г. Калуги”


Калуга

Начальная статистическая обработка информации
или как я работала статистиком.


г. Калуга

Автор: Смирнова Мария Романовна (МОУ “Лицей № 48 г. Калуги”, 10 “В” класс)

Введение.


“Математика имеет репутацию самой отвлеченной науки. В то же время никто не смеет считать ее бесполезной наукой, наоборот – это самая нужная наука. И вот получается, казалось бы, противоречивое положение: с одной стороны – самая отвлеченная и оторванная от жизни наука, а с другой стороны – самая нужная наука. Это кажущееся противоречие объясняется тем, что математика имеет два аспекта: теоретический, где она рассуждает о самых общих и далеких от жизни вещах, и прикладной, где она касается самых практически необходимых вещей.”

Это был отрывок из статьи академика П. С. Александрова “Математика и человеческая культура”. Математика является учебным предметом, которому придается чрезвычайно большое значение на всех ступенях общего образования. Но, к сожалению, в школе больше изучается теоретическая (или, как ее еще называют, чистая) математика и почти совсем не рассматриваются ее приложения.

С этого учебного года у нас в программу по математике добавился курс “Элементы статистики и теории вероятностей”. В своей работе я хочу показать возможности практического применения методов математической статистики, рассмотрев задачи, возникающие в реальной жизни. Для обработки результатов исследования я использовала приложение Microsoft Excel и пакет статистических расчетов из системы компьютерной алгебры Maple 8.

Что такое статистика?


Статистика знает всё.

И. Ильф, Е. Петров “Двенадцать стульев”.

В энциклопедическом словаре можно найти следующее толкование интересующего нас слова. Статистика (от лат. status – состояние) – получение, обработка, анализ и публикация информации, характеризующей количественные закономерности жизни общества в неразрывной связи с их качественным содержанием. В естественных науках понятие “статистика” означает анализ массовых явлений, основанный на применении методов теории вероятностей.

Таким образом, статистика занимается подбором и анализом интересующей людей количественной информации. Так что именно статистика помогает учителю вывести итоговую оценку по предмету ученику, который в течение года демонстрировал различный уровень знаний, получая при этом разные оценки. Статистика помогает определить, например, рейтинг теннисиста в мировой классификации, подсчитав и проанализировав его результаты в различных турнирах. Однако наибольшую пользу приносит статистика при изучении массовых явлений. Почему, например, медики утверждают, что курение опасно для здоровья человека? К выводу о вреде курения врачи всего мира пришли не сразу, а лишь после анализа множества наблюдений за здоровьем курящих людей, сравнивая частоту заболеваний различными болезнями среди курящих и некурящих людей.

После рассмотрения последнего примера может возникнуть вопрос: насколько правомочен вывод о вреде курения для всех людей планеты, если исследования проводились на относительно небольшой (в сравнении с миллиардным населением планеты) группе людей? Но именно так и поступают в статистических исследованиях: рассматривают и изучают многочисленную часть объектов из всех объектов явления (ее называют выборкой). При этом все объекты называют генеральной совокупностью. По результатам наблюдения за массовой выборкой делают выводы обо всей генеральной совокупности.

Занимаясь темой “Начальная статистическая обработка информации”, я получила от администрации лицея несколько заданий: собрать данные о числе дней, пропущенных работниками лицея по болезни; собрать информацию о пропусках по болезни занятий по физической культуре учениками 10-х классов в течение месяца; чтобы лучше организовать работу школьной столовой, выяснить какие суммы тратят учащиеся лицея, питаясь в школьном буфете.

В результате сбора всех данных, полученная информация была необозримой. Человеческий мозг (даже мозг завуча) слабоват для анализа таких объемов информации. Единственный выход – это преобразовать первоначальные данные, получить несколько характеристик начальной информации и в дальнейшем уже оперировать с этими характеристиками.

Цель начальной статистической обработки информации – представить информацию статистического исследования в компактной, обозримой и понятной форме.

Поскольку объем работы ограничен, я рассмотрю в ней только последнюю задачу о питании школьников.

Задача о питании школьников.


Еще раз сформулирую задачу, полученную от завуча по учебно-производственной работе Воронкова В. Н.: выяснить какие суммы тратят учащиеся лицея, питаясь в буфете лицея.

Уже на этапе сбора данных для статистического исследования возникает масса непростых проблем, от решения которых во многом будет зависеть объективность полученной информации и достоверность выводов, которые потом будут сделаны на ее основе. Как, например, организовать социологический опрос, чтобы полученные в нем данные отражали реальную картину? Сколько человек нужно опросить? Как организовать их выбор?

Для того чтобы выборка была репрезентативной, я решила провести опрос 10% случайно отобранных учеников из каждой параллели нашего лицея после 5 урока. Им всем задавался один вопрос: “Какую сумму ты сегодня потратил в школьном буфете?” Опрос дал следующие результаты:

10,15,10,15,0,15,20,0,10,15,20,5,0,20,20,15,10,8,20,20,7,6,10,10,8,4,0,15,13,6,8,0,10,10,6,7,13,11,5,4,5,15,10,7,9,6,8,0,0,9,0,20,8,20.

С моим учителем математики Смирновой И. Н. мы решили рассмотреть следующие задачи начальной статистической обработки информации:

  1. Расположить данные в возрастающем порядке (т.е. записать ранжированные варианты).

  2. Определить 25-й, 50-й и 90-й перцентили, нижний, средний и верхний квартили.

  3. По ранжированным данным составить дискретный вариационный ряд распределения частот.

  4. Составить дискретный вариационный ряд частостей.

  5. Составить интервальный вариационный ряд частот.

  6. Построить полигон дискретного вариационного ряда частостей.

  7. Построить гистограмму интервального вариационного ряда частот.

  8. Построить кумуляту дискретного вариационного ряда частот.

  9. Вычислить моду для дискретного вариационного ряда частот.

  10. Найти медиану и моду для интервального вариационного ряда частот.

  11. Рассчитать среднюю сумму потраченных денег для дискретного и интервального рядов.

  12. Найти дисперсию и среднее квадратичное отклонение.

  13. Вычислить коэффициент вариации.

РЕШЕНИЕ:

    1. Ранжируем данные:



n

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

xi

0

0

0

0

0

0

0

0

4

4

5

5

5

6

6

6

6

7

7

7

8

8

8




24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

8

8

9

9

10

10

10

10

10

10

10

10

10

11

13

13

15

15

15

15

15

15




46

47

48

49

50

51

52

53

54

15

20

20

20

20

20

20

20

20

.

    1. Квантили вариационного ряда – это варианты, занимающие определенное место в вариационном ряду. К числу квантилей, наиболее часто используемых в статистическом анализе, относят перцентили, квартили, децили и медиану, которые характеризуют структуру вариационного ряда.
      Определим 25-й, 50-й и 90-й перцентили для этого вариационного ряда.
      Для определения 25-го перцентиля необходимо сначала найти его позицию в вариационном ряду: . По определению Р-перцентиля имеем:
      . Эта позиция находится между 13-м и 14-м вариантами. 13-й по порядку вариант в ранжированном ряду равен 5, 14-й – 6. Значение перцентиля находится в точке, которая делит расстояние между 5 и 6 в отношении 0,75 к 1, т.е. расстояние от 5 до 25-го перцентиля составляет 0,75 от длины отрезка между 5 и 6. Итак, 25-й перцентиль равен 5,75.
      Для того чтобы найти 50-й перцентиль, мы должны определить значение варианта, соответствующего позиции: . Среди ранжированных вариантов значение 27-го по порядку варианта равно 9, а значение 28-го варианта тоже равно 10, отсюда, 50-й перцентиль равен 9,5. Имеем: .
      Аналогично определим 90-й перцентиль () как значение варианта, соответствующего позиции . Значение 49-го варианта равно 20, а 50-го - тоже 20. Следовательно .
      Первый (нижний) квартиль – это 25-й перцентиль, т.е. значение признака в вариационном ряду, слева от которого лежит 25% всех вариантов.
      Второй (средний) квартиль – это 50-й перцентиль, он же медиана () .
      Третий (верхний) квартиль – это точка, слева от которой находится 75% вариантов ряда. Сначала определим позицию, которой соответствует эта точка: . Значит значение верхнего квартиля равно 15.

    2. А
      Таблица 1.1. Общий вид статистического распределения частот.
      бсолютные числа, показывающие, сколько раз встречаются те или иные варианты в ряду, называются частотами.



Значения признака (xi)

0

4

5

6

7

8

9

10

11

13

15

20

Количество учащихся (mi)

8

2

3

4

3

5

2

9

1

2

7

8

В полученном ряду .

    1. О
      Таблица 1.2. Общий вид статистического распределения частостей.
      тношение частоты того или иного варианта к сумме всех частот ряда называется частостью или относительной частотой.
      Запишем дискретный вариационный ряд частостей (табл. 1.2). , .



      xi

      0

      4

      5

      6

      7

      8

      9

      10

      11

      13

      15

      20

      wi ( )

      0,15

      0,04

      0,06

      0,07

      0,06

      0,09

      0,04

      0,17

      0,02

      0,04

      0,13

      0,15

    2. Д
      Таблица 1.3. Общий вид интервального вариационного ряда частот.
      аже для малого объема выборки аккуратное “причесывание” информации – довольно кропотливая вещь. Есть более краткий, но менее точный способ – представление информации в виде интервального вариационного ряда.
      Рекомендуемое число интервалов согласно формуле Стэрджеса .
      Находим оптимальную ширину интервалов разбиения (ki): .
      Теперь построим вариационный ряд границ интервалов группирования, т.е. к xmin прибавляем 3 и получаем первый интервал от 0 до 3. Последующие интервалы получаются прибавлением к концу предыдущего интервала ширины интервала ki. Затем подсчитываем количество вариантов mi, попавших в каждый интервал.
      При построении интервальных рядов в каждый промежуточный интервал можно включать варианты, числовые значения которых больше нижней границы интервала и меньше или равны верхней границы (или наоборот).



Интервалы

[0; 3]

(3; 6]

(6; 9]

(9; 12]

(12; 15]

(15; 18]

(18; 21]

mi

8

9

10

10

9

0

8

Если в промежуточный интервал включаются варианты, числовые значения которых больше или равны нижней границы и меньше верхней границы, то частоты (или частости) интервалов будут другими (см. табл. 1.4)



Интервалы

[0; 3)

[
Таблица 1.4. Общий вид интервального вариационного ряда частот.
3; 6)

[6; 9)

[9; 12)

[12; 15)

[15; 18)

[18; 21)

mi

8

5

12

12

2

7

8

С одной стороны, в интервальном ряду потеряна первоначальная точная информация, с другой стороны, наглядно видна качественная оценка распределения данных.

  1. Наглядным способом представления вариационного ряда является графический. Дискретный вариационный ряд можно представить в виде полигона распределения частот (частостей), а интервальный вариационный ряд можно представить с помощью гистограммы.

П
остроим полигон дискретного вариационного ряда частостей (см. табл. 1.2). Для построения полигона распределения дискретного вариационного ряда на оси абсцисс откладываются варианты, а на оси ординат – частоты (или частости). Полученные точки соединяют отрезками. (Диаграмма построена в программе Excel.)

  1. При построении гистограммы частот для ряда по данным табл. 1.4 на оси абсцисс откладывают не точки, а отрезки, изображающие интервалы, а вместо ординат, соответствующих частотам определенных вариантов, строят прямоугольники с высотой, пропорциональной частотам интервалов. Гистограмму я построила с помощью пакета статистических расчетов из системы Maple 8.
    > with(stats):with(stats[statplots]):
    data1:=[Weight(0..3,24),Weight(3..6,15),Weight(6..9,36),
    Weight(9..12,36),Weight(12..15,6),Weight(15..18,21),
    Weight(18..21,24)]:histogram(data1,color=gray);


Г
Потраченные деньги
истограмма интервального вариационного ряда.



  1. Д
    Таблица 1.5
    искретные и интервальные вариационные ряды графически можно представить в виде кумуляты.
    Предварительно для построения кумуляты дискретного вариационного ряда по данным табл. 1.2 запишем накопленные частости (накопленная частость показывает, сколько наблюдалась вариантов со значением признака, меньшим или равным определенного значения x) в восходящем порядке, т.е. вариационный ряд преобразуется в кумулятивный (табл. 1.5).

xi

Частости mi ( %)

Накопленные частости vi ( %)

0

14,81

14,81

4

3,70

18,52

5

5,56

24,07

6

7,41

31,48

7

5,56

37,04

8

9,26

46,30

9

3,70

50,00

10

16,67

66,67

11

1,85

68,52

13

3,70

72,22

15

12,96

85,19

20

14,81

100

Н
а оси абсцисс прямоугольной системы координат откладываются значения признака, а по оси ординат – соответствующие им накопленные частости (или частоты). Кумулята дискретного вариационного ряда представляет собой ступенчатую разрывную линию, имеющую конечные разрывы в точках, соответствующих значениям признака, вариантам.

  1. Мода дискретного ряда (см. табл. 1.1) равна 10. Значение признака, равное 10, встречается наиболее часто (соответствующая ему частота равна 9). Следовательно, М0=10.

  2. Определим моду для интервального ряда (см. табл. 1.4). Ряд имеет два модальных интервала: 6 – 9 и 9 – 12, так как этим интервалам соответствуют наибольшие частоты – 12. Далее вычисляем М0 по формуле , где - нижняя граница модального интервала; - частота модального интервала; - частота интервала, предшествующего модальному; - частота интервала последующего за модальным; k – величина модального интервала. Тогда . . Мода интервального ряда равна 9.
    При нахождении медианы для интервального вариационного ряда (см. табл. 1.4) сначала определяем интервал, содержащий медиану: (9; 12) – медианный интервал. Теперь вычислим Me – по формуле , где - нижняя граница медианного интервала; - величина медианного интервала; - накопленная частота интервала, предшествующего медианному; - половина суммы всех частот; - частота медианного интервала.
    .

  3. Самая известная и наиболее употребляемая в статистическом анализе характеристика вариационного ряда – это средняя арифметическая. Средняя величина даёт обобщающую характеристику признака изучаемой совокупности, но она не раскрывает строения совокупности, которое весьма существенно для его познания.

Рассчитаем среднюю сумму потраченных денег для дискретного вариационного ряда в табл. 1.1 по формуле .
.
А для интервального вариационного ряда по данным табл. 1.4 в формуле для нахождения в качестве значений признака принимаются середины интервалов. Теперь расчет средней арифметической примет вид:
.

  1. Средняя арифметическая характеризует вариационный ряд одним числом, но не отражает вариацию, т.е. изменчивость признака. Средняя арифметическая квадрата отклонения значений признака от их средней арифметической называется дисперсией вариационного ряда. Значение корня квадратного из дисперсии называется средним квадратичным отклонением – оно показывает на сколько в среднем отклоняются конкретные варианты от их среднего значения. Чем меньше значение дисперсии и среднего квадратичного отклонения, тем однороднее совокупность и тем более типичной будет средняя величина.

Для расчета дисперсии в интервальном вариационном ряде (см. табл. 1.4) используем формулу , заменяя серединами интервалов.


Таблица 1.6 для расчета дисперсии интервального вариационного ряда

Расчет средней арифметической и дисперсии удобно осуществлять при помощи расчетной таблицы в Excel.






xi

mi

(xi - x)2mi

x

10,2




1,5

8

605,52










4,5

5

162,45










7,5

12

87,48










10,5

12

1,08










13,5

2

21,78










16,5

7

277,83










19,5

8

691,92












54

1848,06








Найдем дисперсию дискретного вариационного ряда по формуле , где .



Таблица 1.7 для расчета дисперсии дискретного вариационного ряда

, и среднее квадратичное отклонение (руб.)

  1. Среднее квадратичное отклонение – это абсолютная мера рассеяния вариантов ряда. Существует и относительная мера рассеяния – коэффициент вариации. Коэффициент вариации представляет собой процентное отношение среднего квадратичного отклонения к средней арифметической, т.е. .
    Коэффициент вариации используют не только для сравнительной оценки вариации единиц совокупности, но и как характеристику однородности совокупности. Совокупность считается количественно однородной, если коэффициент вариации не превышает 33%. В нашем случае V  64,2%, что говорит о неоднородности значений признака.

Выводы:

  1. В среднем учащиеся тратят в буфете 10 р., а 72% учащихся тратят меньше 13 р. Небольшая сумма потраченных денег говорит о том, что нецелесообразно заказывать горячее питание для всех школьников, так как большинство обходится малым.

  2. Почти 30 % учащихся тратят в буфете от 15 р. до 20 р. Надо убедить родителей этих учащихся перейти на горячее питание, что более полезно, чем еда из буфета. На родительском собрании в качестве иллюстраций проведенного исследования можно показать полученные диаграммы.

  3. Работникам буфета предоставить гистограмму интервального вариационного ряда распределения относительных частот, что поможет им определить необходимое количество товаров по разным ценам.

  4. Мода дискретного ряда равна 10 р., а интервального – 9 р. Работникам буфета можно рекомендовать привозить больше продуктов за эту цену.

  5. Дисперсия вариационного ряда  6 р. Это говорит о том, что разброс количества потраченных денег высок, и ассортимент продуктов в буфете должен быть разнообразен.

Заключение.


Статистика имеет многовековую историю. Уже в древнем мире вели статистический учет населения. Однако произвольные толкования статистических данных, отсутствие строгой научной базы статистических прогнозов позволили в конце XIX века английскому премьер-министру Б. Дизраэли заметить: “Есть три вида лжи: обычная ложь, наглая ложь и статистика”. В XX веке появилась математическая статистика – наука, основанная на законах теории вероятностей. Соединение накопленных к этому времени практических методов обработки данных с математическим аппаратом теории вероятностей превратило эти две отрасли человеческого знания в мощный инструмент для исследования законов природы и общества.

Разбираться в азах статистики необходимо каждому человеку хотя бы ради того, чтобы не “попасться на удочку” пристрастных или нечистоплотных высказываний прессы, средств массовой информации, отдельных политиков или экономистов.

Изучая литературу по статистике, я узнала, что статистический анализ применяется не только в естественных и экономических науках и при организации производства, но и в гуманитарных науках:

  • В археологии выяснение эпох захоронений, национальной принадлежности производится с привлечением статистических методов.

  • Статистический подход используется для расшифровки надписей на языках давно умерших.

  • Искусство шифрования записей и их дешифровки также основано на использовании статистических закономерностей языка

  • Изучение повторяемости слов и букв, распределение ударений в словах используется для установления литературных подделок и установления авторства.

  • Расположение букв на клавиатуре определяется статистическим изучением частоты сочетаний букв в данном языке.

  • Исследованию ударений в русских поэтических произведениях посвящен ряд работ академика А. Н. Колмогорова. Такого рода изучение позволяет приблизиться к пониманию строения речи, общих закономерностей ее красоты, а возможно и некоторых закономерностей мышления.

Сейчас я учусь в гуманитарном классе, а до 10 класса я училась в физико-математическом и я еще не знаю точно, какую профессию я выберу, но я уверена, что в моей будущей профессии мне обязательно пригодится знание основ статистики.

Список литературы.

  1. Виленкин Н. Я., Потапов В. Г., Задачник-практикум по теории вероятностей с элементами комбинаторики и математической статистики. Просвещение, 1979.

  2. Макарычев Ю. Н., Миндюк Н. Г., Элементы статистики и теории вероятностей 7 – 9 классы. Просвещение, 2005.

  3. Ниворожкина Л. И., Морозова Э. А., Математическая статистика с элементами теории вероятностей в задачах. МарТ, 2005.

  4. Бунимович Е. А., Булычев В. А., Вероятность и статистика 5 – 9.Дрофа, 2005.

  5. Мордкович А. Г., Семенов П. В., События. Вероятности. Статистическая обработка данных 7 – 9. Мнемозина, 2005.

  6. Дьяконов В. П., Maple 7. Учебный курс. Питер, 2002.

  7. Спрент П., Зачем нужна статистика. Квант, № 10-1992.

  8. Гнеденко Б. В., Статистическое мышление и школьное математическое образование. Математика в школе, №1-1968.

Похожие:

Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconОбластная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Симплекс-метод “спешит на помощь”. г. Калуга
Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского
Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconНаучно-практическая конференция «Молодость науке»
К таким наиболее перспективным растениям универсального использования относится амарант, отличающийся питательной ценностью и благодаря...
Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconПоложение о гуманитарной конференции Окружная научно-практическая конференция по литературе
Гуманитарная научно-практическая конференция «Духовно-нравственные истоки русской литературы» проходит в базовых школах юао города...
Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconРегиональная научно-практическая конференция творческих работ учащихся «Перспективный проект»

Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconГородская научно-практическая конференция учащихся. Миасского городского округа
Приложение Литература
Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconНаучно-практическая конференция учащихся и педагогов города Брянска «Первые шаги в науку» «Нахождение центра масс полуцилиндра. Экспериментальная проверка вычислений»
Среди задач, в которых рассматривается движение механических систем (то есть отдельного твердого тела или системы тел), по конечной...
Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconКраевая научно-практическая конференция «Эврика» Малой академии наук учащихся Кубани
Приложение 2, 3 в связи с этим у меня возникали вопросы, которые я задал себе и окружающим при работе над этой темой: «Граффити –...
Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconНаучно-практическая конференция «курсовое проектирование: практическое и научное значение»
Конференция проводится с целью создания условий, способствующих развитию интеллектуального и творческого потенциала студентов и преподавателей,...
Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconПриказ т 28. 12. 2009 №1593 г. Псков от 11. 01. 2012 №12 Об итогах проведения научно-практической
Государственного управления образования Псковской области от 02. 12. 2011 №1265 «О проведении научно-практической конференции учащихся...
Областная научно-практическая конференция учащихся “Молодость науке” памяти А. Л. Чижевского Начальная статистическая обработка информации или iconНаучно-практическая конференция, как средство формирования профессиональной компетенции путем привлечения студентов к научному творчеству
Научных знаний, формирования профессиональной компетенции, развития навыков научно-исследовательской работы, публичного выступления,...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib2.znate.ru 2012
обратиться к администрации
Библиотека
Главная страница