С чего начать изучение статистики

Статистика в Data Science — исчерпывающий гид для амбициозных практиков ML

В преддверии старта нового потока курса «Machine Learning Pro + Deep Learning» представляем вашему вниманию пост, который смело можно класть в закладки, — гид по статистике для амбициозных практиков машинного обучения. От ответа на вопрос, что такое статистика, до весьма подробных списков понятий, которые нужно усвоить, чтобы овладеть используемой в работе с проектами ML статистикой. Кроме того, в посте вы найдёте рекомендации литературы.

С чего начать изучение статистики

В современном сверхсвязанном мире данные генерируются и потребляются невиданными ранее темпами. И, как бы нам ни нравилась эта «сверхпроводимость данных», она провоцирует злоупотребления. Дата-сайентисты должны быть обучены использованию статистических методов не только для интерпретации цифр, но и для выявления таких злоупотреблений и защиты людей от введения в заблуждение. Немногие специалисты по статистике имеют формальную подготовку. Хороших книг и курсов, которые обучают статистическим методам с точки зрения науки о данных, немного. В этом посте я пролью свет на следующие вопросы:

Что такое статистика?

Статистика — это набор математических методов и инструментов, позволяющих ответить на важные вопросы о данных. Она делится на две категории:

Статистика в машинном обучении

В основе машинного обучения лежит статистика. Невозможно решить реальные проблемы с помощью машинного обучения, если вы не обладаете хорошим знанием основ статистики.

Конечно, имеются некоторые факторы, затрудняющие обучение статистике. Я говорю о математических уравнениях, греческой нотации и тщательно выверенных понятиях, затрудняющих развитие интереса к предмету. Можно решить эти проблемы с помощью простых и ясных объяснений, учебных пособий с соответствующим темпом и практических занятий — решения проблем с помощью прикладных методов статистики. От исследовательского анализа данных до разработки экспериментов для проверки гипотез статистика играет ключевую роль в решении проблем во всех основных отраслях и областях.

Тот, кто хочет развить глубокое понимание машинного обучения, должен узнать, как статистические методы формируют основу алгоритмов регрессии и классификации, как статистика позволяет учиться на основе данных и как она помогает извлекать смысл из немаркированных данных.

Зачем вам осваивать статистику?

Каждая организация стремится стать управляемой данными. Вот почему мы наблюдаем такой рост спроса на дата-сайентистов и аналитиков. Сегодня, чтобы решить проблемы, ответить на вопросы и наметить стратегию, нужно разобраться в данных. К счастью, статистика предлагает набор инструментов для получения этих знаний.

От данных к знаниям

Сами по себе сырые наблюдения — это просто данные. Чтобы трансформировать наблюдения в имеющие смысл идеи, применяется описательная статистика. Затем возможно применить логическую статистику, чтобы изучить небольшие выборки данных и дать схему с выводами для экстраполяции результатов на всю совокупность данных.

Статистика помогает ответить на вопросы, подобные этим

Статистика и проекты по машинному обучению

Почти каждый состоит из перечисленных ниже задач. И статистика играет в той или иной форме центральную роль во всех этих задачах. Ниже примеры:

Уточнение постановки проблемы

Наиболее важной частью прогностического моделирования является фактическое определение проблемы, дающее реальную цель, к которой мы должны стремиться. Это помогает определить тип проблемы, с которой мы имеем дело (то есть регрессия это или классификация), а также помогает в определении структуры и типов входных, выходных данных и метрик с учетом поставленной задачи. Но подстановка проблем не всегда проста. Если вы новичок в машинном обучении, она может потребовать значительного изучения наблюдений в вашей области. Два основных понятия, которые необходимо освоить здесь — это экспериментальный анализ данных (EDA) и добыча данных (Data Mining).

Первоначальное исследование данных

Исследование данных включает в себя получение глубокого понимания как распределения переменных, так и отношений между переменными в ваших данных.

Отчасти знание домена помогает овладеть определённым типом переменных. Тем не менее как эксперты, так и новички в этой области извлекают пользу из реальной работы с реальными наблюдениями в домене. Важные связанные с этим понятия в статистике сводятся к изучению описательной статистики и визуализации данных.

Очистка данных

Часто точки данных, собранные из эксперимента или хранилища данных, являются нетронутыми. Данные могли быть подвергнуты процессам или манипуляциям, которые повредили их целостность. Это еще больше влияет на последующие процессы или использующие такие данные модели. Распространённые примеры — пропущенные значения, повреждение данных, ошибки в данных (из-за плохого датчика), а также не приведённые к единой форме данные (наблюдения с разными масштабами). Если вы хотите освоить методы очистки, изучите выявление отклонений и вменение отсутствующих значений.

Подготовка данных и настройка конвейера преобразования

Если данные содержат ошибки и несоответствия, часто нельзя применять их в моделировании. Во-первых, данным, возможно, придётся пройти через набор преобразований, чтобы изменить форму или структуру и сделать их более подходящими для определённой вами задачи, или используемых алгоритмов обучения. Затем можно разработать конвейер таких преобразований, который будет применяться к данным для получения последовательных и совместимых входных данных для модели. Вы должны овладеть такими понятиями, как методы выборки данных и отбора признаков, преобразование данных, их масштабирование и кодирование.

Выбор и оценка модели

Ключевым шагом в решении прогностической проблемы являются выбор и оценка метода обучения. Оценочная статистика поможет вам оценить прогнозы модели на данных, которые модель не видела.

Проектирование экспериментов — это подраздел статистики, который управляет процессом выбора и оценки модели. Он требует хорошего понимания проверки статистических гипотез и оценочной статистики.

Тонкая настройка модели

Почти в каждом алгоритме машинного обучения имеется набор гиперпараметров, которые позволяют настроить метод обучения под выбранную вами постановку задачи. Эта гиперпараметрическая настройка часто носит эмпирический, но не аналитический характер. Для оценки влияния различных настроек гиперпараметра на производительность модели требуются большие наборы экспериментов.

Статистика: учебный план для практиков

Хорошая учебная программа по статистике для практиков должна охватывать не только множество методов и инструментов, о которых я только что писал. Она также должна охватывать и изучать наиболее часто встречающиеся проблемы в отрасли. Ниже приведён список широко используемых навыков, которые вам нужно освоить, чтобы пройти собеседование на должность дата-сайентиста и ML и устроиться на работу в этой области.

Основные навыки в статистике

Важные понятия статистики

Практические советы по обучению

Большинство университетов разработали учебные программы курсов по статистике, чтобы проверить способность студента справляться с трудностями. Они просто проверяют, могут ли учащиеся решать уравнения, определять терминологию и идентифицировать графики, выводящие уравнения, вместо того, чтобы сосредотачиваться на применении этих методов для решения реальных задач. Однако увлеченные специалисты-практики должны следовать пошаговому процессу изучения и реализации статистических методов по различным проблемам с использованием исполняемого кода Python. Рассмотрим два основных подхода к изучению статистики немного глубже.

Нисходящий подход

Допустим, вас попросят провести эксперимент для проверки эффективности двух версий продукта. Эта функция призвана повысить вовлечённость пользователей в работу онлайн-портала. С помощью подхода «сверху вниз» вы сначала узнаете больше о проблеме. Затем, как только цель станет ясной, вы сможете научиться применять соответствующие статистические методы. Это поддерживает ваше участие и предлагает лучший практический опыт обучения.

Восходящий метод

Такой подход позволяет большинству университетов и онлайн-курсов преподавать статистику. Он сосредоточена на изучении теоретических понятий с математической нотацией, истории понятия и способах применения. Для таких людей, как я, склонных терять интерес к теоретическому обучению, это неправильный способ изучения прикладной статистики. Он делает обучение слишком обобщённым, отсутствие какой-либо прямой связи с решением проблемы делает изучаемый объект сухим и депрессивным. Вероятно, вы уже поняли, я рекомендую нисходящий подход к изучению статистики. Давайте посмотрим на некоторые специфические ресурсы, которые я рекомендую, чтобы вы начали изучение статистики правильно.

Ресурсы для обучения

Источник

Математическая статистика. Начало

Есть правда, есть большая правда, а есть статистика на mathprofi.ru!

На протяжении многих лет я всё думал, когда же доберусь до этой темы, и вот, наконец-то свершилось! …как и во многих делах, самое трудное – первый шаг, но я таки открыл вёрдовский файл (решался и обдумывал 2 недели) и с радостью и даже какой-то торжественностью написал первый абзац.

И сразу второй. Что нужно для изучения математической статистики? Ничего особенного. Нужно уметь складывать, умножать, делить, извлекать корни и ещё много чего выполнять другие бесхитростные действия. Да, вот так просто. Настоящий курс предназначен для начинающих статистиков, и на предстоящих уроках научимся решать типовые задачи, которые реально встречаются в ваших студенческих работах.

Из инструментальных средств потребуется Эксель (не умеете – научим!), проверьте, есть ли он у вас, и калькулятор, лучше оффлайн калькулятор с кнопочками, ибо на зачёте или экзамене гаджетами, как правило, пользоваться нельзя.

Из литературы рекомендую те же две книги: задачник и учебное пособие В.Е. Гмурмана под названием Теория вероятностей и математическая статистика.

Математическая статистика следует «вторым эшелоном» за теорией вероятностей, и это не случайность, а логическое продолжение. Отличие состоит в том, что тервер даёт теоретическую оценку случайным событиям, а статистика работает с практическими, или как говорят, эмпирическими данными, которые берутся непосредственно «из жизни». Поэтому для изучения темы желательно (но не критично обязательно) знать азы теории вероятности, в частности, случайные величины – многие понятия и формулы будут очень и очень схожи.

Что такое математическая статистика? Её часто называют то наукой, то разделом математики. И это правда 🙂 Математическая статистика, буду краток, изучает методы сбора и обработки статистической информации для получения научных и практических выводов. Статистическая – это та, которую можно выразить числами. Эта информация появляется в результате исследования массовых (обычно) явлений, которые носят случайный характер.

Причём, информация может носить как количественный характер (например, размеры чего-либо), так и качественную природу – «оцифровать» можно, да хоть пятьдесят оттенков серого.

Немедленный пример. Что главное орудие физика? Секундомер:

Студент Константин выполняет лабораторную работу по определению коэффициента вязкости жидкости методом Стокса.

…тихо-тихо, тут будет всего несколько чисел 🙂

Экспериментальная часть этой работы состоит в том, что в высокий цилиндрический сосуд с жидкостью сбрасывается достаточно маленький и тяжёлый шарик, после чего замеряется время его погружения.

Время погружения шарика зависит от множества случайных факторов: прямоты рук экспериментатора, погрешности измерения времени, хаотичного движения молекул жидкости и т.д., вплоть до влияния Луны. Поэтому эксперимент целесообразно провести 5-10 раз (как оно обычно и требуется).

Предположим, что в результате 5 опытов получены следующие результаты (в секундах):
С чего начать изучение статистики

Что произошло? Студент Костя собрал первичные (ещё не обработанные) статистические данные. Они эмпирические (взяты непосредственно из опыта), носят случайный характер (см. выше). И массовый. Ну а как нет? Все однокурсники только и занимаются тем, что бросают в сосуды шарики, да и мало ли на планете похожих шариков, которые тонут в похожей жидкости.

Ну а мы потихоньку погружаемся в терминологию:

— полученные экспериментальные значения называются вариантами, а их совокупность – вариационным рядом. Почему так? Потому что полученные значения варьируются под воздействием случайных факторов.

Справка: вариАнта (существительное женского рода) – в статистике означает отдельно взятое эмпирическое значение.

Далее. Далее Константин должен обработать полученные данные. Во-первых, посмотреть, а нет ли среди полученных значений варианты, которая сильно отличается от всех остальных? Наличие такого значения сигнализирует о том, что соответствующий опыт проведён неудачно и его следует исключить из рассмотрения.

Нет, все значения достаточно близкИ друг к другу, и теперь напрашивается вычислить среднюю величину – разделить сумму значений на их С чего начать изучение статистикиколичество:
С чего начать изучение статистикисекунды.

Это значение называют простой средней или, как многие знают, средним арифметическим. Его стандартно обозначают с чёрточкой наверху.

Справка на всякий случай: математический значок С чего начать изучение статистикиозначает суммирование, а переменная С чего начать изучение статистикииграет роль «счётчика»; в данном случае С чего начать изучение статистикиизменяется от 1 до 5.

Если грызут сомнения на счёт точности, то лучше не полениться и провести 10 опытов, что, кстати, удобнее в плане вычислений (на 10 делить проще). И, разумеется, полученный результат будет надёжнее, чем в 1-м случае.

Всё. Статические данные обработаны, осталось сделать выводы. А именно, с помощью значения С чего начать изучение статистикивычислить коэффициент вязкости жидкости и ещё там вроде что-то, желающие могут найти эту лабу в Сети.

…возможно, у вас возник вопрос, почему я выбрал такой пример? Это единственное, что мне запомнилось из институтского курса физики 🙂

Студенческая группа сдала коллоквиум по матанализу со следующими результатами:
С чего начать изучение статистики

Требуется определить среднюю успеваемость группы

Сбором статистических данных здесь занимался преподаватель, и обратите внимание на их характер: они эмпирические, массовые (громко, конечно, сказано, но таки массовые) и отчасти случайные. Кому-то повезло с вопросом, кому-то нет, кто-то что-то вспомнил / забыл, списал, прогулял и так далее…, прямо какое-то броуновское движение студентов))

Как нетрудно понять, роль вариант С чего начать изучение статистикиздесь играют полученные оценки, а С чего начать изучение статистики– это соответствующие частоты – количество студентов, которые получили ту или иную оценку. Подсчитаем общую численность группы:
С чего начать изучение статистикичеловек и, привыкаем к терминам, исследуемое множество называют статистической совокупностью, а количество его элементов – объёмом совокупности.

Теперь обратим внимание на следующую вещь: двоечников и отличников у нас мало, а нормальных студентов 🙂 много. И возникает вопрос: как вычислить «справедливую» среднюю оценку по всей совокупности? Решение напрашивается – с помощью так называемой средневзвешенной средней:
С чего начать изучение статистики
С чего начать изучение статистики– средняя успеваемость по группе. И я обязательно приму соответствующие меры!

…да, суровые у меня сегодня примеры 🙂 Давайте проанализируем их принципиальные отличия:

1) В первом примере проводится статистическое исследование количественной величины (времени), а во втором «оцифровывается» и анализируется качественный признак (успеваемость).

2) В первом случае исследуемая величина непрерывна, и, строго говоря, все полученные значения различны (отличаются хоть какими-то миллисекундами). Во втором случае варианты дискретны, т.е. представляют собой отдельно взятые изолированные значения. Следует заметить, что они не обязаны быть целыми, так, например, можно ввести в рассмотрение оценки 2,5; 3,5 и 4,5. И у дискретной величины, как правило, есть неоднократно встречающиеся (одинаковые) варианты, так, например, «пятёрка» встретилась 3 раза.

3) В первом примере речь идёт о выборке значений. Что это значит? Это значит, что шарик можно сбрасывать в воду гораздо бОльшее и теоретически вообще бесконечное количество раз. Таким образом, проведённые 5 опытов есть, по сути, выборка, которую называют выборочной совокупностью. При этом соответствующее среднее значение принято называть выборочной средней.

Второй пример отличен тем, что в нём исследуется ВСЯ совокупность, и поэтому её называют генеральной совокупностью, а соответствующее среднее значение – генеральной средней. Но такая ситуация редкость. Редко когда удаётся исследовать всю совокупность.

И сейчас мы подошли к основному методу математической статистики:

Федор пошёл на базу исследовать помидоры. Требуется определить среднюю массу помидора и среднюю долю первосортных помидоров.

Разбираемся в ситуации. Очевидно, что на базе находится очень и очень много помидоров, обозначим их общее количество через С чего начать изучение статистики. Это генеральная совокупность. Для того чтобы решить задачу, можно взвесить каждый овощ: С чего начать изучение статистики(в граммах, например) и вычислить генеральную среднюю:
С чего начать изучение статистики– среднюю массу помидора.

Но это долго и трудно, даже если Феде будут помогать все его однокурсники.

Поэтому для оценки параметров генеральной совокупности целесообразно использовать выборочный метод. Его суть состоит в том, что из генеральной совокупности достаточно выбрать С чего начать изучение статистикиобъектов, которые хорошо характеризуют всю совокупность. Это «хорошо» называют представительностью или, как говорят, репрезентативностью выборки. Проговорим это модное слово вслух: ре-пре-зен-та-тив-ность.

Что нужно для того, чтобы обеспечить репрезентативность?

Ну, во-первых, выборка должна быть достаточно велика, помидоров так 500-1000 точно, что уже вполне по силам даже одному Феде.

Примечание: в дальнейшем мы сформулируем более строгие статистические критерии на счёт оптимального размера выборки.

Во-вторых, отбор следует осуществлять равномерно – из каждого ящика.

В-третьих, отбор должен быть случайным. Для этого используются разные приёмы, и самый простой здесь – это выбор «вслепую» из случайно выбранного места ящика, обязательно с разной глубины (а то мало ли, что поставщик там мог спрятать).

И, в-четвёртых (а может быть, и, в-первых), есть и другие факторы, которые могут быть менее очевидны. В частности, важно знать, а однородна ли генеральная совокупность? Так, если помидоры поступили от разных поставщиков, то каждую партию полезно исследовать по отдельности (сделать несколько выборок).

Итак, пусть Фёдор по всем правилам выбрал С чего начать изучение статистикипомидоров, и теперь дело за малым – взвесить каждый овощ: С чего начать изучение статистики(граммы) и вычислить выборочную среднюю:
С чего начать изучение статистики– среднюю массу помидора в выборке.

При этом очевидно, что чем больше объем С чего начать изучение статистикивыборочной совокупности, тем полученное значение будет точнее приближать генеральную среднюю С чего начать изучение статистики.

Но фишка состоит в том, что если начать увеличивать выборку в два, три и бОльшее количество раз, то будут получаться выборочные средние, которые мало отличаются от уже рассчитанного значения С чего начать изучение статистики. Вы спрОсите, как это установлено? Эмпирически. В результате огромного количества реально проведённых исследований.

Таким образом, нет никакого практического смысла тратить силы, время, деньги, нервы на исследование бОльшей выборки и тем более, всей генеральной совокупности.

Вот оно как – в статистике есть и прямая экономическая выгода!

И ещё один момент, чуть не забыл: обратите внимание на используемые буквы – они стандартны. Другие варианты встречаются реже.

Вторая часть задачи. Определим вместе с Фёдором среднюю долю высококачественных помидоров на базе (ну мы же не садисты заставлять его одного заново перебирать 1000 штук :)).

В отличие от первого этапа, здесь мы исследуем уже качественный признак, для которого, тем не менее, можно сформулировать чёткие критерии. Пусть первосортный помидор – это чёрный, лысый красный, спелый, без видимых дефектов, массой выше среднего.

Совершенно понятно, что генеральная совокупность содержит С чего начать изучение статистикитаких помидоров, и существует точное значение:
С чего начать изучение статистикигенеральная доля первосортных помидоров.

Но по причине трудозатратности и нецелесообразности полного исследования, достаточно подсчитать количество С чего начать изучение статистикитаких овощей в выборке и вычислить:
С чего начать изучение статистикивыборочную долю, которая будет весьма близка к истинному значению С чего начать изучение статистики. Но это только, напомню, при условии грамотно организованной и проведённой выборки.

Доля, как вы догадываетесь, может принимать значение от 0 до 1, и иногда её домножают на 100, чтобы выразить этот показатель в процентах.

Константин, Фёдор, спасибо за участие, а остальные, как в том анекдоте, поедут на картошку 🙂 Тем более, сейчас на дворе конец сентября, а осень, как сказал прозаик, это клубни.

В качестве разминки предлагаю вам задачу с тремя пунктами различного уровня сложности. Проверьте наличие инструментов под рукой и свои навыки вычислений (Эксель вечной живой по-прежнему тут):

а) Урожайность картофеля по трём областям за **** год составила 147, 145, 155 ц/га (центнеров с га). Требуется вычислить среднюю урожайность.

Метрическая справка: 1 центнер = 100 кг, 1 тонна = 1000 кг;
1 гектар (га) = 10000 квадратных метров;
показатель ц/га обозначает, сколько центнеров собрано с 1 гектара.

Не забываем приписывать к итоговому результату размерность! (секунды, граммы и т.д., а в данном случае – ц/га).

Вариация чуть сложнее:

б) Известны следующие данные по трём областям:
С чего начать изучение статистики
…это нарисовали чиновники для отчёта – привыкайте к настоящей статистике!:)))

Требуется вычислить среднюю урожайность.

Обратите внимание, что здесь урожайность, скажем, по 3-й области велика, но её посевная площадь мала. Поэтому урожайность уместно «взвесить» по площадям.

и третий пункт, творческий:

в) вычислить среднюю урожайность по следующим данным:
С чего начать изучение статистики

«Валовой» – это значит, всего собрано по области.

ДУМАЕМ, ВНИКАЕМ и РАССУЖДАЕМ – принцип здесь точно такой же, как и при решении задач по теории вероятностей. И, главное, не паримся – это просто разминочные задачи!

Решения с пояснениями и ответы совсем близко.

И в заключение вводного урока систематизируем самое важное:

Математическая статистика – это наука, изучающая методы сбора и обработки статистической информации для получения научных и практических выводов.

Основным методом матстатистики является выборочный метод, его суть состоит в исследовании представительной выборочной совокупности – для достоверной характеристики совокупности генеральной. Данный метод экономит временнЫе, трудовые и материальные затраты, поскольку исследование всей совокупности зачастую затруднено или невозможно.

Для решения задач по математической статистике требуется калькулятор, Эксель и голова. …Нет-нет-нет, голова, разумеется, ещё много где нужна 🙂

И я желаю вам успехов в дальнейшем освоении курса!

Вперёд без страха и сомнений:

. как ваша форма? Продолжаем!

и продолжение следует!

а) Используем простую среднюю:
С чего начать изучение статистикиц/га – в среднем по трём областям.

б) Используем средневзвешенную (по площади) среднюю:
С чего начать изучение статистики
С чего начать изучение статистикиц/га в среднем по трём областям.

в) Здесь урожайность тоже следует переоценить через посевную площадь, используя формулу Посевная площадь = Валовой сбор / Урожайность:
С чего начать изучение статистикиц/га в среднем по трём областям. Такой вид средней иногда называют средней гармонической.

И здесь часто задают вопрос по размерности, комментирую: за размерностью можно проследить в бравом физико-математическом стиле. В числителе у нас расположены сотни тонн (миллионы кг). В знаменателе миллионы кг делим на центнеры с га, избавляемся от трёхэтажности и сокращаем дробь на 100 кг:
С чего начать изучение статистики(общая посевная площадь)
И, наконец, размерность всей дроби:

С чего начать изучение статистикиили центнеры с га.

Автор: Емелин Александр

(Переход на главную страницу)

С чего начать изучение статистики Zaochnik.com – профессиональная помощь студентам

cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5

С чего начать изучение статистики Tutoronline.ru – онлайн репетиторы по математике и другим предметам

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *