Информатика как наука
Информатика как фундаментальная научная дисциплина рассматривает следующие понятия:
- информация и информационные ресурсы;
- технические средства обработки информации;
- информационные технологии;
- информационные системы.
Информатика как прикладная дисциплина
Информатика исторически возникла и развивалась как естественная дисциплина, в состав которой входила разработка:
- методов и правил рационального проектирования устройств и систем обработки информации;
- технологии использования этих устройств и систем для решения научных и практических задач;
- методов взаимодействия человека с этими устройствами и системами.
Информатика как отрасль народного хозяйства
Рассматривая информатику как отрасль народного хозяйства, можно выделить в ней три составные части:
- производство технических средств обработки и передачи информации;
- обработка информации;
- производство и реализацию программных средств и систем.
Другими словами Информатика - наука о данных (data science).
Что такое данные?
Пример:
Молодая компания студентов решила открыть кофейню рядом с институтом. После открытия они решили проанализировать свои продажи и поняли, что их выручка сильно зависит от огромного количества факторов. Тогда они стали ежедневно вести записи, что бы понять какие факторы и насколько сильно повлияют на продажи, а так же смогут ли приятели каким-то образом самостоятельно повлиять на свой бизнес.
Они вели записи, включающие информацию о дне, погоде, количестве флаеров, которые им удалось раздать, цене и, конечно, о количестве продаж. Эти данные ребята заполнили в ячейки таблицы, которая позволила отслеживать историю продаж. Внимательно рассмотрим эту таблицу.
|
Первый столбец – содержит лишь порядковый номер записи. Такие порядковые номера необходимы для разлчных целей, но в первую очередь их назначением является наименование (идентификация) какой-либо строчки таблицы. Тип данных, предназначенный для этих целей называется идентификационным.
Второй столбец – это дата, записанная цифрами, но в особом формате. В этом столбике очевиден некий порядок записей. Например, мы точно знаем, что 3 сентября идет между 2 и 4 сентября. Так же очевидно, что в одном месяце не может быть более 31 дня. Конечно, можно попытаться использовать эту колонку как обычные числа и осуществлять некие арифметические операции, но такие операции не всегда приведут к ожидаемому результату.
Третий столбец – день недели. Это пример данных, записанных в текстовом формате (text data). Иногда такой тип данных называют «строкой» (string data). Очень часто этот тип данных используется для описания каких-либо категорий (categorical). В нашем примере мы можем классифицировать данные о продажах, основываясь на том, в какой день недели осуществлялись эти продажи. Столбец «осадки» так же содержит текстовую информацию.
Следующие столбцы содержат информацию, записанную в числовом формате, однако способ записи – различный. Например, температура – непрерывная величина и может принимать любое значение, включая отрицательные и дробные значения. А количество флаеров и продаж – дискретные величины, которые можно измерять только целыми положительными числами. Невозможно продать 105.5 порций кофе или раздать 10.2 флаера. Что касается цены – этот столбец может иметь любой из этих двух форматов (непрерывная или дискретная числовая величина). С одной стороны мы видим, что цена в представленном примере имеет несколько целых значений, но вполне можно себе представить ситуацию промоакции, когда порция кофе станет стоить 79,99р. К тому же мы можем использовать эту колонку даже как основу для классификации наших записей (categorical variable).
|
Итак, ключевым моментом в работе с данными является понимание того, какой тип информации содержат поля данных и для каких целей эти данные предстоит использовать.
Базовые типы данных:
1. Числовые данные:
· Integer - этим ключевым словом обычно обозначают целый тип данных (дискретные величины);
· Real – вещественный (действительный) тип данных (непрерывные величины);
· Decimal (n, m) - десятичный тип данных. Причем в обозначении n – это число, фиксирующее общее количество знаков числа, а m показывает, сколько символов из них стоит после десятичной точки.
2. Строковые данные – String.
3. Данные, определяющие дату и время:
· Date - тип данных даты;
· Time – тип данных, выражающих время суток;
· Date-time – тип данных, выражающий одновременно и дату, и время.
4. Идентификационные данные.
5. Логические данные (Boolean или Logical) – простейший тип данных, принимающий два возможных значения, иногда называемых истиной (true) и ложью (false). В некоторых языках программирования за значение истина полагается 1, за значение ложь — 0.
Сортировка и фильтрация данных
Один из самых простых способов использование данных – это их сортировка в рамках полей, которые являются важными для нас и фильтрация данных для того, что бы отобразить только те, которые представляют для нас определенный интерес.
|
Например, таблица с продажами кофейни сейчас отсортирована по дате. Но ребята решили отсортировать таблицу по количеству продаж. При этом сортировка может происходить в двух направлениях. По возрастанию – в этом случае на первом месте можно увидеть день с наименьшим количеством продаж. Или по убыванию, тогда в первой строке отразится день с наибольшим количеством продаж.
Можно отсортировать таблицу по количеству флаеров, которые удалось раздать. В этом случае мы видим, что максимальное количество флаеров, которые ребята раздали, равно 99. Обратите внимание, что это значение резко отличается от всех остальных значений этого поля. Такие значения, необычайно высокие или необычайно низкие, называются аномальными или посторонними. Они могут существенно повлиять на анализ данных и исказить статистические выводы, если бы мы попытались автоматически провести соответствующие расчеты. Возникновение аномальных значений может быть обусловлено разными факторами от ошибки при записи (может быть имелось в виду 19, а не 99) до непредсказуемого поведения студента, раздававшего их (выкинул всю пачку от злости в мусорку). Мы не знаем причины, но возможность сортировки данных позволяет выявить подобные аномалии и исключить их из анализа.
Теперь посмотрим на процесс фильтрации. Предположим, инвесторов интересует насколько оправдано держать студенческую кофейню открытой в выходные дни. Для этого можно отобразить записи, соответствующие только субботе и воскресенью. Сразу видно, каков объем продаж именно в выходные дни. Мы отображать данные, основываясь на любых критериях, главное сформулировать правило для проведения фильтрации. Например, можно посмотреть как выглядят продажи, если температура окажется меньше -5°С.
Вторичные данные
Часто полей, которые существуют в вашем наборе данных, недостаточно для проведения полноценного анализа. Вы может расширить возможности для анализа путем расчета вторичных значений на основе существующих данных. Например, студенты из кофейни могут умножить количество проданных порций кофе на его стоимость, тем самым узнать дневную выручку. Для этого необходимо создать новое поле.
В целом возможно использовать практически любое вычисление для того чтобы создать новое поле или изменить существующее, чтобы данные оказались полезными для анализа. Например, можно преобразовать температуру в градусы по Кельвину или добавить столбец, содержащий название месяца, в котором произошла продажа.
Помимо создания новых полей и преобразования старых, можно создать вторичные данные, содержащие обобщенную информацию, агрегирующие данные, содержащиеся во всей таблице сразу. Например, можно подсчитать общую выручку за первый семестр, которую удалось получить кофейне.
Агрегирование данных - обычно первый вид анализа, который выполняется для обобщения данных в целом.
Визуальное выделение данных
Когда вы работаете с небольшим набором данных, вы можете внимательно изучить все данные, найти интересующее вас значение и даже установить очевидные взаимосвязи между данными. Например, если бы сотрудники кофейни ограничились записями за 2 недели, они бы легко увидели, что их продажи падают в выходные. А лучшие продажи приходятся на дни, когда удалось раздать максимальное количество флаеров.
Когда работаешь с большим набором данных может быть сложнее найти отдельные интересующие значения в этой огромной таблице данных. По этой причине многие инструменты анализа данных включают в себя функциональность, позволяющая выделить ключевые значения, используя какой-то визуальный индикатор. Такой индикатор позволяет увидеть интересные аспекты данных «на глаз», не вдаваясь в детали.
Одним из распространенных способов выделения сравнительных числовых значений является использование интенсивности цвета для обозначения значений данных по какой-либо шкале. Это часто называют визуализацией тепловой карты. Она обычно используется с непрерывными числовыми данными для сравнения значений таким образом, чтобы с ростом значения вдоль шкалы, росла и интенсивность цвета, используемого для его выделения.
Если использовать такое выделение в нашем примере для столбца с температурой, дни с самой высокой температурой будут выделены темно-синим цветом, а более прохладные дни показаны более светлым оттенком.
Другой метод - показать сравнительные значения по относительному размеру с использованием цветных полос. В этом случае дни с более высокой положительной температурой обозначаются более длинными полосами, чем дни с меньшей дневной температурой. К тому же можно использовать разные цвета для того, что бы визуально отличать дни с положительной и отрицательной температурами.
Вы также можете выделить отдельные значения, которые попадают в рамки некоторых критериев. Например, сотрудники кофейни могут выделить дни с наибольшим доходом (20% от максимального), а также наихудшие дни (20% от минимального). Так что теперь они могут сразу увидеть, в какие дни достигались лучшие результаты, а какие дни оказались неуспешными.
Обобщение данных
Ранее вы видели, как можно использовать обобщение (агрегацию) для вычисления некоторого суммарного значение для числового поля данных (например, сумма всей выручки за 1ый семестр). Помимо этого можно узнать и другие обобщения.
Одна из первых вещей, которые вы можете захотеть выяснить - сколько существует записей в вашем наборе данных. Количество записей соответствует количеству заполненных строк в таблице. Для подсчета используется так называемый «счетчик».
Для категориальных данных, вы можете узнать сколько различных категорий существует в нашем наборе данных. Например, можно увидеть, что 1 семестр сопровождало всего 3 типа осадков – «снег», «дождь» и «без осадков».
В нашем примере мы можем вычислить итоговое значение для любого числового поля, но лишь некоторые из них будут нести действительно полезную информацию. Поэтому важная задача - провести обобщения так, что бы они оказались максимально полезными.
Например, общая сумма выручки, общее количество проданных порций кофе, общее количество распространенных листовок – очевидно полезная информация. Но некоторые итоги достаточно абсурдны. Например, суммарная температура - бессмысленна, как и суммарная цена.
Среднее значение рассчитывается как сумма значений полей, деленная на количество записей. С несколькими оговорками это дает нам хорошее представление о типичном значении для поля в пределах набора данных в целом. Минимум - это самое низкое значение в данных, установленное для данного поля, например, можно увидеть, самый низкий ежедневный доход от продажи. Наоборот, максимум самое высокое значение для данного поля в наборе данных.
Это лишь часть обобщений, которые можно сделать, анализируя данные, но они наиболее распространенные.
Группировка и суммирование данных
Когда ваш набор данных содержит категориальные значения, данные можно сгруппировать по
категории и рассчитать промежуточные итоги для числовых значений.
Например, данные кофейни включают числовые показатели для нескольких дней недели, и вам может быть интересно посмотреть, есть ли какие-либо различия в агрегированных значениях в зависимости от дня недели. Вы можете рассчитать среднюю температуру,
общий объем продаж и выручку за каждый день для определения промежуточного итога. А
затем вычислить общие итоги.
Когда есть несколько категорий, вы можете сгруппировать их в иерархии, чтобы получить многоуровневые промежуточные итоги. Например, сотрудники кофейни пробовала две разные цены за напиток. В некоторые дни кофе стоил 80р., а в другие дни – 85р. Мы
может сгруппировать данные, чтобы показать промежуточные итоги для этих различных
ценовых точек, а внутри этих групп можно разбить данные вниз по дням недели.
Глядя на эти данные, очевидно, что общий доход выше в те дни, когда цена составляет 85р., хотя на самом деле продано было больше порций кофе в дни, когда цена была 80р. По выходным,
на самом деле, продажи идут лучше в более холодные дни, когда цена выше, несмотря на распространение меньшего количества листовок.
Визуализация анализа данных
Хотя вы можете получить много полезной информации, изучая таблицы данных и обобщая эти данные, как правило, легче определить и изучить тенденции и отношения в ваших данных путем создания визуализаций или графиков.
Простой линейный график, который показывает значения ежедневного дохода за первый месяц продаж. Диаграмма отображает дневной доход в виде точек, а затем соединяет точки, чтобы сформировать линию, которая указывает на изменение значений вдоль горизонтальной оси. Мы обычно называем горизонтальную ось на графике «Ось X». В этом случае ось X представляет собой время в виде дат из набора данных о продажах. Вы также можете увидеть, что диаграмма включает в себя метку, идентифицирующая ось и отдельные маркеры, иногда называемые риской, для точек даты.
Вертикальная ось обычно называется «ось Y», и в нашем случае она представляет значения выручки. Опять же, это обозначено меткой оси и метками для шкалы значений.
Диаграмма также включает в себя легенду, определяющую, что представляет собой линия. Это может быть важно в диаграммах, содержащих несколько различных зависимостей. Наконец, график также включает заголовок, чтобы прояснить, что показывает визуализация. Это общие рекомендации по оформлению диаграмм, т.е. включение как можно больше элементов, необходимых для того, что бы сделать очевидным, что представляет собой диаграмма.
Круговая диаграмма - еще один общий вид диаграммы. Круговые диаграммы не имеют осей X и Y, вместо этого они показывают итоги анализа по категориям как пропорции общего итога.
В нашем случай, каждый цветной кусочек представляет общий доход за определенный день недели, а весь круг – суммарный доход за 1ый семестр. Можно легко увидеть, что 18% доходов кофейни было собираются по понедельникам и пяницам. Тогда как суббота и воскресенье приносят лишь по 7% дохода.
В настоящее время статистики и исследователи данных не часто используют круговые диаграммы, но они очень популярный в бизнес отчетах.
Гистограмма или столбчатая диаграмма - это другой способ показать те же данные. Каждый столбик, располагается вдоль «Оси X» и представляет день недели, а высота столбика вверх по «оси Y» указывает на доход. Гистограммы часто используются для сравнения числовых значений по категориям.
Вы можете сравнить несколько категорий путем добавления нескольких рядов данных или условий. В нашем случае отображены два столбика для каждого дня недели; один для тех дней, когда кофе стоил 80р., и второй для тех дней, когда кофе стоил 85р.
Точечный график используется, если вам нужно сравнить два числовых значения. Точки на графике формируются на пересечение значений поля по оси X и Н. В нашем примере по оси Х откладывается температура, а по оси Y – количество продаж в той же записи. Обратите внимание, что построенные точки образуют линейную тенденцию, в соответствие с которой записи, соответствующие самой низкой температуре имеют наиболее высокие продажи и наоборот более высоким температурам, соответствуют более низкие продажи.
Основы статистического анализа
Статистический анализ лежит в основе науки о данных. Используя статистику, вы можете узнать о распределении данных, какая существует разница между значениями, и как значения одной группы данных влияют на значения в другой группе.
Отправной точкой для изучения того, как использовать статистику для анализа данных, является понимание общей описательной статистики, которую мы можем использовать, чтобы понять распределение наших данных. Для примера давайте поближе познакомимся с температурой.
Мы хотим понять типичный диапазон значений для этой температуры. Стоит начать с самого низкого (минимального) значения. В Excel мы можем найти это минимальное значение с помощью функции МИН(ДИАПАЗОН). Нижний предел нашего диапазона температуры в этом случае составляет около -12°С. Теперь давайте посмотрим на самую высокую (максимальную) температура. В Excel мы получаем это с помощью МАКС(ДИАПАЗОН) функции. Максимальная температура в нашем примере составляет 26,2°С.
Итак, мы нашли значения в крайних точках, и мы могли бы предположить, что типичная дневная температура 1го семестра лежит где-то посередине этих значений, но где?
Один из способов ответить на этот вопрос - найти среднее значение. Когда мы имеем дело с полной совокупностью данных (например, если у нас есть полная запись температуры ti на каждый день), то математическая формула для вычисление среднего значения выглядит следующим образом
и мы символизируем среднее с помощью греческой буквы «мю» μ. Это выражение может показаться сложным, но на самом деле все, что нужно сделать, это сложить все значения температуры в наших данных, а затем разделить на количество значений температуры, которые мы имеем.
Представьте себе, что у нас на самом деле нет всех значения температуры для каждого дня, мы просто имеем выборку некоторых из них, поэтому мы пишем формулу немного по-другому, и означаем среднее как х с чертой над ним. Однако расчет точно такой же. В Excel мы просто использовали бы функцию СРЗНАЧ(ДИАПАЗОН), которая в этом случае дает нам значение около 6,09.
Теперь наша середина выглядит более или менее посередине, но это не всегда так. Мы могли бы иметь один или два очень холодных дня, которые перетянули бы среднее число вниз, хотя большинство дней было теплее.
Другой способ измерить среднее значение - отсортировать данные по возрастанию и найти сколько записей имеет такое же значение над ним, как показано ниже.
Теперь в этом случае есть нечетное количество наблюдений за температурой и
Восьмое значение имеет семь значений над ним и семь значений под ним. Если у нас есть
четное количество наблюдений, мы просто берем среднее из двух средних значений.
В любом случае, это значение известно как медиана, и вы можете рассчитать его в Excel
используя функцию Медиана. Часто это может дать нам лучшее представление о центральном
значение в наших данных, чем среднее значение, если данные искажены каким-то чрезвычайно высоким или
низкое значение Теперь одна из причин, почему мы хотим найти среднее значение в
первое место, так что мы можем дать представление о том, что мы могли бы ожидать
Типичное значение температуры для любого дня. Это может быть разумно
ожидать, что это типичное значение будет наблюдаться чаще, чем другие
температуры. Теперь, как это происходит, в наших значениях температуры значение 46,2
появляется дважды, в то время как все остальные значения появляются только один раз; так что это самый
общее значение, и мы называем это режим. Мы рассчитываем это в Excel, используя режим
функция. В этом случае режим оказывается таким же, как медиана, но это
не всегда так. Также во многих случаях данные могут быть мультимодальными - другими словами
может быть более одного значения, которое появляется чаще, чем другие. Сейчас
если бы мы должны были подсчитать, сколько раз каждое наблюдаемое значение происходит в нашем
Пример, другими словами, частоты значений, мы могли бы представить их как
этот. Этот тип графика называется гистограммой, и он показывает частоту
значения данных в разных диапазонах или бинах; и в этом случае каждая корзина покрывает
диапазон из десяти значений. Обратите внимание, что режим, будучи наиболее
частое значение, вызывает пик в наборе данных; и в этом случае среднее значение и
мода все более или менее в центре, с симметричными хвостами слева
и правильно показывает все меньшие значения для более экстремальных температур.
Когда данные распределяются в виде кривой колокола, мы называем это нормальным распределением;
и статистики любят работать с нормально распределенными данными, как это для
ряд причин, некоторые из которых мы рассмотрим позже. Еще один способ, которым вы можете
Визуализировать распределение ваших данных стоит с помощью бокса и усы сюжета. В этом
В этом случае прямоугольник в центре представляет два внутренних квартиля данных, с
медиана, показанная как линия. в Excel вы также можете отобразить среднее значение в виде X.
Усы показывают остальные данные до минимума и максимума. Вы можете показать
в этой горизонтальной ориентации, но часто, особенно в
Excel, это показано в этом вертикальном представлении.