Skip to main content

Введение в статистику с использованием NumPy

  • Эта публикация - перевод статьи. Ее автор - Mubaris NK. Оригинал доступен по ссылке ниже:

Статистика

В целом статистика занимается сбором и анализом данных. Она стремится описать строгие методы сбора данных (образцов), описания данных и вывода заключений из данных.

Это два типа статистики: описательная статистика , которая предоставляет инструменты для описания данных и статистические данные, которые предоставляют инструменты для обучения по данным.

Среднее и среднее

Среднее и среднее значение используется для измерения центральной тенденции набора данных.

Значение

Для набора данных {x 1 , x 2 , x 3 , ..., x n } это среднее значение определяется как

Имею в виду

Среднее значение может быть чувствительным к экстремальным значениям (выбросам), что является одной из причин, по которым иногда используется медиана.

Медиана

Центральное значение в наборе данных, например

1 1 2 3 4
медиана = 2

Если есть даже число значений, вы просто берете значение между двумя центральными значениями:

1 1 2 3 4 4
медиана = (2 + 3) / 2 = 2,5

Отклонение и стандартное отклонение

Разница и стандартное отклонение измеряют распространение вашего набора данных.

Разница определяется следующим образом:

отклонение

Стандартное отклонение - это квадрат корня отклонения. Стандартное отклонение - это мера, которая используется для количественной оценки величины изменения или дисперсии набора значений данных. Низкое стандартное отклонение указывает на то, что точки данных, как правило, близки к среднему значению набора, в то время как высокое стандартное отклонение указывает, что точки данных распределены по более широкому диапазону значений.

SD

NumPy

NumPy - это фундаментальный пакет для научных вычислений с Python.

NumPy можно легко установить с помощью pip.

pip3 install numpy

Что установит NumPy для Python3. Проверьте Получение NumPy, если у вас возникли проблемы.

NumPy и статистика

NumPy имеет множество встроенных статистических функций. Теперь мы будем использовать NumPy для вычисления среднего, среднего, стандартного отклонения и разницы.

# импорт numpy
import numpy as np

# X is a Python List
X = [32.32, 56.98, 21.52, 44.32, 55.63, 13.75, 43.47, 43.34]

# Сортировка данных и их печать.
X.sort()
print(X)
# [13.75, 21.52, 32.32, 43.34, 43.47, 44.32, 55.63, 56.98]

# Использование встроенных функций NumPy для поиска средних, средних, SD и отклонений
mean = np.mean(X)
median = np.median(X)
sd = np.std(X)
variance = np.var(X)

# Печать значений
print("Mean", mean) # 38.91625
print("Median", median) # 43.405
print("Standard Deviation", sd) # 14.3815654029
print("Variance", variance) # 206.829423437

Вышеупомянутая программа выполняет базовые статистические методы в выборке набора данных.

Теперь мы собираемся написать программу для выполнения основных статистических методов в реальном наборе данных. Мы будем использовать данные о зарплате 1147 европейских разработчиков. У нас есть этот набор данных в файле с именем salary.txt

# Импорт NumPy
import numpy as np

# Чтение файла и его хранение в X
with open('salary.txt') as f:
	X = f.read().splitlines()

# Печать размера набора данных
print(len(X)) # 1147

# Преобразование значений в целое число из строки
for i in range(len(X)):
	X[i] = int(X[i])

# Поиск среднего, среднего, SD и дисперсии
mean = np.mean(X)
median = np.median(X)
sd = np.std(X)
variance = np.var(X)

# Печать значений
print(mean) # 55894.53879686138
print(median) # 48000.0
print(sd) # 55170.375509393161
print(variance) # 3043770333.8474483

Эти данные собраны из опроса 1147 европейских разработчиков. Как вы можете видеть, средняя (средняя) зарплата составляет 55 894,54 евро и имеет медиану в размере 48 000 евро.

  • Набор данных можно скачать здесь - salary.txt

  • Результат опроса (он имеет дополнительную информацию, например, «Годы опыта», «Страна» и т. д.), можно скачать здесь - salary.csv