pandas

Pandas
Pandas
Тип	Python-библиотека[вд] и программа для численного анализа[вд]
Автор	Уэс Мак-Кинни[вд]
Разработчики	Уэс Мак-Кинни[вд], Брок Мендель[вд], Йорис Ван ден Босше[вд] и Джефф Ребек[вд]
Написана на	Python
Операционная система	кроссплатформенность
Первый выпуск	11 января 2008
Последняя версия	2.2.3 (20 сентября 2024);
Репозиторий	github.com/pandas-dev/pa…
Читаемые форматы файлов:
Читаемые форматы файлов:
	Hierarchical Data Format
Создаваемые форматы файлов:
Создаваемые форматы файлов:
	Hierarchical Data Format
Лицензия	BSD
Сайт	pandas.pydata.org (англ.)
	Медиафайлы на Викискладе

pandas — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами. Название библиотеки происходит от эконометрического термина «панельные данные», используемого для описания многомерных структурированных наборов информации. pandas распространяется под новой лицензией BSD.

Область применения

Основная область применения — обеспечение работы в рамках среды Python не только для сбора и очистки данных, но для задач анализа и моделирования данных, без переключения на более специфичные для статобработки языки (такие, как R и Octave).

Также активно ведётся работа по реализации «родных» категориальных типов данных.

Пакет прежде всего предназначен для очистки и первичной оценки данных по общим показателям, например среднему значению, квантилям и так далее; статистическим пакетом^[англ.] он в полном смысле не является, однако наборы данных типов DataFrame и Series применяются в качестве входных в большинстве модулей анализа данных и машинного обучения (SciPy, Scikit-Learn^[англ.] и других).

Возможности

Основные возможности библиотеки:

Объект DataFrame для манипулирования индексированными массивами двумерных данных^[4]
Инструменты для обмена данными между структурами в памяти и файлами различных форматов
Встроенные средства совмещения данных и способы обработки отсутствующей информации
Переформатирование наборов данных, в том числе создание сводных таблиц
Срез данных по значениям индекса, расширенные возможности индексирования, выборка из больших наборов данных
Вставка и удаление столбцов данных
Возможности группировки позволяют выполнять трёхэтапные операции типа «разделение, изменение, объединение» (англ. split-apply-combine).
Слияние и объединение наборов данных
Иерархическое индексирование позволяет работать с данными высокой размерности в структурах меньшей размерности
Работа с временными рядами: формирование временных периодов и изменение интервалов и так далее

Библиотека оптимизирована для высокой производительности, наиболее важные части кода написаны на Cython и Си.

История

Разработка пакета начата в 2008 году сотрудником AQR Capital Management^[англ.] Уэсом Маккини (англ. Wes McKinney). Перед уходом из AQR ему удалось убедить руководство позволить опубликовать исходный код библиотеки под свободной лицензией.

Другой работник AQR — Чан Шэ — присоединился к проекту в 2012 году, став вторым главным разработчиком библиотеки. Примерно в то же время библиотека набрала популярность в среде Python-разработчиков, и к проекту присоединилось множество новых участников.^[5]

Примеры использования

Кривые

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

df = pd.DataFrame(np.random.randn(100, 5), columns=list('ABCDE'))
df=df.cumsum() # Return cumulative sum over a DataFrame or Series axis
df.plot()
plt.show()

Диаграмма

df = pd.DataFrame(np.random.rand(10, 5), columns=list('ABCDE'))
df.plot.bar(stacked=True)
plt.show()

График

df = pd.DataFrame(np.random.rand(7, 5), columns=list('ABCDE'))
df.plot.box()
plt.show()

Гистограмма

data = pd.Series(np.random.normal(size=100))
data.hist(grid=False)
plt.show()

Примечания

↑ Release 2.2.3 — 2024.
↑ https://wesmckinney.com/pages/about.html
↑ https://www.youtube.com/watch?v=7JHqxODJG9k
↑ Pandas Reset Index (неопр.) (30 августа 2021). Дата обращения: 30 августа 2021. Архивировано 30 августа 2021 года.
↑ Daniel Chen. Pandas for Everyone: Python Data Analysis. — Addison-Wesley Professional, 2017. — ISBN 978-0134546933. Архивная копия от 6 сентября 2021 на Wayback Machine Источник (неопр.). Дата обращения: 6 сентября 2021. Архивировано 6 сентября 2021 года.

Литература

Маккинни У. Python и анализ данных = Python for Data Analysis. — ДМК Пресс, 2015. — 482 с. — ISBN 978-5-97060-315-4, 978-1-449-31979-3.
Бринк Х., Ричардс Д., Феверолф М. Машинное обучение. — Питер, 2018. — 336 с. — ISBN 978-5-496-02989-6.
Вандер Плас Дж. Python для сложных задач. Наука о данных и машинное обучение = Python Data Science Handbook: Essential Tools for Working with Data. — Питер, 2017. — 576 с. — ISBN 978-5-496-03068-7.
Хейдт М. Изучаем pandas = Learning pandas. — ДМК Пресс, 2018. — 432 с. — ISBN 978-5-97060-625-4.

[_f19547087be11d08-1] Release 2.2.3 — 2024.

[_aeff40ec4982e875-2] ttps://wesmckinney.com/pages/about.html

[_f57b23c61e8f12c3-3] ttps://www.youtube.com/watch?v=7JHqxODJG9k

[4] Pandas Reset Index (неопр.) (30 августа 2021). Дата обращения: 30 августа 2021. Архивировано 30 августа 2021 года.

[5] Daniel Chen. Pandas for Everyone: Python Data Analysis. — Addison-Wesley Professional, 2017. — ISBN 978-0134546933. Архивная копия от 6 сентября 2021 на Wayback Machine Источник (неопр.). Дата обращения: 6 сентября 2021. Архивировано 6 сентября 2021 года.

[2]

[3]

[1]

[4]

[5]

Python
Сообщество	Гвидо ван Россум Python Software Foundation
Реализации	CPython IronPython Jython MicroPython PyPy Stackless Python далее...
Другое	PyPI Стандартная библиотека Python Лицензия Python

pandas

Содержание

Область применения

Возможности

История

Примеры использования

Примечания

Литература

Навигация

pandas

Область применения

Возможности

История

Примеры использования

Примечания

Литература

Навигация

Поиск