Pandas (szoftver)
A pandas a Python programozási nyelv egyik programkönyvtára, amely adatok feldolgozására és elemzésére szolgál. Különösen adattáblák és idősorok feldolgozásához szolgáltat megfelelő adatszerkezeteket. Ez a szabad szoftver a három-záradékos BSD licenc alatt jelent meg.[2] A név a "panel data" angol kifejezésből származik, amely az ökonometria területén azt jelenti, hogy egy egyedről több időperiódusból rendelkezünk adatokkal.[3]
Könyvtári funkciók
[szerkesztés]- DataFrame objektum az adat feldolgozására indexelési lehetőséggel.
- Eszközök a memóriabeli adatszerkezetek valamint a különböző formátumok közötti írásra és olvasásra.
- Az adatok igazítását, valamint a hiányzó adatok kezelése.
- Adathalmazok átalakítása és pivot táblába rendezése.
- Címke-alapú szeletelés, indexelés, nagy adathalmazok részhalmazának keresése.
- Oszlopok beillesztése, törlése.
- Csoportosítás, amely lehetővé tesz az adathalmazokon split-appy-combine műveleteket.
- Adathalmazok összevonása. (Az SQL join kulcsszavának megfelelői.)
- Hierarchikus indexelés, hogy a több dimenziós adatokat az alacsonyabb dimenziós adatszerkezettel kezelhessük.
- Idősor-funkciók: Dátumtartomány generálás[4] és gyakoriság átalakítás, mozgó ablak statisztikák, mozgó ablak lineáris regresszió, dátum változók eltolása.
A könyvtár teljesítményét úgy optimalizálják, hogy a kritikus kódokat Cython vagy C nyelven írják meg.[5]
Története
[szerkesztés]Wes McKinney 2008-ban kezdett el dolgozni a pandas-on, amíg az AQR Capital Management-nél dolgozott, mert szüksége volt egy nagy teljesítményű, rugalmas eszközre, hogy pénzügyi adatok mennyiségi elemzését elvégezze. Mielőtt az AQR-t elhagyta, meg tudta győzni a vezetését, hogy hagyják kiadni a programkönyvtárat nyílt forrású szoftverként. Egy AQR-es kollégája, Chang She, 2012-ben csatlakozott a fejlesztéshez – ő a pandas második legnagyobb fejlesztője.
2015-ben a pandas fejlesztését anyagilag is támogatta az Egyesült Államok NumFOCUS projektje.[6]
Lásd még
[szerkesztés]- matplotlib
- NumPy
- SciPy
- R (programozási nyelv)
- Scikit-learn
- statsmodels
Hivatkozások
[szerkesztés]- ↑ Release Notes – pandas 0.23.2 documentation. pandas , 2018. július 5. (Hozzáférés: 2018. július 6.)
- ↑ License – Package overview – pandas 0.21.1 documentation. pandas, 2017. december 12. (Hozzáférés: 2017. december 13.)
- ↑ Wes McKinney: pandas: a Foundational Python Library for Data Analysis and Statistics, 2011 (Hozzáférés: 2018. augusztus 2.)
- ↑ pandas.date_range – pandas 0.21.1 documentation. pandas, 2017. december 12. (Hozzáférés: 2017. december 13.)
- ↑ Python Data Analysis Library – pandas: Python Data Analysis Library. pandas. (Hozzáférés: 2017. november 13.)
- ↑ NumFOCUS – pandas: a fiscally sponsored project. NumFOCUS. (Hozzáférés: 2018. április 3.)
Tovább olvasnivaló
[szerkesztés]- McKinney, Wes. Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython, 2nd, Sebastopol: O'Reilly (2017). ISBN 978-1-4919-5766-0
- Chen, Daniel Y.. Pandas for Everyone : Python Data Analysis. Boston: Addison-Wesley (2018). ISBN 978-0-13-454706-0