Comma-separated values
Comma-separated values skrátene CSV (doslova: hodnoty oddelené čiarkami) je jednoduchý súborový formát vo forme čistého textu (angl. plain text) určený na ukladanie tabuľkových dát. Súbor vo formáte CSV pozostáva z ľubovoľného počtu záznamov (riadkov), oddelených znakom nového riadka. Každý záznam obsahuje stĺpce, ktoré su oddelené iným znakom, prevažne čiarkou (,) alebo tabulátorom. Zvyčajne majú všetky záznamy rovnaký počet stĺpcov.
Použitie
[upraviť | upraviť zdroj]CSV je bežný, relatívne jednoduchý súborový formát, ktorý je aplikáciami široko podporovaný. Medzi jeho najbežnejšie použitie patrí výmena tabuľkových dát medzi programami, ktoré natívne používajú nekompatibilné (často vlastné a nedokumentované) formáty. Väčšina takýchto programov podporuje CSV aspoň ako alternatívny formát na import/export dát. „CSV“ nie je jediný, presne stanovený formát, neexistuje preň žiadna špecifikácia. Popis formátu sa však nachádza (mimo iného) v RFC 4180. V praxi sa pojem „CSV“ vzťahuje na súbory, ktoré:
- obsahujú čistý text (plain text) s kódovaním napr. ASCII, Unicode, EBCDIC, alebo Shift JIS,
- pozostávajú zo záznamov (poväčšine jeden záznam na riadok),
- majú záznamy rozdelené do polí (stĺpcov) oddelených jedným rezervovaným znakom ako čiarka, bodkočiarka alebo tabulátor,
- v každom zázname obsahujú rovnaký počet stĺpcov.
Aj v rámci týchto všeobecných obmedzení, sa používajú rôzne variácie tohto formátu. Preto „CSV“ súbory nie sú celkom prenosné. Ale rozdiely sú len malé, a mnoho implementácií umožňujú užívateľom určiť oddeľovací znak, použitie úvodzoviek atď.
Nedostatočný štandard
[upraviť | upraviť zdroj]Názov "CSV" indikuje použitie čiarky na oddelenie stĺpcov s dátami. Ale, pojem „CSV“ je značne používaný na označenie veľkého množstva formátov, ktoré sa odlišujú rôznymi spôsobmi. Napríklad mnoho takzvaných „CSV“ súborov v skutočnosti používa tabulátor namiesto čiarky, takýto variant sa potom niekedy označuje ako TSV, Tab-separated values; niektoré povoľujú alebo vyžadujú apostrofy alebo úvodzovky okolo niektorých alebo všetkých stĺpcov; a niektoré rezervujú prvý riadok pre zoznam názvov stĺpcov. Konkrétny problém je v tom, že v niektorých jazykoch vrátane slovenčiny sa čiarka používa na oddelenie desatinných miest v číslach. Práve preto nie je v mnohých jazykoch možné jednoduché využitie čiarky ako oddeľovača jednotlivých stĺpcov, ale sa musia takéto hodnoty uzatvárať do úvodzoviek.
Externé odkazy
[upraviť | upraviť zdroj]- CSV-1203 File Format Specification for Business-to-Business applications Archivované 2016-05-16 na Portuguese Web Archive
- How To: The Comma Separated Value (CSV) File Format
- An EBNF definition of the CSV format with explanation Archivované 2009-01-25 na Wayback Machine