Apache ORC
formato de almacenamiento de datos orientado a columnas
Apache ORC (Optimized Row Columnar) es un formato de almacenamiento de datos orientado a columnas, gratuito y de código abierto del ecosistema Apache Hadoop. Es similar a los otros formatos de archivo de almacenamiento en columnas disponibles en el ecosistema de Hadoop, como RCFile y Parquet. Es compatible con la mayoría de los marcos de procesamiento de datos en el entorno Hadoop.
Apache ORC | ||
---|---|---|
Información general | ||
Tipo de programa | Sistema de archivos distribuido | |
Desarrollador | Apache Software Foundation | |
Lanzamiento inicial | 12 de mayo de 2015 | |
Licencia | Apache License 2.0 | |
Estado actual | Activo | |
Idiomas | inglés | |
Información técnica | ||
Plataformas admitidas | Java | |
Enlaces | ||
En febrero de 2013, el formato de archivo Optimized Row Columnar (ORC) fue anunciado por Hortonworks en colaboración con Facebook.[3] Un mes después, se anunció el formato Apache Parquet, desarrollado por Cloudera y Twitter.[4]
Véase también
editar- Portal:Software libre. Contenido relacionado con Software libre.
- Apache Hive
- Pig (herramienta de programación)
- Apache Spark
Referencias
editar- ↑ «The Stinger Initiative: Making Apache Hive 100 Times Faster». Consultado el Jan 1, 2019.
- ↑ «Releases». Archivado desde el original el 2 de junio de 2021. Consultado el 20 de noviembre de 2020.
- ↑ Alan Gates (20 de febrero de 2013). «The Stinger Initiative: Making Apache Hive 100 Times Faster». Hortonworks blog. Consultado el Dec 31, 2018.
- ↑ Justin Kestelyn (13 de marzo de 2013). «Introducing Parquet: Efficient Columnar Storage for Apache Hadoop». Cloudera blog. Archivado desde el original el 19 de septiembre de 2016. Consultado el 4 de mayo de 2017.