Python: Comenzando con Pandas

Python es un poderoso lenguaje de programación ampliamente utilizado en el análisis y manipulación de datos. Una de las bibliotecas más populares utilizadas en este campo es Pandas.
Este artículo discutirá el uso básico de Pandas en Python.
¿Qué es Pandas?
Pandas es una biblioteca de código abierto construida sobre Python. Se utiliza para la manipulación y análisis de datos, y es útil para trabajar con datos estructurados. La biblioteca proporciona dos estructuras de datos principales: Series y DataFrame.
Series es un objeto similar a un arreglo unidimensional, mientras que DataFrame es un objeto similar a una tabla bidimensional.
¿Cómo integrarlo en el proyecto?
Primero, asegúrate de instalarlo de la siguiente manera:
pip install pandas
Una vez que Pandas esté instalado, puedes importarlo en tu script de Python utilizando el siguiente código:
import pandas as pd
El alias ‘pd’ se utiliza regularmente para identificarlo, pero puedes usar el que prefieras. Mi recomendación es que utilices ‘pd’ para evitar confusiones.
Ahora te mostraré algunos ejemplos de los principios básicos de Pandas.
Creando una Serie
import pandas as pd
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
s = pd.Series(data)
print(s)
Consola:
0 1
1 2
2 3
3 4
4 5
5 6
6 7
7 8
8 9
9 10
dtype: int64
Como puedes ver, la Serie tiene un índice, un conjunto de etiquetas que identifican cada elemento en la Serie. Por defecto, el índice es un rango de enteros que comienza en 0.
Creando un DataFrame
Un DataFrame es un objeto similar a una tabla bidimensional que puede contener cualquier tipo de dato. Puedes crear un DataFrame pasando un diccionario, una lista o un array de NumPy a la función DataFrame().
import pandas as pd
data = {'name': ['John', 'Jane', 'Jack'], 'age': [19, 21, 35]}
df = pd.DataFrame(data)
print(df)
Consola:
name age
0 John 19
1 Jane 21
2 Jack 35
El DataFrame tiene un índice, un conjunto de etiquetas que identifican cada fila en el DataFrame, y columnas, que son un conjunto de etiquetas que identifican cada columna en el DataFrame. Por defecto, el índice es un rango de enteros que comienza en 0.
¿Cómo leer y escribir datos?
Pandas proporciona varias funciones para leer y escribir datos, como read_csv(), read_excel(), read_json(), y así sucesivamente. También puedes escribir datos en un archivo utilizando to_csv(), to_excel(), to_json(), y así sucesivamente.
# Write a CSV file
df.to_csv('data.csv', index=False)
# Read an Excel file
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# Writing and excel file
df.to_excel('data.xlsx', sheet_name='Sheet1', index=False)
# Reading a JSON file
df = pd.read_json('data.json')
Manipulación de datos
Pandas proporciona varias funciones y métodos para manipular datos, como groupby(), sort_values(), y así sucesivamente. También puedes utilizar funciones matemáticas y estadísticas, como mean(), sum(), y así sucesivamente.
import pandas as pd
data = {'name': ['John', 'Jack', 'Marie'], 'age': [19, 25, 35]}
df = pd.DataFrame(data)
# Grouping data by a column
grouped = df.groupby('name')
# Sorting data by a column
sorted = df.sort_values('age')
# Finding the mean of a column
mean = df['age'].mean()
En este artículo, hemos discutido el uso principal de Pandas en Python.
Hemos visto cómo crear y manipular Series y DataFrames, leer y escribir datos, seleccionar e indexar datos, y manipular datos.
Pandas es una potente biblioteca de Python que facilita la manipulación y análisis de datos. Con el conocimiento de Pandas, puedes manejar y analizar fácilmente grandes cantidades de datos en Python.
No Comments