El nodo Pivoting, agrupar y pivotar todo en uno

Unas de las tareas que más habitualmente repetimos haciendo análisis de datos es la de agrupar y la de pivotar. Normalmente se requieren diferentes pasos para hacerlo y no siempre se consiguen los resultados que se quieren. Por suerte en KNIME tenemos el nodo ‘Pivoting’ que nos permite hacer las dos operaciones en un solo paso además de definir la operación matemática que vamos a realizar sobre las celdas resultado. Vamos a ver como funciona.

Vamos a crear un workflow  de ejemplo para ilustrar el uso del nodo. Primero añadiremos el nodo ‘File Reader’ para que nos lea datos de un fichero, en este caso hemos usado el conocido adult.data con datos demográficos de 49000 personas.

Una vez tenemos los datos cargados añadimos el nodo ‘Pivoting’ que podemos encontrar en ‘Data Manipulation’ / ‘Row’ / ‘Transform’ en el ‘Node Repository’

Una vez tengamos conectados los datos al nodo ‘Pivoting’ lo abrimos con doble-click.  Veremos que tenemos 3 pestañas dentro: ‘Groups’, ‘Pivots’ y ‘Options’.

El nodo convertirá los distintos valores de las columnas seleccionadas en ‘Groups’ en filas, los distintos valores de las columnas seleccionadas en ‘Pivots’ en columnas y las funciones de agregación que definamos en ‘Options’ en los valores de las celdas.

Vayamos por pasos. Primero seleccionamos la pestaña ‘Groups’, aquí elegimos las columnas por las que queremos agrupar, si seleccionamos varias se crearán todas las combinaciones de valores posibles. En este caso hemos seleccionado ‘workclass’

En la pestaña de ‘Pivots’ hacemos lo mismo pero seleccionando la columna que queremos pivotar, en este caso ‘education’.

Finalmente en la pestaña ‘Options’ seleccionamos los valores de las celdas y la operación de agregación que queramos realizar. Como veis en la imagen hay una gran cantidad de operaciones disponibles. En este caso hemos seleccionado el ‘Mean’ de ‘capital-gain’.

Adicionalmente en esta pestaña tenemos los ‘Advanced Settings’ donde podemos seleccionar como se va a llamar la columna resultante y otras opciones para afinar el rendimiento.

Una vez tenemos el nodo configurado le damos a ejecutar y obtenemos los resultados. Tenemos 3 salidas, una con la tabla pivotada, una con los totales por filas y otra con los totales con columna. He aquí los resultados:

Como veis un nodo muy potente y fácil de usar. Espero que os ayude en vuestras tareas.

Hasta pronto.

Anuncios

Acerca de oriolcort

Business Analyst en DatKnoSys. Mi experiencia profesional empieza como desarrollador de algoritmos de data mining, paulatinamente pasé a consultor en data mining y business intelligence y actualmente me dedico al business y web analytics. He trabajado en KBS, Synera, Planeta Actimedia, TNS Media y actualmente en DatKnoSys Me interesa todo lo relacionado con el mundo del data mining y la estadística aplicada a negocio. Mi meta es ayudar a las empresas a mejorar usando técnicas de data mining de manera transparente.
Esta entrada fue publicada en Casos de uso, Trucos. Guarda el enlace permanente.

3 respuestas a El nodo Pivoting, agrupar y pivotar todo en uno

  1. Teresa dijo:

    Gracias Oriol. Un artículo muy interesante y muy fácil de seguir. Realmente aqui se ve la potencia del KMINE.

    De todas formas no me ha quedado muy claro que es lo que pasa con las variables seleccionadas en Pivots. ¿Nos lo puedes aclarar?

    Muchas gracias,

    Teresa

    • oriolcort dijo:

      Hola Teresa,

      Gracias por tu comentario.
      Cada valor de cada variable seleccionada en Pivots se convierte en una columna independiente. La diferencia con un pivot “normal” es que aquí en lugar de tener 0 y 1 en el valor de las celdas puedes añadir una formula de agregación con cualquier variable de los datos.

      Saludos.

  2. muy interesante, pivotar y calcular de un solo paso, gracias Oriol

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s