Hola 2024

La cuesta de Enero. La cuesta que más cuesta. Este año, por H o por B, se me han acumulado muchas cosas, y pese a robarle tiempo a las vacaciones, siento que cada día hago malabares para que no se me caiga ninguna bola. Spoiler: todavía sigo en pie y todo en orden ;)

Empezamos la cuesta de enero¶

Nada más volver de vacaciones, tocaba empezar el bloque de Big Data Aplicado centrada en el ecosistema Hadoop y a finales de mes hemos empezado con Spark.

Del bloque de Hadoop y en consecuencia de las tecnologías Cloud relacionadas, he modificado algunas sesiones (siempre me viene a la cabeza el anuncio de Avecrem de ¿cueces o enriqueces? - yo soy mucho de enriquecer), ya que cada año, tras impartir las sesiones, se me ocurren cosas que añadir. A modo de truquito, al final de los propios apuntes anoto las cosas a cambiar de un curso a otro, y cuando tengo tiempo libre y me pica la curiosidad, profundizo en los "huecos" detectados.

Y no es que escriba una frase con un comentario tipo "Revisar configuración de Hadoop para la ejecución de Tez o Spark como motor de procesamiento", que de por si sola, me da para un par de semanas pegándome con configuraciones y pruebas, sino que también anoto artículos para leer, ideas de ejercicios, etc...

¿Y qué hemos modificado este mes?

En la sesión de Hive (parte 1 y parte 2), he añadido un apartado sobre las vistas materializadas, además de crear un caso de uso desde Flume hasta Hive, inicialmente con HDFS y después lo he intentado con el agente Hive. Peroooooo, no he conseguido hacerlo funcionar con mi máquina virtual... En verano, si estoy ocioso, me pondré con un ejemplo nuevo desde cero a ver si descubro el motivo del fallo.
A partir de esos añadidos, estuve pensando en una nueva actividad competencial con joins, tablas transaccionales y vistas materializadas.
Modificada toda la sesión de AWS EMR para utilizar la última versión (7.0). Pensaba que iban a solucionar el problema de la visibilidad entre Hue y HDFS, pero sigue fallando y hay que tocar unos ficheros de configuración. Como añadido, he creado un nuevo caso de uso dentro de EMR para importar datos desde RDS mediante Sqoop, y luego crear una tabla en Hive que recupere los datos desde HDFS y poder hacer analítica sobre dichos datos. Relacionado con esto, el uso de pasos dentro de EMR y la copia de datos desde HDFS a S3 y viceversa.
Siguiendo con el cloud, con AWS Athena, reproducimos el mismo ejemplo que habíamos hecho con Hive, y luego realizamos consultas desde la propia consola de Athena como desde Python.

Al margen de los apuntes, ya ha salido publicado el curso de CEFIRE el cual voy a impartir a partir de finales de mes titulado Big Data Aplicado - Ecosistema Hadoop y datos en el cloud, y que si sois profes, todavía os podéis inscribir aquí hasta el 15 de Febrero.

Además, este mes me he presentado al examen del nivel C2 de valenciano por la CIEACOVA en la Universidad de Alicante. No sé como quedaré, las sensaciones no fueron malas, pero a saber, si me dicen que he suspendido, me lo creo. Si me dicen que he aprobado, me lo creo también. A finales de mes sabremos el resultado.

No todo es trabajar¶

Este curso me he visto envuelto en más trabajo del que debiera, y tengo el ocio medio abandonado, que no abandonado del todo, eso nunca. He podido jugar a Figment (cortito y sencillo plataformas con puzzles) y por destacar una peli, me encantó la última de Spiderman: "Across the Spider-verse", sólo que no sabía que realmente es media peli, la otra media está en camino.

Y como propósito de Año nuevo, he vuelto a ir a la piscina. Para que la cabeza carbure, necesito hacer algo de deporte, y la natación requiere menos tiempo que la bici... En cuanto mejore el clima, tanto atmosférico como laboral, volveremos con fuerza a los pedales.

Lo que está por venir¶

Pues ya he empezado a ampliar la sesión de Delta Lake para intentar crear un caso de uso que simule un lago de datos real. Tengo casi tres semanas, a ver si me da tiempo al compatibilizarlo con las clases, la EOI, algo de deporte y lo que va surgiendo.

El proyecto Lara sigue viento en popa y con Autoponic, tras definir una estructura de serie temporal, hoy justo hemos empezado a recibir datos reales de los sensores del cultivo hidropónico.

Y como he dicho antes, a finales de mes empiezo a impartir una formación de Big Data y ahí estoy, grabando algunos vídeos y rescribiendo materiales para que queden lo más claro posibles.

Nos leemos en un mes.