sovrn-banner

Monday, March 9, 2015

Qué es Netezza (ahora PureData for Analytics powered by Netezza)



Muchas veces damos por supuestas ciertas cosas y eso hace que pasemos por alto otras importantes. Y estoy cayendo en la cuenta de que me he puesto a explicar la nueva oferta de Netezza (bueno, ahora PureData for Analytics), orientada a la pequeña y mediana empresa, cuando a lo mejor quien lea esto no sabe lo que es un Netezza.

¿Pero qué es un Netezza?

En un resumen muy rápido, es una base de datos relacional, que cumple con el estándar SQL y que incluye además drivers ODBC, JDBC y OLE-DB. 

Además está diseñada específicamente para usos analíticos, es decir, está pensada en exclusiva para ser utilizada en un entorno data-warehouse/data-mart, en especial para realizar análisis -complejo- de grandes volúmenes de datos.

Y además, está diseñado para realizar este análisis de grandes volúmenes de datos en un tiempo muy corto de tiempo. Es decir, está diseñado para ofrecer un muy alto rendimiento.

Pero, además, como está diseñado utilizando un nuevo concepto, partiendo de cero, se ha diseñado para que sea muy fácil de utilizar. Muchísimo más fácil de utilizar que cualquier base de datos relacional al uso, o incluso mucho más fácil de administrar que cualquier otro datawarehouse existente en el mercado. Por ejemplo, no tiene índices, así que no hay que gestionarlos. No hay que gestionar particiones, ni sistema operativo, ni redo-logs, ni dbspaces... A muy grandes rasgos, basta con enchufarlo, cargar datos y analizarlos.


En resumen, se trata de un appliance.

¿Y qué es un appliance? Pues un dispositivo diseñado para un uso específico, de muy fácil instalación y de muy fácil operación. Por ejemplo, una lavadora es un appliance. Un frigorífico es un appliance. Aunque estos ejemplos no son los que más me gustan al establecer una comparación. Me gusta mucho más decir que un Netezza es como un iPod, pero de 500Kg de peso (no de coste; ese es otro punto interesante: el coste de compra, operación y mantenimiento son muy bajos, a causa de su diseño).
Image result for puredata for analytics
No podía faltar una foto de cómo es un PureData for Analytics
Es decir, como buen appliance, viene todo instalado y configurado de fábrica: almacenamiento, base de datos, hardware, sistema operativo... Igual que cuando compras un iPod, no tienes que preocuparte de instalar nada, ni de ver qué sistema operativo instalas, ni qué almacenamiento configuras. Ya viene todo hecho de fábrica.
En un PureData for Analytics, un Netezza, es exactamente igual.

En resumen, en unos pocos titulares:
  • Es un APPLIANCE (viene todo instalado y configurado de fábrica).
  • Es una base de datos relacional (SQL estándar).
  • Pensada para analítica de datos y grandes volúmenes.
  • Muy rápida.
  • Muy sencilla de manejar (prácticamente sólo hay que crear las tablas, cargar los datos y explotarlos).
  • A un coste muy bajo, tanto de adquisición como de operación y mantenimiento.
Como introducción creo que es suficiente. Más adelante, ya iré desgranando porqué es tan rápido y eficiente. Aunque siempre se puede consultar la información oficial de IBM.

Monday, March 2, 2015

Analítica sencilla pero avanzada para pequeñas y medianas empresas

Durante el pasado mes de julio, tuve la fortuna de ser seleccionado para formar parte de una de las famosas residencias técnicas de IBM. En general, estos programas sirven para reunir a los mejores expertos de IBM en un tema en concreto y dan como fruto un RedBook, un libro técnico donde se condensa ese conocimiento para ser compartido en la comunidad de ingenieros.
En este caso, en lugar de un libro, el fruto ha sido el formar parte de la comunidad de "bloggers" de la web Expert Integrated Systems de IBM, donde el objetivo es el mismo: compartir el conocimiento técnico, pero en este caso más dinámico y directo, Evidentemente no se trata de un contenido tan detallado ni tan rico, pero mucho más directo y flexible.
Puesto que dichos artículos se publican en inglés y la vocación de mi blog es la de ser bilingüe -de ahí que tenga los dos blogs, en español y en inglés-, creo que tengo la obligación de añadir en este espacio los mismos artículos publicados en EIS, pero traducidos al español y además por su mismo autor, o sea, yo mismo, con lo que espero que no se pierda gran cosa en la traducción.
Eso sí, probablemente el orden de publicación en este espacio no sea el mismo que en el blog original, aunque siempre se podrá acudir a la fuente original, por supuesto.
Sin más preámbulos, aquí tenéis la primera entrega.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------

Analítica sencilla pero avanzada para pequeñas y medianas empresas

El mes de octubre ha sido realmente excitante para IBM PureData System for Analytics, powered by Netezza technology. No sólo porque ha habido importantes anuncios en cuanto a renovación de la plataforma hardware y la inclusión de importantes novedades en su software, sino porque también hemos asistido a la introducción de un nuevo modelo, muy interesante en cuanto a su concepto, dirigido a cubrir el mercado analítico de las pequeñas y de incluso las medianas empresas: nos referimos al nuevo N3001-001.
Mako-Full (1)
Evidentemente la foto no se corresponde con un N3001-001 de verdad, pero sirve a ilustrar a la perfección cuál es la composición de la nueva familia de PureData System for Analytics (o Netezza, que es el nombre anterior y es mucho más corto).

A la derecha del todo, encontramos lo que sería el N3001-010 (o rack completo), que es el sistema más potente de los disponibles en formato de un rack. A su izquierda, tenemos el N3001-005 (o medio rack), seguido del N3001-002 (o cuarto de rack -no, no tenemos cuarto y mitad... chiste demasiado fácil-).
Finalmente encontramos lo que sería nuestro nuevo amigo, N3001-001. Lo que quiero subrayar con esta representación es que en este modelo se utiliza la misma tecnología que en el resto de modelos, ofreciendo una velocidad y capacidad de análisis realmente sorprendentes, donde lo único que cambia es el tamaño, llegando en este caso a condensar la oferta en un sistema de sólo 4Us.
A continuación tenemos la foto real de cómo es este sistema:
IBM PureData N3001
Como se puede ver por la foto, se trata de un sistema enrackable. Esa es su principal diferencia con modelos anteriores de PureData System for Analytics, únicamente el tamaño: en este caso no hace falta una cabina completa.
El sistema ideal para empresas pequeñas y medianas
Aunque el N3001-001 es el sistema más pequeño de la familia Netezza que se puede comprar en la actualidad, sus números no dejan de ser impresionantes. De partida, cuenta con un almacenamiento bruto interno de 4TB, que muy fácilmente se pueden convertir en 16TB de datos reales almacenados en su interior gracias a los mecanismos de compresión que se utilizan en el software de la familia Netezza (IBM Netezza Performance Server). De hecho, como ya he comentado, el software que encontramos en este servidor es el mismo que podemos encontrar en el resto de sistemas Netezza. El mismo. Y la compresión de todos los datos incluidos en el sistema es una característica común a todos los sistemas Netezza.
El rendimiento ofrecido también es muy destacable. Por supuesto desde IBM animamos a nuestros clientes a que hagan pruebas reales con nuestros sistemas y sus datos; IBM proporciona el Netezza y el cliente proporciona el resto. Es la mejor forma de verificar que el sistema es el realmente adecuado a las necesidades de un cliente (y además, estoy convencido de que una vez que lo pruebas, hay un 90% de probabilidades de que directamente te lo quedes).
En cualquier caso, no voy a hacer un comentario detallado de métricas de rendimiento, eso es mejor verificarlo con los datos reales de los clientes. Sin embargo, para que tengamos una idea de por dónde nos estamos moviendo, diré que el N3001-001 ha demostrado ser al menos tan potente como un TwinFin-3 (ó N1001-002, la familia anterior de sistemas Netezza en el mercado). De hecho, los clientes que han comprado el sistema y entrado con él en producción están sencillamente encantados con el rendimiento que han encontrado.
Obviamente el precio se ha fijado acorde al tamaño y la capacidad del sistema. Esto hace que sea un sistema especialmente bien orientado a la hora de cubrir las necesidades de aquellas empresas de tamaño mediano o incluso pequeño, pero que tienen necesidad de acometer proyectos de análisis de grandes volúmenes de datos -al menos en comparación con su tamaño y recursos informáticos-. En este sentido, se trata de un sistema ideal para cubrir las necesidades de aquellas compañías que cuentan con entre 1 y 10 TB de datos. Para este tipo de empresas, el tener la posibilidad de utilizar herramientas analíticas avanzadas, puede suponer una ventaja competitiva muy grande: podemos pensar en pequeñas cadenas de supermercados, empresas de logística de cobertura regional, empresas de ingeniería con recursos limitados en el área IT, etc.
Y es que, como el resto de la familia de sistemas PureData for Analytics, la sencillez de manejo es primordial en estos sistemas. En general son suficientes unos conocimientos básicos de SQL para poder administrar un sistema muy sencillo, donde no existen índices, particiones, gestión del sistema operativo... ni la mayor parte de las tareas que son necesarias en sistemas tradicionales de data-warehouse: eso permite que de media nuestros clientes sólo dediquen media jornada de un administrador de sistemas a la gestión de nuestros Netezzas. Pero esto es tema de otro artículo, así que no profundizaré más en esto.
El nuevo PureData System for Analytics N3001-001 es fantástico para aquellas empresas que generan una gran cantidad de datos, que serían muy valiosos si se tratan adecuadamente, pero que carecen del presupuesto para invertir en grandes sistemas y que quizás tampoco se pueden permitir la contratación de nuevo personal para administrar bases de datos, o ingenieros de datos (data scientists) para operar nuevos sistemas analíticos. Ahora, gracias a este sistema de IBM, se pueden permitir el lujo de adentrarse en la era del big data, con un sistema de alto rendimiento, pero a un coste muy asequible.
Excelente sistema para desarrollo
Otro escenario donde el nuevo N3001-001 encaja a la perfección es el de un departamento de desarrollo en aquellas organizacoines que ya cuentan con sistemas PureData System for Analytics-Netezza. De este modo, estos departamentos puede tener acceso a un sistema que contiene exactamente las mismas características que los sistemas de producción, pero que pueden acomodarse con facilidad en CPDs más pequeños o en ubicaciones diferentes a las de producción junto a otros equipos de desarrollo. Aunque no es recomendable, incluso un cliente nos ha dicho que "pensaba colocarlo bajo su escritorio para empezar a usarlo cuanto antes". Esto es posible, por supuesto, pero ya digo que no es recomendable, por el confort de los usuarios sobre todo.


Algunas Características
Para una descripción completa de las características del sistema, lo mejor es consultar la data sheet del N3001-001.
Aquí sólo incluyo un pequeño resumen de las características más destacables de este sistema:
  • Se utiliza el mismo software -Netezza Performance Server- que en el resto de servidores de la familia N3001. Igualmente, se proporciona pre-instalado y pre-configurado de fábrica.
  • Alta disponibilidad de serie, incluyendo hardware totalmente redundante y sin puntos únicos de fallo.
  • Funcionalidad Call-home disponible (el sistema, si detecta un fallo, contacta con soporte de IBM directamente).
  • Discos auto-encriptables (Self-encryption disks) disponibles por defecto, como en el resto de la familia Netezza.
Pero es no es todo. En toda la familia de sistemas N3001, también dispondremos de las siguientes licencias de software adicionales:
  • IBM Cognos Software: Licencias para cinco usuarios analíticos más un usuario administrador.
  • IBM InfoSphere DataStage: Licencias para 280 Processor Value Units (PVUs), dos usuarios diseñadores concurrentes  e InfoSphere Data Click
  • Apache Hadoop and data services: Licencias de IBM InfoSphere BigInsights para 5 nodos de datos, con una capacidad estimada de gestión de unos 100 TB de datos.
  • Real-time analytics: Dos licencias de desarrollo deIBM InfoSphere Streams Developer Edition (sin embargo, en este caso no se trata de licencias para producción, sino para desarrollo y pruebas)
Más información disponible en la página web de IBM. También me puedes seguir en Twitter @isaac5moreno o dejar un comentario en esta página para contactar conmigo.
Si tu negocio es mediano o pequeño, esta es una gran oportunidad para entrar en el mundo del big data por la puerta grande.

El trabajo del headhunter

La primera vez que un headhunter se puso en contacto conmigo fue en 1999. La conversación digamos que fue complicada, porque estaba de copiloto en un coche que conducía mi jefe.

Desde aquel momento entendí que una forma de medir tu calidad profesional y el desarrollo de tu carrera es el número de cazatalentos que se ponen en contacto contigo. Si te llaman de vez en cuando, es que lo estás haciendo bien. Si se ponen en contracto contigo tres y cuatro headhunter por semana... bueno, eso sólo significa que estás trabajando en big data, que hay pocos recursos en el mercado, que la economía se está acelerando y que tu perfil es realmente interesante: en suma, que has dado en la diana.



Desde aquella primera interacción con un headhunter hasta hoy, lo cierto es que las cosas han cambiado mucho. En aquella época, ya el siglo pasado, no teníamos las herramientas sociales -como LinkedIn- que facilitan el contacto entre las personas. Aquel headhunter que me llamó estando con mi jefe, había conseguido mi referencia a través de una persona que le había dicho que yo encajaba para un puesto determinado, casi con toda seguridad un cliente que conocía mi perfil y mi forma de trabajar.
Un tiempo después me llamó otro headhunter de la que en en aquel momento era la primera empresa del ramo en España. No tengo muy claro cómo había conseguido mi contacto, pero de nuevo tuvo que trabajar para conseguir mi perfil, mis datos de contacto, encajarlos con el puesto de trabajo que estaba tratando de cubrir y decidir que era el candidato ideal. No creo que se acuerde de mí, pero en aquel momento casi podía ver la cara de sorpresa que puso cuando ni siquiera le dí la oportunidad de tener una entrevista personal: estaba cambiando de empresa en aquel momento y puesto que había dado mi palabra de incorporarme a un nuevo equipo, ni siquiera consideré la posibilidad de tener una entrevista para un puesto de trabajo que no aceptaría por coherencia profesional (sí, pecados de juventud...).



Hoy en día, ya en pleno siglo XXI, las cosas han cambiado enormemente. Los cazatalentos ahora se llaman headhunters, pero sobre todo ha cambiado la forma en la que trabajan. Mientras que antiguamente tenían que buscar los candidatos idóneos a través de referencias de otras personas, ahora las referencias se buscan a través de LinkedIn principalmente. No quiero quitar mérito al trabajo del headhunter, pero ahora se lo hemos puesto muy fácil: simplemente tienen que teclear una serie de palabras clave, unos términos de búsqueda determinados y aparece un listado de candidatos clasificados por esas palabras clave. Ya sólo queda filtrar los que ellos piensan que son los más adecuados, y, ni siquiera tienen que encontrar la forma de ponerse en contacto con ellos, basta con usar el mail del propio LinkedIn para que le llegue un mensaje al candidato en cuestión (bueno, sigue habiendo excepciones; algunos no sé cómo lo hacen pero acaban llamándome al número de teléfono antes que usar el contacto por mail, lo que dice mucho de su calidad profesional).
Recuerdo una anécdota que contaba una responsable de RRHH de una de las empresas en las que trabajé, que había sido cazatalentos a la antigua usanza. Llevaba varios meses tratando de contactar con un directivo de una empresa, directivo al que quería proponer un puesto en una empresa de la competencia, pero su secretaria siempre le rechazaba las llamadas. Un día, empleó un truco, le dijo a la secretaria que era la vecina de abajo del candidato en cuestión y que tenía que hablar urgentemente con él, porque debían haber dejado un grifo abierto y le estaba inundando el piso.
El truco dio resultado y el directivo aceptó la llamada. Cuál sería la sorpresa de la headhunter cuando el tipo, antes de decir hola, le dice:

          -"¿De qué empresa de headhunters me llamas?"
          -"¿Cómo sabes que soy una headhunter...?"
          -"Vivo en un chalé, no tengo vecina de abajo..."

Este tipo de cosas son las que perdemos con las redes sociales. A cambio, quizás ganaremos en eficiencia y sobre todo en oportunidades, porque claro, el trabajo del headhunter es más fácil, pero los candidatos también tienen mucha mayor proyección, el escaparate es mucho más grande y se puede expandir con mayor facilidad incluso a otros países.

Por cierto, siempre hay que ser cuidadoso con los contactos con un headhunter. Un buen conjunto de consejos son los que se encuentran en el siguiente enlace.