Durante el pasado mes de julio, tuve la fortuna de ser seleccionado para formar parte de una de las famosas residencias técnicas de IBM. En general, estos programas sirven para reunir a los mejores expertos de IBM en un tema en concreto y dan como fruto un RedBook, un libro técnico donde se condensa ese conocimiento para ser compartido en la comunidad de ingenieros.
En este caso, en lugar de un libro, el fruto ha sido el formar parte de la comunidad de "bloggers" de la web
Expert Integrated Systems de IBM, donde el objetivo es el mismo: compartir el conocimiento técnico, pero en este caso más dinámico y directo, Evidentemente no se trata de un contenido tan detallado ni tan rico, pero mucho más directo y flexible.
Puesto que dichos artículos se publican en inglés y la vocación de mi blog es la de ser bilingüe -de ahí que tenga los dos blogs, en español y en inglés-, creo que tengo la obligación de añadir en este espacio los mismos artículos publicados en EIS, pero traducidos al español y además por su mismo autor, o sea, yo mismo, con lo que espero que no se pierda gran cosa en la traducción.
Eso sí, probablemente el orden de publicación en este espacio no sea el mismo que en el blog original, aunque siempre se podrá acudir a la fuente original, por supuesto.
Sin más preámbulos, aquí tenéis la primera entrega.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
El mes de octubre ha sido realmente excitante para
IBM PureData System for Analytics, powered by Netezza technology. No sólo porque ha habido importantes anuncios en cuanto a renovación de la plataforma hardware y la inclusión de importantes novedades en su software, sino porque también hemos asistido a la introducción de un nuevo modelo, muy interesante en cuanto a su concepto, dirigido a cubrir el mercado analítico de las pequeñas y de incluso las medianas empresas: nos referimos al nuevo N3001-001.
Evidentemente la foto no se corresponde con un N3001-001 de verdad, pero sirve a ilustrar a la perfección cuál es la composición de la nueva familia de PureData System for Analytics (o Netezza, que es el nombre anterior y es mucho más corto).
A la derecha del todo, encontramos lo que sería el N3001-010 (o rack completo), que es el sistema más potente de los disponibles en formato de un rack. A su izquierda, tenemos el N3001-005 (o medio rack), seguido del N3001-002 (o cuarto de rack -no, no tenemos cuarto y mitad... chiste demasiado fácil-).
Finalmente encontramos lo que sería nuestro nuevo amigo, N3001-001. Lo que quiero subrayar con esta representación es que en este modelo se utiliza la misma tecnología que en el resto de modelos, ofreciendo una velocidad y capacidad de análisis realmente sorprendentes, donde lo único que cambia es el tamaño, llegando en este caso a condensar la oferta en un sistema de sólo 4Us.
A continuación tenemos la foto real de cómo es este sistema:
Como se puede ver por la foto, se trata de un sistema enrackable. Esa es su principal diferencia con modelos anteriores de PureData System for Analytics, únicamente el tamaño: en este caso no hace falta una cabina completa.
El sistema ideal para empresas pequeñas y medianas
Aunque el N3001-001 es el sistema más pequeño de la familia Netezza que se puede comprar en la actualidad, sus números no dejan de ser impresionantes. De partida, cuenta con un almacenamiento bruto interno de 4TB, que muy fácilmente se pueden convertir en 16TB de datos reales almacenados en su interior gracias a los mecanismos de compresión que se utilizan en el software de la familia Netezza (IBM Netezza Performance Server). De hecho, como ya he comentado, el software que encontramos en este servidor es el mismo que podemos encontrar en el resto de sistemas Netezza. El mismo. Y la compresión de todos los datos incluidos en el sistema es una característica común a todos los sistemas Netezza.
El rendimiento ofrecido también es muy destacable. Por supuesto desde IBM animamos a nuestros clientes a que hagan pruebas reales con nuestros sistemas y sus datos; IBM proporciona el Netezza y el cliente proporciona el resto. Es la mejor forma de verificar que el sistema es el realmente adecuado a las necesidades de un cliente (y además, estoy convencido de que una vez que lo pruebas, hay un 90% de probabilidades de que directamente te lo quedes).
En cualquier caso, no voy a hacer un comentario detallado de métricas de rendimiento, eso es mejor verificarlo con los datos reales de los clientes. Sin embargo, para que tengamos una idea de por dónde nos estamos moviendo, diré que el N3001-001 ha demostrado ser al menos tan potente como un TwinFin-3 (ó N1001-002, la familia anterior de sistemas Netezza en el mercado). De hecho, los clientes que han comprado el sistema y entrado con él en producción están sencillamente encantados con el rendimiento que han encontrado.
Obviamente el precio se ha fijado acorde al tamaño y la capacidad del sistema. Esto hace que sea un sistema especialmente bien orientado a la hora de cubrir las necesidades de aquellas empresas de tamaño mediano o incluso pequeño, pero que tienen necesidad de acometer proyectos de análisis de grandes volúmenes de datos -al menos en comparación con su tamaño y recursos informáticos-. En este sentido, se trata de un sistema ideal para cubrir las necesidades de aquellas compañías que cuentan con entre 1 y 10 TB de datos. Para este tipo de empresas, el tener la posibilidad de utilizar herramientas analíticas avanzadas, puede suponer una ventaja competitiva muy grande: podemos pensar en pequeñas cadenas de supermercados, empresas de logística de cobertura regional, empresas de ingeniería con recursos limitados en el área IT, etc.
Y es que, como el resto de la familia de sistemas PureData for Analytics, la sencillez de manejo es primordial en estos sistemas. En general son suficientes unos conocimientos básicos de SQL para poder administrar un sistema muy sencillo, donde no existen índices, particiones, gestión del sistema operativo... ni la mayor parte de las tareas que son necesarias en sistemas tradicionales de data-warehouse: eso permite que de media nuestros clientes sólo dediquen media jornada de un administrador de sistemas a la gestión de nuestros Netezzas. Pero esto es tema de otro artículo, así que no profundizaré más en esto.
El nuevo PureData System for Analytics N3001-001 es fantástico para aquellas empresas que generan una gran cantidad de datos, que serían muy valiosos si se tratan adecuadamente, pero que carecen del presupuesto para invertir en grandes sistemas y que quizás tampoco se pueden permitir la contratación de nuevo personal para administrar bases de datos, o ingenieros de datos (data scientists) para operar nuevos sistemas analíticos. Ahora, gracias a este sistema de IBM, se pueden permitir el lujo de adentrarse en la era del big data, con un sistema de alto rendimiento, pero a un coste muy asequible.
Excelente sistema para desarrollo
Otro escenario donde el nuevo N3001-001 encaja a la perfección es el de un departamento de desarrollo en aquellas organizacoines que ya cuentan con sistemas PureData System for Analytics-Netezza. De este modo, estos departamentos puede tener acceso a un sistema que contiene exactamente las mismas características que los sistemas de producción, pero que pueden acomodarse con facilidad en CPDs más pequeños o en ubicaciones diferentes a las de producción junto a otros equipos de desarrollo. Aunque no es recomendable, incluso un cliente nos ha dicho que "pensaba colocarlo bajo su escritorio para empezar a usarlo cuanto antes". Esto es posible, por supuesto, pero ya digo que no es recomendable, por el confort de los usuarios sobre todo.
Algunas Características
Para una descripción completa de las características del sistema, lo mejor es consultar la
data sheet del N3001-001.
Aquí sólo incluyo un pequeño resumen de las características más destacables de este sistema:
- Se utiliza el mismo software -Netezza Performance Server- que en el resto de servidores de la familia N3001. Igualmente, se proporciona pre-instalado y pre-configurado de fábrica.
- Alta disponibilidad de serie, incluyendo hardware totalmente redundante y sin puntos únicos de fallo.
- Funcionalidad Call-home disponible (el sistema, si detecta un fallo, contacta con soporte de IBM directamente).
- Discos auto-encriptables (Self-encryption disks) disponibles por defecto, como en el resto de la familia Netezza.
Pero es no es todo. En toda la familia de sistemas N3001, también dispondremos de las siguientes licencias de software adicionales:
- IBM Cognos Software: Licencias para cinco usuarios analíticos más un usuario administrador.
- IBM InfoSphere DataStage: Licencias para 280 Processor Value Units (PVUs), dos usuarios diseñadores concurrentes e InfoSphere Data Click
- Apache Hadoop and data services: Licencias de IBM InfoSphere BigInsights para 5 nodos de datos, con una capacidad estimada de gestión de unos 100 TB de datos.
- Real-time analytics: Dos licencias de desarrollo deIBM InfoSphere Streams Developer Edition (sin embargo, en este caso no se trata de licencias para producción, sino para desarrollo y pruebas)
Más información disponible en la página
web de IBM. También me puedes seguir en Twitter
@isaac5moreno o dejar un comentario en esta página para contactar conmigo.
Si tu negocio es mediano o pequeño, esta es una gran oportunidad para entrar en el mundo del big data por la puerta grande.