miércoles, 16 de enero de 2013

Los Errores Humanos...

Es un hecho que los sistemas se caen. Para nadie es una sorpresa llegar a un banco, por ejemplo, y encontrarse con situaciones en las cuales la atención y/o el servicio solicitado no está disponible o no puede ser entregado. El aviso a los clientes, siempre, se grafica en con un letrero como el siguiente:

Caida.Sistema Caida.RegistroCivil

Veamos algunos ejemplos relacionados:

Ejemplo 1. Ayer, en Publimetro, salió una noticia respecto a un nuevo error en el sistema de sirenas de Tsunami de Iquique que ya había tenido problemas en la prueba anterior (ver La Caída del Sistema... o la Salida más Fácil). Esta vez el sistema de sirenas se activó por que "la empresa ncargada de la tecnología estaba haciendo pruebas silenciosas y por un error humano se activó la alarma". 

Ejemplo 2. El 24 de Diciembre de 2012, los servicios de Netflix tuvieron problemas en la distribución de contenido en algunas regiones de Estados Unidos, Canadá y Latinoamérica. Netflix tiene casi toda su infraestructura montada sobre Amazon Web Services (AWS) y los problemas se originaron por la caída de uno de los ELB (Elastic Load Balancing Service) que son utilizados para proveer el servicio. Según fue informado, la caída se debió a un error humano "debido a que un desarrollador eliminó accidentalmente información de estado del ELB que controla la región Este de Estados Unidos". 

Ejemplo 3. El día 3 de Julio del 2012, 52.770 cartolas de clientes del Banco de Chile fueron enviadas erróneamente a otros clientes. Como resultado de esto, la molestia de los receptores fue generalizada por el problema de seguridad que implicaba este error y por la impresión que le puede haber ocasionado a aquellos que les faltaba dinero y la emoción a los que les sobraba. Según fue informado por el Banco, "de acuerdo a la información entregada por nuestro proveedor Xerox de Chile S.A., en el proceso de generación y despacho mediante correo electrónico de las cartolas de cuenta corriente del mes de junio, dicha empresa incurrió en errores al adjuntar a la comunicación cartolas equivocadas".

Algunas observaciones importantes respecto a estos eventos:

1. Primer Ejemplo - Prensa.La información respecto al error sólo ha sido entregada por la prensa. No hay información en ninguna otra parte. Las condiciones (y los montos) de la asignación de la licitación se pueden ver aquí.

2. Segundo Ejemplo - Comunicación.
Amazon y, por consiguiente Netflix, publicaron en sus sitios web reportes informando sobre las causas del error. Estos reportes, denominados Post-mortem por ser, obviamente, realizados después de la falla (algo así como una autopsia) se pueden ver en los siguientes links: Amazon - Summary of the December 24, 2012 Amazon ELB Service Event in the US-East Region y Netflix - A Closer Look At The Christmas Eve Outage.


3. Segundo Ejemplo - Explicación.El reporte provee información detallada del error. Adicionalente, si se lee con detención el reporte de Netflix, se puede acceder a información interesante como los lineamientos generales de la estrategia del 2013 para evitar una situaciones similares, algunos juicios respecto al estado del arte de los servicios en la nube y, a dos clicks de distancia, la liberación como OpenSource de las herramientas de administración desarrolladas y utilizadas por Netflix para administrar sus servicios en un repositorio GitHub (ver repositorio Netflix).

4. Segundo Ejemplo - Oportunidad.
El reporte incluye, como resultado de la declaración de las estrategias y acciones para el 2013 y las causas del error, publicidad respecto a las posiciones (puestos de trabajo) existentes para resolver estos desafíos. En términos simples, una invitación, una oportunidad a partir del problema.


5. Tercer Ejemplo - Responsabilidad.
Conocido el error en el despacho de las cartolas, la solución del Banco fue simple: culpar al Proveedor sin tapujos y, además, abrió un nuevo frente de acción: el del secreto bancario, según el cual, "los depósitos y captaciones de cualquier naturaleza que reciban los bancos están sujetos a secreto bancario y no podrán proporcionarse antecedentes relativos a dichas operaciones sino a su titular o a quien haya sido expresamente autorizado por él o a la persona que lo represente legalmente". Asimismo, establece que quien infrinja esta norma "será sancionado con la pena de reclusión menor en sus grados mínimo a medio".

6. Tercer Ejemplo - Solución.
Además de responsabilizar al proveedor y realizar el reenvío de las cartolas correctas, el Banco aprovechó de enviar un mail a las personas que habían recibido la cartola errónea con el siguiente texto: "Por un error en que incurrió nuestro proveedor en el proceso de despacho de la Cartola Mensual de cuenta corriente del mes de junio usted recibió información que no corresponde a su cuenta, por lo que le agradeceremos eliminar dicha información por cuanto su uso podría generar responsabilidades legales". Este mail generó aún más molestia en los clientes afectados porque, sin ir más lejos, era una amenaza.

Obviamente, el tamaño de las industrias es muy diferente. Las realidades muy diferentes también, sin embargo, no deja de ser interesante la aproximación en la comunicación de Netflix y Amazon al problema. Al final, siempre van a ocurrir problemas, y con declaraciones que transparenten los hechos se genera una información que invita a entender el problema, a compartir espacios de mejora y, en el caso de Netflix, invitar a las personas que quieran trabajar en desafíos como éstos. Si los clientes toman acciones legales o no, aceptan las explicaciones o no, es otro tema, fuera del ámbito de la discusión sobre el problema en sí mismo.

Ahora, al margen de lo anterior, las preguntas realmente importantes son las siguientes:

¿Las personas responsables de los llamados "errores humanos" habrán sido despedidas?
¿La de Amazon si, la de Chile no?
¿La de Chile si, la de Amazon no?
¿Las dos?
¿Sería correcto despedirlas... o desvincularlas como se dice hoy?
¿Es Xerox el único responsable en el error del envío de las cartolas?
¿Se habrá terminado el contrato con Xerox como resultado del error?
¿Qué crees tú?

No hay comentarios.: