Estudio de caso
Limpieza de datos en el condado de South Adams
El South Adams County Water and Sanitation District (SACWSD) se formó en 1953 bajo las disposiciones del Distrito Especial del Estado de Colorado para servir al área ahora conocida como Commerce City. Si bien el distrito atiende a la población de Commerce City, es una entidad separada y, actualmente, es el distrito combinado de agua y saneamiento más grande del estado de Colorado, el cual abarca 65 millas cuadradas (unos 170 kilómetros cuadrados) y presta servicio a casi 50 000 clientes.
Desafío
El equipo del sistema de información geográfica (SIG) de SACWSD se basa en múltiples fuentes de datos, incluido su propio trabajo de campo, para elaborar tres datasets separados que cubren los sistemas de agua potable, riego y alcantarillado. El equipo usa ArcGIS para respaldar la expansión, el mantenimiento, la sustitución y la mejora de los sistemas. Además, los datos se comparten con aplicaciones de terceros, por ejemplo, el sistema de gestión de activos del distrito (para solicitudes de servicio diario y órdenes de trabajo completadas) y el software de modelado de agua, el cual tiene sus propios requisitos. Por tanto, es importante disponer de datos fiables.
En el otoño de 2016, el distrito de agua y saneamiento acababa de completar la recopilación de datos mediante GPS. Cliff Sullivan, supervisor de GIS, y Mark Dickman, técnico de SIG, pronto se dieron cuenta de que la calidad de los datos variaba mucho. Los datos inexactos pueden reducir potencialmente la eficiencia al ofrecer ubicaciones de activos incorrectas y dificultar la integración con otros sistemas comerciales. Mejores datos también ayudan a mejorar el servicio al cliente con asignaciones de trabajo precisas y una respuesta de emergencia mejorada.
El trabajo de limpiar los datos comenzó como un esfuerzo largo y tedioso. Sullivan, Dickman y un becario tuvieron que revisar manualmente cada entidad para determinar la precisión espacial y la corrección de los atributos. Este tipo de proceso de control de calidad (QC) estaba limitado porque era exploratorio y no exhaustivo.
Solución
Sullivan advirtió una verificación de estado de datos de Esri en la agenda de una próxima conferencia. Vio que ArcGIS Data Reviewer, una extensión de ArcGIS, podía hacer que su trabajo fuera mucho más rápido. Además de la extensión de ArcGIS, el distrito compró servicios de consultoría in situ y trabajó con un ingeniero de geodatos de Esri para implantar Data Reviewer y ofrecer la transferencia de conocimientos.
Resultados
Los miembros del equipo de SIG de SACWSD usaron Data Reviewer en un principio para obtener una instantánea general de los datos que les ayudase a decidir cuál de los cientos de posibles comprobaciones de datos se realizaría en primer lugar.
Sullivan dijo: «Nuestro consultor de Esri fue paciente y muy minucioso a la hora de enseñarnos cómo usar el producto. Abarcamos mucho en los dos días que el consultor estuvo en la ubicación. Nuestra experiencia con Esri Professional Services fue estelar».
«Trabajar con Esri hizo que el personal de SACWSD progresara rápidamente. Si bien algunas comprobaciones se explican por sí mismas, el personal necesitaba la ayuda de expertos para comprender la lógica que subyace a la configuración de las más avanzadas y lograr que se ejecutaran correctamente», comentó Dickman. Las buenas prácticas se capturan ahora en una plantilla y se ponen a disposición de todo el mundo.
Data Reviewer ayudó a estandarizar el proceso de control de calidad de priorización y detección de errores y seguimiento de las correcciones. En tres meses se limpió totalmente un dataset. Pronto se completaron las ediciones espaciales en los dos datasets restantes de mayor tamaño. El enfoque inicial era encontrar entidades desconectadas. Las comprobaciones de conectividad aseguraban que todas las entidades estuviesen conectadas correctamente para que el software de modelado de agua se ejecutase correctamente y ofreciese unos resultados precisos. A continuación, para que las solicitudes de servicio y las órdenes de trabajo se creen correctamente en el software de gestión de activos, se debe completar el Id. de cada activo y no debe tener valores duplicados. Estos se determinaron utilizando la verificación de Id. único.
Esri también resultó crucial para ayudar al distrito a construir sus bases de datos y ofrecer asesoramiento sobre el modelado de datos, por ejemplo, el uso de dominios en lugar de subtipos. El distrito trabajó en colaboración con Esri para crear un esquema de datos que ahora está claro para los usuarios de la organización.
Antes de adquirir Data Reviewer y contratar la ayuda de Esri, Sullivan y Dickman analizaban años de comprobación manual de entidades a medida que iban creando su base de datos. Ahora, en ello solo trabaja Dickman y ya va seis meses por delante de la fecha programada. Cuando los tres conjuntos de datos estén completos, esperan haber ahorrado más de un año-hombre.
A medida que continúa el desarrollo de nueva infraestructura, el distrito planea usar ArcGIS Data Reviewer para realizar el control de calidad de los nuevos datos, así como para mantener los datos existentes.
I highly recommend this approach for small shops like ours [whose staff] are not able to dedicate 100 percent of their time to doing QC.