Investigadores de Berkeley diseñan nuevas estrategias para visualizar la cuantiosa información científica generada.
Investigadores de la División de Investigación de Laboratorios Computaciones de Berkeley han formado equipo con la Universidad de California, San Diego, el Laboratorio Nacional Los Alamos, la Universidad Tsinghua y la Universidad Brown para desarrollar estrategias novedosas de software para almacenar, recorrer y analizar enormes conjuntos de datos -más específicamente, información generada en el código de física de plasma llamado VPIC (plasma physics code).
Las herramientas de investigación actuales, como supercomputadoras, colisionadores de partículas y telescopios, están generando tal cantidad de información, y tan rápidamente, que muchos científicos temen que muy pronto no podrán procesar esa inundación de datos.
“Estos instrumentos son capaces de responder algunas de nuestras preguntas científicas más fundamentales, pero eso no significa nada si no somos capaces de manejar la información y darle sentido”, dijo Surendra Byna, de Berkeley Lab.
Cuando el equipo ejecutó VPIC en la supercomputadora Cray XE6 ‘Hopper’, generaron un conjunto de reconexión magnética en tres dimensiones hacia un conjunto de datos (dataset) de un billón de partículas. VPIC simuló el proceso en miles de pasos, periódicamente escribiendo sobre un archivo masivo de 32 terabytes a tiempos específicos.
Al utilizar sus herramientas, los investigadores escribieron cada archivo de 32 TB en el disco en cerca de 20 minutos, un promedio sostenido de 27 gigabytes por segundo (GB/s). Por medio de una versión mejorada de la herramienta FastQuery, el equipo indexó este conjunto masivo de información en cerca de 10 minutos, y luego consultó la información en 3 segundos en busca de características interesantes para visualizar.
“Esta es la primera vez que alguien ha consultado y visualizado datasets de este tamaño de partículas 3D”, dijo Homa Karimabadi, líder del equipo en la Universidad de California. “Aunque nuestro VPIC corre de manera típica generando dos tipos de datos -de malla (grid) y partícula- nunca hicimos mayor cosa con los datos de partícula debido a que era demasiado difícil extraer información de un billón de partículas, y no había forma de obtener información útil”.
Obtienes más información en inglés aquí.
Comentarios