csv,conf,v8

Speakers

We have assembled an exciting lineup of speakers – of data makers and enthusiasts representing academia, science, journalism, government, and open source projects - for csv,conf,v8.


Alberto Hernández Armendáriz

Mapping the hidden: what the data on irregular migration through Mexico tell us (ES)

Although irregular migration through Mexico has had a significant escalation in recent years, characterizing it remains difficult due to its nature outside the law. The objective of the session is to present an interesting outline of how we use data science to try to approximate its characteristics and assist humanitarian aid interventions.

Mapeando lo escondido: que nos dicen los datos de la migración irregular por México (ES)

A pesar de que la migración irregular a través México ha tenido una importante escalada en los últimos años, caracterizarla sigue siendo difícil por su naturaleza al margen de la ley. El objetivo de la sesión es presentar un pequeño bosquejo interesante de cómo utilizamos la ciencia de datos para intentar aproximar sus características y asistir intervenciones de ayuda humanitaria.

Alma Rangel

Care System Indicators: the case of two local cities building care indicators to measure women's needs.

In recent years, the recognition of the unequal distribution of care work has emerged as a significant contributor to gender inequality. Addressing this disparity involves the collaborative efforts of the state, the market, and community organizations, all aiming to provide diverse services that cater to the population's needs. Despite these efforts, governments face a challenge due to the lack of public and high-quality data necessary for efficient and effective interventions in the sector. To bridge this gap, Open Data Charter and Codeando Mexico, in collaboration with the governments of Mexico City and Buenos Aires, have developed a comprehensive system comprising over 75 indicators on the supply and demand of care. We intend to showcase this system at the CSV Conference, aiming to share with the data community two projects that serve as replicable models for governments seeking to enhance their public policies in the care sector. These initiatives are designed to inform, enrich, and contribute to the closure of gender gaps.

Indicadores del Sistema de Cuidado: el caso de dos ciudades locales que desarrollan indicadores de cuidado para medir las necesidades de las mujeres.

En los últimos años, el reconocimiento de la distribución desigual del trabajo de cuidado ha surgido como un importante factor contribuyente a la desigualdad de género. Abordar esta disparidad implica los esfuerzos colaborativos del Estado, el mercado y las organizaciones comunitarias, todos con el objetivo de proporcionar servicios diversos que satisfagan las necesidades de la población. A pesar de estos esfuerzos, los gobiernos enfrentan un desafío debido a la falta de datos públicos y de alta calidad necesarios para intervenciones eficientes y efectivas en el sector. Para cerrar esta brecha, la Carta Internacional de Datos Abiertos y Codeando México, en colaboración con los gobiernos de la Ciudad de México y Buenos Aires, han desarrollado un sistema integral que comprende más de 75 indicadores sobre la oferta y demanda de cuidado. Tenemos la intención de presentar este sistema en la Conferencia CSV, con el objetivo de compartir con la comunidad de datos dos proyectos que sirven como modelos replicables para gobiernos que buscan mejorar sus políticas públicas en el sector de cuidado. Estas iniciativas están diseñadas para informar, enriquecer y contribuir al cierre de brechas de género.

Anais Concepcion

Turning a spreadsheet into a collaborative, visual database (EN)

In this hands-on talk, we look at how a group of collaborators can get the most out of relational CSVs. Using the example of a non-profit organization, we go from a simple spreadsheet, to a relational database, to a full-blown data app that lets everyone contribute – without writing any code. The key to collaborative data is making sure everyone can actually use the data, regardless of technical ability. I'll show you how using Grist – a free and open source tool that makes it easy to work on sensitive data as a team. Grist is ideal for collaboration because it bridges technical gaps without sacrificing usability, data portability, or security.

Convertir una hoja de cálculo en una base de datos visual colaborativa (EN)

En esta charla práctica, analizamos cómo un grupo de colaboradores puede aprovechar al máximo los CSV relacionales. Usando el ejemplo de una organización sin fines de lucro, pasamos de una simple hoja de cálculo a una base de datos relacional y a una aplicación de datos completa que permite que todos contribuyan, sin escribir ningún código. La clave para los datos colaborativos es asegurarse de que todos puedan utilizar los datos, independientemente de su capacidad técnica. Le mostraré cómo utilizar Grist, una herramienta gratuita y de código abierto que facilita el trabajo con datos confidenciales en equipo. Grist es ideal para la colaboración porque cierra brechas técnicas sin sacrificar la usabilidad, la portabilidad de datos o la seguridad.

Andrés Snitcofsky

Poroteo in a spreadsheet: the followup

At the 2020 CSVconf (from home), I shared the experience of using a Google spreadsheet to monitor the (failed) fight for #LegalAbortion, but then we reused it and managed to get it approved. Later, we used it again more than once, and it evolved and improved. The idea is to share that whole journey and experience.

Seguimiento en una hoja de cálculo: la continuación

En la CSVconf de 2020 (from home) comparti la experiencia de usar una google spreadsheet para monitorear la (fallida) lucha por el #AbortoLegal, pero luego la volvimos a usar y logramos que se apruebe. Luego volvimos a usarlo más de una vez y fue evolucionando y mejorando. La idea es compartir todo ese recorrido y experiencia

Arturo Garduño-Magaña and Gabriela Mejias

Data Alchemy: Turning your datasets into gold with PIDs and metadata (EN)

Unlocking the full potential of public data files requires a strategic approach to data management. This presentation takes a user-friendly dive into the world of open metadata, and the role of persistent identifiers (such as DataCite DOIs) in enhancing the visibility and impact of public datasets.

Alquimia de datos: convirtiendo sus conjuntos de datos en oro con PID y metadatos (EN)

Liberar todo el potencial de los archivos de datos públicos requiere un enfoque estratégico para la gestión de datos. Esta presentación se sumerge, de manera amigable para el usuario, en el mundo de los metadatos abiertos y el papel de los identificadores persistentes (como los DOI de DataCite) para mejorar la visibilidad y el impacto de los conjuntos de datos públicos.

Asura Enkhbayar

Data Terroir for Metrics: Exploring the Politics of Citations with a Process-centric view of (EN)

Terroir is a fancy term often used to describe how the flavour of a wine is connected to the unique environment of a grape such as climate, soil, or even farming practices. While I don’t particularly care about wine itself, I propose that those who work with scholarly metrics like citation counts should care about the environmental factors of their data. In this talk, I present an exploration of citation data through the lens of a conceptual framework that centers process over outcome. In doing so, I want to show that this processual shift can help us to better understand and operationalize the politics of citations which have been increasingly in the limelight of critical academics, scholars, and tool makers as well. The presentation will reflect and embrace the fluid and interdisciplinary nature of such an undertaking and will cover both the philosophy of citations as well as concrete examples working with traditional and newly emerging forms of citation data.

Terroir de datos para las métricas: exploración de la política de las citas con una visión centrada en el proceso (EN)

Terroir es un término elegante que se utiliza a menudo para describir cómo se conecta el sabor de un vino con el entorno único de una uva, como el clima, el suelo o incluso las prácticas agrícolas. Si bien no me importa especialmente el vino en sí, propongo que quienes trabajan con métricas académicas como el recuento de citas se preocupen por los factores ambientales de sus datos. En esta charla, presento una exploración de los datos de citas a través de la lente de un marco conceptual que centra el proceso sobre el resultado. Al hacerlo, quiero mostrar que este cambio procesual puede ayudarnos a comprender y operacionalizar mejor la política de citas que ha estado cada vez más en el centro de atención de académicos críticos y creadores de herramientas. La presentación reflejará y abrazará la naturaleza fluida e interdisciplinaria de tal tarea y cubrirá, tanto la filosofía de las citas, como ejemplos concretos que trabajan con formas tradicionales y recientemente emergentes de datos de citas.

Averi Giudicessi and Naiki Olivas Gaspar

Exploring Challenges and Strengths: R-Ladies Puebla and Data Science with a Gender Perspective (ES)

In this session, we will focus on discussing the process of establishing and developing the R-Ladies community in Puebla. We will explore the unique trajectories of R-Ladies Puebla, founded in 2019, and how the community was affected by the global pandemic. We will share insights on how we successfully adapt our strategies, transforming traditional in-person interactions into dynamic virtual environments. We will address approaches that fostered growth, maintained connectivity, and continued to empower women in the R programming language and data science fields.

Explorando Desafíos y Fortalezas: R-Ladies Puebla y la Ciencia de Datos con Perspectiva de Género (ES)

En esta sesión, nos enfocaremos en discutir el proceso de establecimiento y desarrollo de la comunidad de R-Ladies en Puebla. Exploraremos las trayectorias únicas de R-Ladies Puebla, fundada en 2019, y cómo la comunidad se vio afectada por la pandemia global. Compartiremos perspectivas sobre cómo adaptamos con éxito nuestras estrategias, transformando las interacciones tradicionales en persona en entornos virtuales dinámicos. Abordaremos enfoques que fomentaron el crecimiento, mantuvieron la conectividad y continuaron empoderando a las mujeres en el lenguaje de programación R y en campos de ciencia de datos.

Bennett Norman

Removing data barriers for decarbonization with the Public Utility Data Liberation Project (EN)

Open-source energy models and data are crucial tools for evaluating and influencing decarbonization policy in the United States. However, the modeling tools and their input data are fragmented and incomplete. Users must repeatedly clean and integrate their own versions of the input data, a tedious, duplicative practice that presents a barrier to accelerated decarbonization. The Public Utility Data Liberation Project (PUDL), is an open-source data processing project that addresses these challenges by cleaning, standardizing, publishing, and curating analysis-ready versions of the energy datasets published by the US government. This talk will cover our approach to cultivating a community of open energy modelers and data wranglers. We’ll also discuss the robust tooling required to keep our data up to date, and how to handle many gigabytes of data while maintaining a high level of data quality. Finally, we’ll explain how we use the Dagster task orchestrator to help contributors with domain knowledge focus more on reproducible data processing and less on maintaining software.

Eliminando barreras de datos para la descarbonización con el Proyecto de Liberación de Datos de Servicios Públicos (EN)

Los modelos y datos energéticos de fuente abierta son herramientas cruciales para evaluar e influir en la política de descarbonización en Estados Unidos. Sin embargo, las herramientas de modelado y sus datos de entrada están fragmentados e incompletos. Los usuarios deben limpiar e integrar repetidamente sus propias versiones de los datos de entrada, una práctica tediosa y duplicativa que presenta una barrera para acelerar la descarbonización. El Proyecto de Liberación de Datos de Servicios Públicos (PUDL) es un proyecto de procesamiento de datos de código abierto que aborda estos desafíos limpiando, estandarizando, publicando y seleccionando versiones listas para análisis de los conjuntos de datos energéticos publicados por el gobierno de EE. UU. Esta charla cubrirá nuestro enfoque para cultivar una comunidad de modeladores y manipuladores de datos abiertos de energía. También analizaremos las herramientas sólidas necesarias para mantener nuestros datos actualizados y cómo manejar muchos gigabytes de datos manteniendo un alto nivel de calidad. Finalmente, explicaremos cómo utilizamos el orquestador de tareas Dagster para ayudar a los contribuyentes con conocimiento del dominio a centrarse más en el procesamiento de datos reproducibles y menos en el mantenimiento del software.

Caitlin Christine Johnson

Analytics Is Engineering, Too! (EN)

With the emergence of Analytics Engineering within the data world, the new role has been met with a lot of skepticism and scrutiny by software engineers, including myself. However, after taking on a Senior Analytics Engineer role at AssemblyAI in 2023, I am now a huge believer that engineering is possible - if not beneficial - within analytics. My talk will discuss how to treat analytics as a form of engineering by enabling a shift towards rigorous frameworks, standardized processes, and robust infrastructures, fostering not only insightful data-driven decision-making but also the creation of scalable and reliable analytical systems. By drawing parallels between these disciplines, I aim to showcase the value in applying engineering principles to analytics.

¡La analítica también es ingeniería! (EN)

Con el surgimiento de la ingeniería analítica dentro del mundo de los datos, los ingenieros de software, incluyéndome, han recibido este nuevo rol con mucho escepticismo y escrutinio. Sin embargo, después de asumir el puesto de ingeniera sénior de análisis en AssemblyAI en 2023, ahora creo firmemente que la ingeniería es posible, si no beneficiosa, dentro del análisis. Mi charla discutirá cómo tratar la analítica como una forma de ingeniería al permitir un cambio hacia marcos rigurosos, procesos estandarizados e infraestructuras sólidas, fomentando no solo la toma de decisiones perspicaces basadas en datos sino también la creación de sistemas analíticos escalables y confiables. Al establecer paralelismos entre estas disciplinas, mi objetivo es mostrar el valor de aplicar principios de ingeniería a la analítica.

Camila Achury

This is how we created a graph recommendation engine (ES)

Thanks to the great flexibility of data visualization tools, newcomers to this field face many challenges in familiarizing themselves with the different functionalities necessary to create various types of charts. Often, users simply want to create a simple bar or line chart, and in those cases, it can be cumbersome to think about X and Y axes, how layers work, and they can spend a lot of time making simple customizations. Other approaches provide great interfaces for programmers when they already know what type of chart they want to use, meaning users still need to think about which type of chart works best. We created a data visualization recommendation engine where users don't need to think about those details; our system automatically recommends the most appropriate visualization type given the data's qualities, our system selects and rearranges variables in a way that works magically for different types of charts, and allows customizing charts with advanced themes, either with online options or with suitable configuration lists for programming. In this talk, we want to discuss the challenges of building this recommendation engine and showcase our learnings and design decisions we made to create a system that works with unknown data input types. While building our engine, we faced many challenges, such as working with multiple locales and languages (like Spanish or Portuguese) and many formats (like currencies or custom date formats), leading to the development of several complementary solutions to enhance our system over the years. We want to communicate the process to inspire and enable participants to learn from our mistakes.

Así creamos un motor de recomendación de gráficos (ES)

Gracias a la gran flexibilidad de las herramientas de visualización de datos, los recién llegados a este campo se enfrentan a muchos desafíos para familiarizarse con las diferentes funcionalidades necesarias para crear distintos tipos de gráficos. A menudo, los usuarios simplemente desean crear un gráfico de barras o de líneas simple, y en esos casos puede resultar engorroso pensar en ejes X y Y, cómo funcionan las capas y pueden pasar mucho tiempo realizando personalizaciones simples. Otros enfoques proporcionan grandes interfaces para programadores cuando ya saben qué tipo de gráfico quieren usar, es decir, los usuarios todavía necesitan pensar en qué tipo de gráfico funciona mejor. Creamos un motor de recomendación de visualización de datos donde los usuarios no necesitan pensar en esos detalles; nuestro sistema recomienda automáticamente el tipo de visualización más apropiado dadas las cualidades de los datos, nuestro sistema selecciona y reordena las variables de una manera que funciona mágicamente para diferentes tipos de gráficos y permite personalizar los gráficos con temas avanzados, ya sea con opciones en línea o con listas de configuración adecuadas para la programación. En esta charla, queremos hablar sobre los desafíos de construir este motor de recomendación y mostrar nuestros aprendizajes y las decisiones de diseño que tomamos para hacer un sistema que funcione con tipos de entrada de datos desconocidos. Al construir nuestro motor, nos enfrentamos a muchos desafíos, como trabajar con múltiples localizaciones y lenguajes (como español o portugués) y muchos formatos (como monedas o formatos de fecha personalizados), lo que llevó al desarrollo de varias soluciones complementarias para mejorar nuestro sistema a lo largo de los años. Queremos comunicar el proceso para inspirar y permitir a los participantes aprender de nuestros errores.

Cathy Richards

Empowering Climate Justice through GIS: Navigating the Digital Rights and Environmental Advocacy Terrains (EN)

In this talk, I will explore the transformative potential of Geographic Information Systems (GIS) in the realm of climate justice and digital rights. I will present findings from my fellowship research, which investigates the utility of GIS in promoting environmental justice and digital rights. This presentation will delve into how GIS technologies have evolved from specialized tools to more consumer-accessible applications, thanks to advancements in drone, remote sensing, and earth observation technologies. I will highlight case studies where GIS has been effectively used by community organizations to track environmental changes, monitor resources, and document land claims. The focus will be on showcasing how GIS empowers communities in their fight for climate justice, while also addressing the challenges and responsibilities that come with the democratization of such powerful tools.

Empoderar la justicia climática a través de SIG: navegando por los terrenos de los derechos digitales y la defensa del medio ambiente (EN)

En esta charla, exploraré el potencial transformador de los Sistemas de Información Geográfica (SIG) en el ámbito de la justicia climática y los derechos digitales. Presentaré los resultados de mi investigación de beca, que investiga la utilidad de los SIG en la promoción de la justicia ambiental y los derechos digitales. Esta presentación profundizará en cómo las tecnologías SIG han evolucionado desde herramientas especializadas hasta aplicaciones más accesibles para el consumidor, gracias a los avances en las tecnologías de drones, teledetección y observación de la Tierra. Destacaré estudios de casos en los que organizaciones comunitarias han utilizado eficazmente los SIG para rastrear cambios ambientales, monitorear recursos y documentar reclamos de tierras. La atención se centrará en mostrar cómo los SIG empoderan a las comunidades en su lucha por la justicia climática, al mismo tiempo que abordan los desafíos y responsabilidades que conlleva la democratización de herramientas tan poderosas.

Céline Jacquin and Mariana Marín

Humanitarian Mapping in Action: Rebuilding Acapulco after Hurricane Otis (ES)

Responding to the impact of disasters around the world, HOT has been supporting field organizations and governments for 14 years for their adequate response in the territory. Last November, Hurricane Otis devastated part of Acapulco, Mexico, activating the OpenStreetMap Latin America and Caribbean Hub in collaboration with CENAPRED, Civil Protection and a group of organizations to lead a humanitarian mapping initiative in the area most affected. The talk will highlight the rapid action of volunteers using OpenStreetMap in real time to map critical areas and facilities, providing crucial data for disaster management and reconstruction in the months that follow. We will explore the impact of open source tools supported by OSM, highlighting that this initiative goes beyond mapping by weaving stories of solidarity into post-disaster reconstruction. Additionally, we will explore how community collaboration in creating free and open maps not only transforms humanitarian response, but also contributes to sustainable development.

Mapeo Humanitario en Acción: Reconstruyendo Acapulco después del Huracán Otis (ES)

Respondiendo al impacto de desastres en todo el mundo, HOT da apoyo a organizaciones de campo y gobiernos desde hace 14 años para su adecuada respuesta en territorio. En noviembre pasado, el huracán Otis devastó parte de Acapulco, México, activando el Hub de Latinoamérica y el Caribe de OpenStreetMap en colaboración con el CENAPRED, Protección Civil y un grupo de organizaciones para liderar una iniciativa de mapeo humanitario en la zona de mayor afectación. La charla destacará la rápida acción de las personas voluntarias utilizando OpenStreetMap en tiempo real para cartografiar áreas y equipamientos críticos, proporcionando datos cruciales para la gestión de desastres y la reconstrucción en los meses posteriores. Exploraremos el impacto de las herramientas de código abierto respaldadas por OSM, subrayando que esta iniciativa va más allá de la cartografía al tejer historias de solidaridad en la reconstrucción post-desastre. Además, analizaremos cómo la colaboración comunitaria en la creación de mapas libres y abiertos no solo transforma la respuesta humanitaria, sino que también contribuye al desarrollo sostenible.

David Daza

Data Architectures in the Cloud for Strengthening Democracy

We will work at the intersection between technology and democracy. We will explore how modern data architectures in the cloud are transforming the way democratic institutions operate, interact, and serve citizens, while showing the challenges and learnings of building data platforms in countries like Uganda, Colombia and Kosovo. We will touch on key aspects like. Foundations of Cloud Architectures: Capabilities and advantages of open data solutions. Democratic Impact: Real cases where these architectures have empowered democratic processes, from elections to citizen participation and procurement oversight. Challenges and Solutions: Discussion about the challenges democracies face when adopting these technologies and how to overcome them. Future Vision: Reflections on how the evolution of these technologies can shape the future of our democracies. A journey through innovative implementations that not only optimize processes but also reinforce the democratic fabric of our societies. This session is essential for those interested in the intersection between technology and governance. This session stands out for its innovative approach to the intersection between technology and information architecture in relation to democracy, specifically from the perspective of open government and the use of open data. We will present fresh experiences and hope to center the discussion, emphasizing the inclusion and relevance of minority communities in the dialogue about representation through information.

Arquitecturas de Datos en la Nube para Fortalecer la Democracia.

Trabajaremos en la intersección entre la tecnología y la democracia. Exploraremos cómo las modernas arquitecturas de datos en la nube están transformando la forma en que operan, interactúan y sirven a los ciudadanos las instituciones democráticas, mientras mostramos los desafíos y aprendizajes de construir plataformas de datos en países como Uganda, Colombia y Kosovo. Abordaremos aspectos clave como: - Fundamentos de las Arquitecturas en la Nube: Capacidades y ventajas de las soluciones de datos abiertos. - Impacto Democrático: Casos reales donde estas arquitecturas han empoderado procesos democráticos, desde elecciones hasta participación ciudadana y supervisión de la contratación. - Desafíos y Soluciones: Debate sobre los desafíos que enfrentan las democracias al adoptar estas tecnologías y cómo superarlos. - Visión Futura: Reflexiones sobre cómo la evolución de estas tecnologías puede dar forma al futuro de nuestras democracias. Un recorrido por implementaciones innovadoras que no solo optimizan procesos, sino que también refuerzan el tejido democrático de nuestras sociedades. Esta sesión es esencial para aquellos interesados en la intersección entre la tecnología y la gobernanza. Destaca por su enfoque innovador en la intersección entre la tecnología y la arquitectura de la información en relación con la democracia, específicamente desde la perspectiva de gobierno abierto y el uso de datos abiertos. Presentaremos experiencias frescas y esperamos centrar la discusión, enfatizando la inclusión y relevancia de las comunidades minoritarias en el diálogo sobre representación a través de la información.

Fernanda Aguirre Ruiz

What is the csv,conf about? Applying NLP to decipher the agenda of this mysterious data conference (ES)

In this session we will apply Natural Language Processing (NLP) techniques to understand what is usually discussed in this conference, with the goal that this analysis serves as an introduction to data analysis in text form. So this session function as a practical workshop, these techniques will be applied to a database extracted from the event website with information on all sessions presented in the history of the CSV Conference. Through tasks such as extracting named entity recognition (NER), topic modeling, tokenization, among others, we will answer questions such as: What have been the most common topics of the sessions? From what perspectives are the topics addressed? data? What geographic regions have the talks covered? How diverse was the selection of speakers? o What sessions have been most similar to each other? In summary, we will examine a general overview of the possibilities of text analysis, with the aim of serving as a guide to be applied to other projects. As part of the materials, the Jupyter notebooks used for this analysis will be shared, hence this session is suitable for both beginners and attendees with knowledge of Python. Finally, another purpose is to share alternatives to analyze data that are in languages other than English.

¿De qué trata la csv,conf? Aplicando NLP para descifrar la agenda de esta misteriosa conferencia de datos (ES)

En esta sesión aplicaremos técnicas de Procesamiento del Lenguaje Natural (NLP en inglés) para comprender qué suele abordarse en esta conferencia, con el objetivo de que este análisis sirva como introducción al análisis de datos en forma de texto. A modo de que esta sesión funcione como un taller práctico, estas técnicas se aplicarán a una base de datos extraídos del sitio web del evento con información sobre todas las sesiones presentadas en la historia de la CSV Conference. Por medio de tareas como extraer reconocimiento de entidades nombradas (NER en inglés), modelado de tópicos, tokenización, entre otras, responderemos a preguntas como: ¿Cuáles han sido los temas más comunes de las sesiones?, ¿Desde qué perspectivas se abordan los datos?, ¿Qué regiones geográficas han cubierto las charlas?, ¿Qué tan diversa ha sido la selección de speakers? o ¿Cuáles han sido las sesiones más similares entre sí? En resumen, examinaremos un panorama general sobre las posibilidades del análisis de texto, con la finalidad de que sirva como guía para aplicarse a otros proyectos. Como parte de los materiales, se compartirán los cuadernos de Jupyter utilizados para este análisis, de ahí que esta sesión sea apta tanto para principiantes como para asistentes con conocimientos de Python. Por último, otro de los propósitos es compartir alternativas para analizar datos que se encuentran en otras lenguas que no es el inglés.

Grant R. Vousden-Dishington

Connecting with Graph Neural Networks: From 0 to more than 0 (EN)

Most presentations about fashionable new techniques in Machine Learning, like Graph Neural Networks (GNNs) are given by industry specialists or experts who work intensively with the technologies they're presenting. This is not that talk. This is an introduction to GNNs from an experienced data scientist who, until shortly before this conference, has never used GNNs for projects. This presentation will show you how to get into using graph methods and thinking about the problems they're useful for, from the perspective of someone else who has only recently begun using these methods, focusing on the learning experience and early mistakes that can come with applying them to traditional problem types. Attendees can expect to come away knowing that they can also use these techniques for their (appropriate) problems and know where to begin.

Conexión con redes neuronales gráficas: de 0 a más de 0 (EN)

La mayoría de las presentaciones sobre nuevas técnicas de moda en aprendizaje automático, como Graph Neural Networks (GNN), están a cargo de especialistas o expertos de la industria que trabajan intensamente con las tecnologías que presentan. Esta no es esa charla. Esta es una introducción a las GNN por parte de un científico de datos experimentado que, hasta poco antes de esta conferencia, nunca había utilizado GNN para proyectos. Esta presentación mostrará cómo empezar a utilizar métodos gráficos y a pensar en los problemas para los que son útiles, desde la perspectiva de otra persona que acaba de empezar a utilizar estos métodos, centrándose en la experiencia de aprendizaje y los primeros errores que pueden surgir. aplicándolos a tipos de problemas tradicionales. Los asistentes pueden esperar salir sabiendo que también pueden utilizar estas técnicas para sus problemas (cuando sea apropiado) y saber por dónde empezar.

Greg Chism

Harnessing Personal Narratives in Project-Based Learning for Data Science Education (EN)

As humans, we have told stories for over 4000 years, they are practically built into our cultural DNA. In this talk, I describe utilizing narratives and project-based learning towards teaching data science to a diverse audience, enhancing their connection to the material and fostering inclusivity. This talk outlines the principles of project-based learning in the context of data science - an active learning strategy that emphasizes practical skill development. It delves into how personal experiences can be transformed into data science projects, offering benefits such as increased engagement and representation in the classroom. The presentation will feature examples demonstrating this method's success, discuss challenges educators might face, and provide strategies to support students from varied backgrounds. Conclusively, this talk underscores the importance of combining individual stories with project-based learning in data science education, aiming to create a more inclusive and effective learning environment that prepares students to apply data science with an awareness of diverse perspectives.

Aprovechamiento de narrativas personales en el aprendizaje basado en proyectos para la educación en ciencia de datos (EN)

Como seres humanos, hemos contado historias durante más de 4000 años y prácticamente están integradas en nuestro ADN cultural. En esta charla, describo la utilización de narrativas y aprendizaje basado en proyectos para enseñar ciencia de datos a una audiencia diversa, mejorando su conexión con el material y fomentando la inclusión. Esta charla describe los principios del aprendizaje basado en proyectos en el contexto de la ciencia de datos: una estrategia de aprendizaje activo que enfatiza el desarrollo de habilidades prácticas. Profundiza en cómo las experiencias personales pueden transformarse en proyectos de ciencia de datos, ofreciendo beneficios como una mayor participación y representación en el aula. La presentación incluirá ejemplos que demuestran el éxito de este método, discutirá los desafíos que los educadores podrían enfrentar y proporcionará estrategias para apoyar a estudiantes de diversos orígenes. En conclusión, esta charla subraya la importancia de combinar historias individuales con el aprendizaje basado en proyectos en la educación en ciencia de datos, con el objetivo de crear un entorno de aprendizaje más inclusivo y eficaz que prepare a los estudiantes para aplicar la ciencia de datos con conocimiento de diversas perspectivas.

Guillermo de Anda-Jáuregui

Health and Data: opportunities and future challenges (EN)

From the molecular scale up to large populations, large data provides novel opportunities for interventions leading to better health.Technological advances in biomedical sciences have made the analysis of large scale data a more pressing need for precision medicine. Furthermore, other sources of big data, from geospatial imaging to mobility data can lead to new insights into the origin and spread of diseases. In this talk, we will address these opportunities and challenges using some use cases as applied to the mexican context.

Salud y Datos: oportunidades y desafíos de futuro (EN

Desde la escala molecular hasta grandes poblaciones, los datos masivos brindan nuevas oportunidades para intervenciones que conduzcan a una mejor salud. Los avances tecnológicos en las ciencias biomédicas han hecho que el análisis de datos a gran escala sea una necesidad más apremiante para la medicina de precisión. Además, otras fuentes de big data, desde imágenes geoespaciales hasta datos de movilidad, pueden generar nuevos conocimientos sobre el origen y la propagación de enfermedades. En esta charla, abordaremos estas oportunidades y desafíos utilizando algunos casos de uso aplicados al contexto mexicano.

Haben Tekeste Yohannes

Data Alchemy: Turning Insights into Impact (EN)

In this presentation, we'll embark on a fascinating journey into the realm of data alchemy, where raw information transforms into actionable insights that drive real-world impact. Drawing inspiration from the collaborative spirit of csv,conf, we'll explore the process of turning data into gold, examining the crucial steps involved in extracting, refining, and applying insights. Through engaging anecdotes and practical examples, we'll showcase instances where seemingly mundane datasets have been transformed into powerful tools for decision-making, problem-solving, and societal change. From the magic of data visualization to the art of storytelling through statistics, this talk will unravel the secrets of successful data alchemy. Whether you're a seasoned data professional or a curious enthusiast, join me in unraveling the enchantment of transforming data into a force for positive transformation. Together, let's demystify the alchemy of data and empower ourselves to make a lasting impact in the data-driven world.

Alquimia de datos: convertir los conocimientos en impacto (EN)

En esta presentación, nos embarcaremos en un viaje fascinante hacia el ámbito de la alquimia de datos, donde la información sin procesar se transforma en conocimientos prácticos que generan impacto en el mundo real. Inspirándonos en el espíritu colaborativo de csv,conf, exploraremos el proceso de convertir datos en oro, examinando los pasos cruciales involucrados en la extracción, refinamiento y aplicación de conocimientos. A través de interesantes anécdotas y ejemplos prácticos, mostraremos casos en los que conjuntos de datos aparentemente mundanos se han transformado en poderosas herramientas para la toma de decisiones, la resolución de problemas y el cambio social. Desde la magia de la visualización de datos hasta el arte de contar historias a través de las estadísticas, esta charla desentrañará los secretos de una alquimia de datos exitosa. Ya sea que sea un profesional de datos experimentado o un entusiasta curioso, únase a mí para descubrir el encanto de transformar los datos en una fuerza para la transformación positiva. Juntos, desmitifiquemos la alquimia de los datos y empoderémonos para lograr un impacto duradero en el mundo impulsado por los datos.

Hazal Ciplak

Power of Data Mapping with DocMaps (EN)

In my speech, I will introduce you to DocMaps, a very useful framework to create and work with documents in a machine-readable way. We will explore the DocMaps standards, and I will show you how we apply them at eLife to generate Reviewed Preprints using our Enhanced Preprint Platform. Specifically, I will explain how valuable DocMaps has been during the switch to eLife’s new automated publishing system. By the end, you will have a clear understanding of how DocMaps can benefit your own projects too.

El poder del mapeo de datos con DocMaps (EN)

En mi discurso, les presentaré DocMaps, un marco muy útil para crear y trabajar con documentos de forma legible por máquina. Exploraremos los estándares de DocMaps y le mostraré cómo los aplicamos en eLife para generar preimpresiones revisadas utilizando nuestra plataforma de preimpresión mejorada. Específicamente, explicaré cuán valioso ha sido DocMaps durante el cambio al nuevo sistema de publicación automatizado de eLife. Al final, comprenderá claramente cómo DocMaps también puede beneficiar sus propios proyectos.

Ivonne Lujano

Data, journals and data journals: routes towards strengthening trust in science and research (EN)

In this talk, I will address some trends in the publication of data journals from the perspective of the Directory of Open Access Journals (DOAJ). Data journals are publications primarily dedicated to selecting, reviewing, and disseminating articles and reports that describe research data sets. Given data's relevance in reproducibility and research transparency, these journals can contribute to promoting trust in science and the culture of sharing data in a structured way for its appropriate reuse. Data journals generally follow editorial procedures similar to other peer-reviewed publications. However, their contribution selection policies and their interconnection with data repositories imply specific challenges regarding open infrastructures' operation, maintenance, and coordination. In this talk, I will present examples of data journals from different disciplines included in the DOAJ. I will also discuss how inclusion in DOAJ provides visibility to journals not indexed elsewhere, increasing the reuse and potential impact of datasets, which ultimately helps build trust in open access publications globally.

Datos, revistas y revistas de datos: rutas hacia el fortalecimiento de la confianza en la ciencia y la investigación (EN)

En esta charla abordaré algunas tendencias en la publicación de revistas de datos desde la perspectiva del Directorio de Revistas de Acceso Abierto (DOAJ). Las revistas de datos son publicaciones dedicadas principalmente a seleccionar, revisar y difundir artículos e informes que describen conjuntos de datos de investigación. Dada la relevancia de los datos en la reproducibilidad y la transparencia de la investigación, estas revistas pueden contribuir a promover la confianza en la ciencia y la cultura de compartir datos de forma estructurada para su adecuada reutilización. Las revistas de datos generalmente siguen procedimientos editoriales similares a otras publicaciones revisadas por pares. Sin embargo, sus políticas de selección de contribuciones y su interconexión con repositorios de datos implican desafíos específicos en cuanto a la operación, mantenimiento y coordinación de las infraestructuras abiertas. En esta charla presentaré ejemplos de revistas de datos de diferentes disciplinas incluidas en el DOAJ. También discutiré cómo la inclusión en DOAJ brinda visibilidad a revistas que no están indexadas en otros lugares, aumentando la reutilización y el impacto potencial de los conjuntos de datos, lo que en última instancia ayuda a generar confianza en las publicaciones de acceso abierto a nivel mundial.

Jacopo Ottaviani

Crafting Winning Grant Applications for Data Journalism Adventures

How to win data journalism grants to fund your open data and storytelling projects? I'll delve into the intersection of open data and storytelling in the realm of data journalism funding. In this session, we'll explore the art of grant writing with a particular emphasis on leveraging open data to tell data journalistic stories. Understand the evolving landscape of journalism funding with a focus on open data initiatives. I'll explore examples of successful projects funded by organisations such as EJC, ICFJ, Pulitzer Center on Crisis Reporting, and JournalismFund, highlighting the role of open data in their narratives. I worked on multiple grant-winning projects such as MapMakoko in Nigeria and Migrants Files in Europe. I'll identify and share the essential ingredients for managing successful journalism projects, with a spotlight on the integration of open data. If time permits, this can be turned into an hands-on workshop with people simulating their grant applications under my supervision.

Creando Solicitudes de Subvenciones Ganadoras para Aventuras de Periodismo de Datos

¿Cómo ganar subvenciones de periodismo de datos para financiar tus proyectos de datos abiertos y narrativa? Profundizaré en la intersección de los datos abiertos y la narrativa en el ámbito de la financiación del periodismo de datos. En esta sesión, exploraremos el arte de escribir propuestas de subvención con un énfasis particular en aprovechar los datos abiertos para contar historias periodísticas basadas en datos. Comprenderemos el panorama en evolución de la financiación del periodismo, con un enfoque en las iniciativas de datos abiertos. Exploraré ejemplos de proyectos exitosos financiados por organizaciones como EJC, ICFJ, Pulitzer Center on Crisis Reporting y JournalismFund, destacando el papel de los datos abiertos en sus narrativas. Trabajé en múltiples proyectos ganadores de subvenciones, como MapMakoko en Nigeria y Migrants Files en Europa. Identificaré y compartiré los ingredientes esenciales para gestionar proyectos periodísticos exitosos, con un énfasis en la integración de datos abiertos. Si el tiempo lo permite, esto se puede convertir en un taller práctico donde las personas simulan sus solicitudes de subvención bajo mi supervisión.

Joel Natividad

qsv: A Blazing-Fast CSV Data-Wrangling Toolkit (EN)

qsv is a blazing-fast, multi-platform, command-line, data-wrangling toolkit designed to solve the majority of day-to-day data-wrangling use cases in seconds without having to resort to programming or specialized tools. In this talk, we demonstrate qsv and how we've used it not only to wrangle data, but to facilitate extended use case of metadata inferencing to aid Data Publishers publish high quality open data.

qsv: un kit de herramientas ultra-rápido para la gestión de datos CSV (EN)

qsv es un conjunto de herramientas de gestión de datos ultrarrápido, multiplataforma, de línea de comandos, diseñado para resolver la mayoría de los casos de uso de gestión de datos del día a día en segundos sin tener que recurrir a programación o herramientas especializadas. En esta charla, demostramos qsv y cómo lo hemos usado no solo para discutir datos, sino también para facilitar un caso de uso extendido de inferencia de metadatos para ayudar a los editores de datos a publicar datos abiertos de alta calidad.

John Aitokhuehi

Empowering Investigative Journalists as Front-Line Data Collection Experts (EN)

I will provide guidance and insights into how I led both the Frontline Investigative Program and the Frontline Data Collection Program for the African Data Hub. This involves detailing the methodologies and practical approaches utilized to empower a team of 18 journalists and 24 individuals in gathering primary data from Primary Healthcare centers across Nigeria's six geo-political zones. Our methodology centered on leveraging free open source tools like the Kobo toolkit, a pivotal resource enabling efficient data collection. Notably, this toolkit facilitated data collection in even the most remote areas of the country by integrating GPS technology, ensuring comprehensive coverage, prevents post data collection loss and accuracy in our data acquisition process.

Empoderando Periodistas de Investigación como Expertos de Primera Línea en la Recopilación de Datos(EN)

Proporcionaré orientación e información sobre cómo dirigí tanto el Programa de investigación de primera línea como el Programa de recopilación de datos de primera línea para African Data Hub. Esto implica detallar las metodologías y enfoques prácticos utilizados para capacitar a un equipo de 18 periodistas y 24 individuos en la recopilación de datos primarios de los centros de atención primaria de salud en las seis zonas geopolíticas de Nigeria. Nuestra metodología se centró en aprovechar herramientas gratuitas de código abierto como el kit de herramientas Kobo, un recurso fundamental que permite una recopilación de datos eficiente. En particular, este conjunto de herramientas facilitó la recopilación de datos incluso en las áreas más remotas del país mediante la integración de la tecnología GPS, lo que garantiza una cobertura integral, evita la pérdida posterior a la recopilación de datos y la precisión en nuestro proceso de adquisición de datos.

Jose Abel Lovaco-Flores

The Carpentries México: Access, management and analysis of genomic data for beginners (ES)

Metagenomic analyses aim to explore the genomic diversity of communities in specific habitats by processing their DNA sequencing data. This analysis is achieved with specialized bioinformatics tools that often require prior programming experience. Additionally, beginners may have difficulties in building pipelines that range from analysing raw data to obtaining biological insights. “The Carpentries” community offers open lessons that are used around the world to analyse specialized data sets for people with no experience in the field, including a lesson for people working with genomic sequencing data. However, a lesson was missing that will address the specific challenges associated with metagenomics data and analysis. A metagenomics lesson has been created for “The Carpentries Incubator”, adapting and expanding on a Data Carpentry lesson. This lesson provides an introduction to programming, also guiding students in acquiring and manipulating metagenomic data, as well as executing commands with different software to carry out successful metagenomic analyses. It is important to note that this lesson was created by the Mexican community belonging to “The Carpentries”. This community is made up of bachelors, masters and doctoral students, as well as consolidated researchers in the area. To develop these specialized genomics courses, we held hackathons focused on creating lessons such as metagenomics and, more recently, pangenomics. In this talk we will cover the creation, improvement and perspectives of the content of this lesson, as well as its usefulness as a teaching resource for new instructors in the field and how it helps trainees who want to start metagenomic analyses from scratch.

The Carpentries México: Acceso, manejo y análisis de datos genómicos para principiantes (ES)

Los análisis metagenómicos tienen como objetivo explorar la diversidad genómica de comunidades en hábitats específicos mediante el procesamiento de sus datos de secuenciación de ADN. Este análisis se logra con herramientas bioinformáticas especializadas que muchas veces requieren experiencia previa en programación. Además, los principiantes pueden tener dificultades para construir pipelines que sirvan desde analizar datos sin procesar hasta la obtención de conocimientos biológicos. La comunidad “The Carpentries” ofrece lecciones abiertas que se utilizan en todo el mundo para analizar conjuntos de datos especializados para personas con nula experiencia en el campo, incluida una lección para personas que trabajan con datos de secuenciación genómica. Sin embargo, faltaba una lección que abordará los desafíos específicos asociados con los datos y análisis de metagenómica. Se ha creado una lección de metagenómica para “The Carpentries Incubator”, adaptando y ampliando una lección de Data Carpentry. Esta lección proporciona una introducción a la programación, también guía a los estudiantes en la adquisición y manipulación de datos metagenómicos, así como en la ejecución de comandos con diferentes software para llevar a cabo análisis metagenómicos con éxito. Es importante destacar que esta lección fue creada por parte de la comunidad mexicana perteneciente a “The Carpentries”. Dicha comunidad está compuesta por estudiantes de licenciatura, maestría y doctorado, así como por investigadores consolidados en el área. Para desarrollar estos cursos especializados en genómica, llevamos a cabo hackatones enfocados en la creación de lecciones como la de metagenómica y, más recientemente, la de pangenómica. En esta charla abordaremos la creación, mejora y perspectivas del contenido de esta lección, así como su utilidad como recurso didáctico para nuevos instructores en el campo y cómo ayuda a los aprendices que deseen iniciarse en los análisis metagenómicos desde cero.

Juan Pablo Marin Diaz and Paula Sabrina Luvini

Community driven data interoperability: the case of a local government, a research institution and a small media organization (EN)

This talk explores the transformative power of open data in fostering public participation and informed decision-making. We delve into three compelling use cases: Mexico City's innovative open data portal, a Colombian research institute's collaborative biodiversity data project, and a Spanish newsroom's integrative approach to data-driven journalism. Each case highlights the challenges and breakthroughs in constructing platforms that democratize information via visual uses of the data. In Mexico City, citizens can upload personal data to the city's portal, intersecting it with official datasets, enhancing transparency and community engagement. Colombia's case showcases a network collaborators weaving indigenous wisdom with scientific research to map biodiversity, emphasizing the value of diverse knowledge systems. The Spanish newsroom scenario illustrates how consolidating varied data sources creates impactful, verifiable reporting on critical issues. These examples underscore the complexities of building accessible, user-friendly platforms while maintaining data integrity and security. Key learnings include navigating technical, cultural, and ethical considerations to create tools that not only present data but also actively engage communities in meaningful public discourse. This session aims to provide insights into leveraging open data as a catalyst for civic action and societal change.

Interoperabilidad de datos impulsada por la comunidad: el caso de un gobierno local, una institución de investigación y una pequeña organización de medios (EN)

Esta charla explora el poder transformador de los datos abiertos para fomentar la participación pública y la toma de decisiones informada. Profundizamos en tres casos de uso convincentes: el innovador portal de datos abiertos de la Ciudad de México, el proyecto colaborativo de datos sobre biodiversidad de un instituto de investigación colombiano y el enfoque integrador del periodismo basado en datos de una redacción española. Cada caso destaca los desafíos y avances en la construcción de plataformas que democratizan la información a través de usos visuales de los datos. En la Ciudad de México, los ciudadanos pueden cargar datos personales en el portal de la ciudad, cruzándolos con conjuntos de datos oficiales, mejorando la transparencia y la participación comunitaria. El caso de Colombia muestra una red de colaboradores que entrelazan la sabiduría indígena con la investigación científica para mapear la biodiversidad, enfatizando el valor de los diversos sistemas de conocimiento. El escenario de la redacción española ilustra cómo la consolidación de diversas fuentes de datos crea informes impactantes y verificables sobre temas críticos. Estos ejemplos subrayan las complejidades de crear plataformas accesibles y fáciles de usar manteniendo al mismo tiempo la integridad y seguridad de los datos. Los aprendizajes clave incluyen navegar por consideraciones técnicas, culturales y éticas para crear herramientas que no solo presenten datos sino que también involucren activamente a las comunidades en un discurso público significativo. Esta sesión tiene como objetivo proporcionar información sobre cómo aprovechar los datos abiertos como catalizador para la acción cívica y el cambio social.

Juan Pablo Ruiz Nicolini and Paula Luvini

Data and State, related issues (ES)

In public administration, obtaining accurate data is essential for effective decision-making and policy design. However, the available data are often imperfect. A "Smart State" approach, as we define it at Fundar, recognizes the value of data, its organization, classification, the incorporation of alternative sources of information and the promotion of interoperability, which together contribute to improving the quality of data and public policies. This presentation seeks to illustrate this based on a selection of cases and applications of State organizations in Argentina. A work from the Data area of www.fund.ar

Datos y Estado, asuntos vinculados (ES)

En la administración pública, la obtención de datos precisos es fundamental para la toma de decisiones y el diseño de políticas eficaces. Sin embargo, los datos disponibles a menudo son imperfectos. Un enfoque de "Estado inteligente", tal como lo definimos en Fundar, reconoce el valor de los datos, su organización, clasificación, la incorporación de fuentes alternativas de información y la promoción de la interoperabilidad, que en conjunto contribuyen a mejorar la calidad de los datos y de las políticas públicas. Esta presentación busca ilustrarlo a partir de una selección de casos y aplicaciones de organizaciones del Estado en Argentina. Un trabajo del área de Datos de www.fund.ar

Julio Zetter Patiño

Dataverse SciELO México: open data repository for Mexican science (ES)

The objective of this talk is to promote and consolidate the national open data repository 'Dataverse: SciELO México', which aims to provide a space where researchers can deposit and share their data sets in a structured, standardized, simple and limited way. By adopting open data practices, we seek to improve the reproducibility of studies, encourage collaboration between researchers, and maximize the impact and reach of Mexican research.

Dataverse SciELO México: repositorio de datos abiertos para la ciencia mexicana (ES)

El objetivo de esta charla es promover y consolidar el repositorio nacional de datos abiertos 'Dataverse: SciELO México', el cual tiene objetivo proporcionar un espacio en donde los investigadores puedan depositar y compartir sus conjuntos de datos de manera estructurada, estandarizada, sencilla y acotada. Al adoptar prácticas de datos abiertos, buscamos mejorar la reproducibilidad de los estudios, fomentar la colaboración entre investigadores y maximizar el impacto y alcance de las investigaciones mexicanas.

Kelsey Badger

Introduction to Public Interest Technology (EN)

Public interest technology (PIT) is an umbrella term for anyone that strives to make our technology-driven world more equitable through the design, use, and governance of technology. This is an inherently multidisciplinary task that requires collaboration between stakeholders from a range of fields, sectors, and lived experiences. This session will introduce the field of PIT and will explore its application through an example project of the US-based PIT University Network (PIT-UN). The speakers will present their work developing spreadsheet-based open educational modules for teaching data science to high school students within the context of public health. Additional examples of PIT-UN projects will also be provided to illustrate the breadth of PIT as a field, such as cybersecurity clinics for local governments and nonprofits and university programs engaged in training a new generation of the PIT workforce.

Introducción a la Tecnología de Interés Público (EN)

Tecnología de interés público (TIP) es un término general para cualquiera que se esfuerce por hacer que nuestro mundo impulsado por la tecnología sea más equitativo a través del diseño, uso y gobernanza de la tecnología. Esta es una tarea inherentemente multidisciplinaria que requiere la colaboración entre partes interesadas de una variedad de campos, sectores y experiencias vividas. Esta sesión presentará el campo de TIP y explorará su aplicación a través de un proyecto de ejemplo de la Red Universitaria TIP (TIP-UN), con sede en EE. UU. Los oradores presentarán su trabajo en el desarrollo de módulos educativos abiertos basados en hojas de cálculo para enseñar ciencia de datos a estudiantes de secundaria en el contexto de la salud pública. También se proporcionarán ejemplos adicionales de proyectos TIP-UN para ilustrar la amplitud del TIP como campo, como clínicas de ciberseguridad para gobiernos locales y organizaciones sin fines de lucro y programas universitarios dedicados a capacitar a una nueva generación de fuerza laboral de TIP.

Luis Montilla

Crossref's efforts toward open scholarly metadata (EN)

In an increasingly interconnected world, our capacity to produce data is endlessly growing and this is especially true in the scholarly context. Additionally, an aggregated value arises from interconnecting the variety of scholarly output through its metadata. At Crossref, we provide the infrastructure to materialize this network of elements under the concept of the Research Nexus, a continuous effort from the community and by the community to make research discoverable and interconnected. Here we’ll highlight the recent developments in our data schema and web API and give a sneak peek into coming features that are in progress, all as part of multiple open communication channels with the community. These efforts are being translated into increased discoverability of research coming from all over the world, improved signals of trust and detection of fraudulent activities, and better tracking of the research funding ecosystem.

Los esfuerzos de Crossref hacia los metadatos académicos abiertos (EN)

En un mundo cada vez más interconectado, nuestra capacidad para producir datos crece sin cesar y esto es especialmente cierto en el contexto académico. Además, surge un valor agregado al interconectar la variedad de la producción académica a través de sus metadatos. En Crossref proporcionamos la infraestructura para materializar esta red de elementos bajo el concepto de Research Nexus, un esfuerzo continuo de la comunidad y por parte de la comunidad para hacer que la investigación sea reconocible e interconectada. Aquí destacaremos los desarrollos recientes en nuestro esquema de datos y API web y daremos un adelanto de las próximas funciones que están en progreso, todo como parte de múltiples canales de comunicación abiertos con la comunidad. Estos esfuerzos se están traduciendo en una mayor capacidad de descubrimiento de investigaciones provenientes de todo el mundo, mejores señales de confianza y detección de actividades fraudulentas y un mejor seguimiento del ecosistema de financiación de la investigación.

Malvika Sharan on behalf of The Turing Way community

Fostering Community Collaboration: The Turing Way's Evolution from Handbook to Digital Public Good in Data Science

In 2019, The Turing Way was launched as a guide to reproducibility, providing tools, methods, and practices to address the reproducibility crisis in science. What began as an open-source project providing a handbook for data science, has blossomed into a dynamic, global collaborative community, enriching the perspective of the international research and data science community. Rooted in the ethos of openness, inclusivity, and collaboration, this initiative is propelled by the collective interests, needs, and hopes of researchers for an open, inclusive, collaborative, and ethical approach to data science. With 450+ co-authors shaping its narrative, The Turing Way has unfolded into a multi-guide book featuring 300+ chapters. It offers a comprehensive array of best practices, covering reproducibility, project design, collaboration, communication, ethical research, and community engagement. A testament to its digital infrastructure and engaged community, The Turing Way aligns with the principles of a Digital Public Good (DPG), energizing the global movement to democratize data science—making it transparent, accessible, and beneficial for all. Throughout its endeavors, The Turing Way has remained steadfast in its commitment to embed EDIA (equity, diversity, inclusion, and accessibility) principles. This talk will shed light on The Turing Way's evolution—a transition from a handbook to a community-supported digital public good. Join the conversation and explore our vibrant ecosystem on GitHub: The Turing Way GitHub.

Fomentando la Colaboración Comunitaria: La Evolución de The Turing Way de Manual a Bien Público Digital en Ciencia de Datos

En 2019, The Turing Way fue lanzado como una guía de reproducibilidad, proporcionando herramientas, métodos y prácticas para abordar la crisis de reproducibilidad en la ciencia. Lo que comenzó como un proyecto de código abierto que ofrecía un manual para la ciencia de datos, ha florecido en una comunidad colaborativa global dinámica, enriqueciendo la perspectiva de la comunidad internacional de investigación y ciencia de datos. Arraigada en el ethos de la apertura, la inclusividad y la colaboración, esta iniciativa es impulsada por los intereses colectivos, las necesidades y las esperanzas de los investigadores por un enfoque abierto, inclusivo, colaborativo y ético hacia la ciencia de datos. Con más de 450 coautores dando forma a su narrativa, The Turing Way se ha convertido en un libro de múltiples guías que presenta más de 300 capítulos. Ofrece una amplia gama de mejores prácticas, que abarcan la reproducibilidad, el diseño de proyectos, la colaboración, la comunicación, la investigación ética y la participación comunitaria. Como testimonio de su infraestructura digital y comunidad comprometida, The Turing Way se alinea con los principios de un Bien Público Digital (BPD), energizando el movimiento global para democratizar la ciencia de datos, haciéndola transparente, accesible y beneficiosa para todos. A lo largo de sus esfuerzos, The Turing Way ha mantenido firme su compromiso de incorporar los principios de EDIA (equidad, diversidad, inclusión y accesibilidad). Esta charla arrojará luz sobre la evolución de The Turing Way: una transición de un manual a un bien público digital apoyado por la comunidad. Únete a la conversación y explora nuestro vibrante ecosistema en GitHub: The Turing Way GitHub.

María de los Ángeles Lasa

Development and implementation of the Social Movements Index (ES)

In 2023, the Gender Justice Data Lab from the Global Fund for Women developed a Social Movement Index to detect, prioritize and fund social movements around the world. In the presentation, I will share the development process, its implementation, and what practices changed within the organization.

Desarrollo e implementación del Índice de Movimientos Sociales (ES)

En 2023, el Laboratorio de Datos sobre Justicia de Género de Global Fund for Women desarrolló un Índice de Movimientos Sociales para detectar, priorizar y financiar movimientos sociales alrededor del mundo. En la presentación, compartiré el proceso de desarrollo, su implementación y qué prácticas cambió dentro de la organización.

Mark Hahnel

AI and Academic Data - Niche communities or a global opportunity? (EN)

The availability of shared data and non traditional research outputs has increased dramatically over the last 10 years and is growing at an exponential rate. Generalist repository platforms have matured into well known locations to share data. But what does the use of these open platforms actually look like? Is the shared data being reused and by who? Are outputs shared in a way that is actually useful? The answers to these questions help identify whether new academic knowledge produced by AI can be contributed to globally, or in niche communities alone. This talk will present data from one free generalist platform that explore its global user base and examine what that means for the future.

IA y datos académicos: ¿comunidades de nicho o una oportunidad global? (EN)

La disponibilidad de datos compartidos y resultados de investigación no tradicionales ha aumentado dramáticamente en los últimos 10 años y está creciendo a un ritmo exponencial. Las plataformas de repositorios generalistas han madurado hasta convertirse en ubicaciones bien conocidas para compartir datos. Pero, ¿cómo es realmente el uso de estas plataformas abiertas? ¿Se están reutilizando los datos compartidos y por quién? ¿Se comparten los resultados de una manera que sea realmente útil? Las respuestas a estas preguntas ayudan a identificar si se puede contribuir al nuevo conocimiento académico producido por la IA a nivel mundial o únicamente en comunidades específicas. Esta charla presentará datos de una plataforma generalista gratuita que explora su base de usuarios global y examina lo que eso significa para el futuro.

Marley Kalt

Facilitating Access to Social Media Data: Bridging the Gap between Social Media Data Providers, Researchers, and Users (EN)

Social media play a crucial role in contemporary society, and research using their data advances our understanding of human behavior, social systems, political sentiment, and more. In recent years, privacy and other concerns have caused social media data to become increasingly restricted and costly to access. The Social Media Archive at ICPSR (SOMAR) is dedicated to improving access to social media data and research through building partnerships with social media platforms. This presentation will spotlight our integration of the Meta Content Library API into SOMAR’s virtual data enclave, as a case study for using new technologies to increase the usability and interoperability of social media research data.

Facilitar el acceso a los datos de las redes sociales: cerrar la brecha entre los proveedores de datos de las redes sociales, los investigadores y los usuarios (EN)

Las redes sociales desempeñan un papel crucial en la sociedad contemporánea, y la investigación que utiliza sus datos mejora nuestra comprensión del comportamiento humano, los sistemas sociales, el sentimiento político y más. En los últimos años, la privacidad y otras preocupaciones han hecho que el acceso a los datos de las redes sociales sea cada vez más restringido y costoso. El Archivo de Redes Sociales del ICPSR (SOMAR) se dedica a mejorar el acceso a los datos y la investigación de las redes sociales mediante la creación de asociaciones con plataformas de redes sociales. Esta presentación destacará nuestra integración de la API de la biblioteca de metacontenido en el enclave de datos virtuales de SOMAR, como un estudio de caso para el uso de nuevas tecnologías para aumentar la usabilidad y la interoperabilidad de los datos de investigación de las redes sociales.

Michael Diedrick

No single-file data dump that's platform agnostic? Many problems! (EN)

I couldn't find a standard to export a hierarchical relational database into a single file (or file system) that preserved relationships and hierarchies but also didn't force IDs or other ephemeral data, so I did the worst thing possible: I created my own standard. Here's how one bad decision led to a series of bad decisions, but also led to a single-file, platform-agnostic, relationship- and hierarchy-preserving data dump. (Also, let's find a better system!)

¿No hay ningún volcado de datos de un solo archivo que sea independiente de la plataforma? ¡Muchos problemas! (EN)

No pude encontrar un estándar para exportar una base de datos relacional jerárquica a un solo archivo (o sistema de archivos) que preservara las relaciones y jerarquías pero que además no forzara las identificaciones u otros datos efímeros, así que hice lo peor posible: creé mi propio estándar. Así es como una mala decisión condujo a una serie de malas decisiones, pero también condujo a un volcado de datos de un solo archivo, independiente de la plataforma y que preserva las relaciones y la jerarquía. (¡Además, busquemos un sistema mejor!)

Michelli Pereira da Costa

The Opening of Research Data and the International Division of Scientific Labor (ES)

Contextualize the proposals of the international movement to promote open science, particularly the opening of research data. Problemize the inequalities of access and recognition within scientific structures and the contradictory dynamics evident in the relationships between the centers and peripheries of science. Present the results of research analyzing the international division of scientific labor into operational and theoretical activities, and how these divisions reinforce colonization in scientific discourse.

La apertura de los datos de investigación y la división internacional del trabajo científico (ES)

Contextualiza las propuestas del movimiento internacional para promover la ciencia abierta, en particular, la apertura de datos de investigación. Problematiza las desigualdades de acceso y reconocimiento a las estructuras científicas y las dinámicas de contradicción evidenciadas en las relaciones entre los centros y periferias de la ciencia. Presenta los resultados de una investigación que analiza la división internacional del trabajo científico en actividades operativas y teóricas y cómo dichas divisiones refuerzan la colonización en las discusiones científicas.

Miguel Alor

Datasketch+CKAN: communicating open data in a simple and friendly way (ES)

There are many champions of open government and transparency who have complied with publishing open data on portals, but who feel frustrated or dissatisfied because they have not achieved a greater impact on citizens since they do not understand how to use open data, ultimately creating a greater digital divide, limiting the ability of citizens to access and benefit from information. Our solution is the combination of two technologies based on free software: CKAN and Datasketch. CKAN is a free software data management system that allows the publication, exchange and search of data, widely used globally by governments such as Australia, Canada and the United States. Datasketch is a software that allows the visualization of data in an attractive design for citizens, customization according to the graphic line of each government and the export of data in multiple formats. Through innovative methodologies such as design thinking, we seek to understand the needs and pains of users of open data platforms from the government and civil society. Furthermore, building our solution on a digital public good such as CKAN allows it to adapt to the future due to the importance of open source. That is why our solution not only seeks to benefit the government, helping them comply with the general law of transparency and their open government agenda, but also citizens in general, allowing them to have actionable information to work on social issues, communicate them and to influence the public and political agenda, we want to frame the case of success in the work that was done with these technologies for Mexico City.

Datasketch+CKAN: comunicando datos abiertos de manera simple y amigable (ES)

Hay muchos champions de gobierno abierto y transparencia que han cumplido con publicar datos abiertos en portales, pero que se sienten frustrados o insatisfechos porque no han logrado un impacto mayor en la ciudadanía, ya que estos no entienden cómo utilizar datos abiertos, creando al final una brecha digital mayor, limitando la capacidad de los ciudadanos para acceder a la información y beneficiarse de ella. Nuestra solución es la combinación de dos tecnologías basadas en software libre: CKAN y Datasketch. CKAN es un sistema de administración de datos de software libre que permite la publicación, el intercambio y búsqueda de datos, muy usada a nivel global por gobiernos como el de Australia, Canadá y Estados Unidos. Datasketch es un software que permite la visualización de datos en un diseño atractivo para la ciudadanía, la personalización de acuerdo a la línea gráfica de cada gobierno y la exportación de datos en múltiples formatos A través de metodologías innovadoras como el pensamiento de diseño, buscamos entender las necesidades y dolores de los usuarios de las plataformas de datos abiertos desde el gobierno y la sociedad civil. Además, construir nuestra solución sobre un bien público digital como lo es CKAN permite que se adapte al futuro por la importancia del código abierto. Es por ello que nuestra solución no solo busca beneficiar al gobierno, ayudándolos en el cumplimiento de la ley general de transparencia y su agenda de gobierno abierto, si no también a la ciudadanía en general, permitiéndole tener información accionable para trabajar temas sociales, comunicarlos e incidir en la agenda pública y política, queremos enmarcar el caso de éxito en el trabajo que se hizo con estas tecnologías para la Ciudad de México.

Natalia Debandi

Data production and monitoring of international migration in terms of human rights (ES)

The objective is to problematize the production and use of data for the monitoring of international migrations based on a study carried out in Argentina. The talk is organized into three axes: (1) analysis of the difficulties of administrative records to know the situation and access to rights of the migrant population. (2) presentation of the National Migrant Survey, a collective project that proposes a primary data production methodology from a human rights approach and (3) presentation of preliminary ideas on the use of artificial intelligence techniques, such as natural language processing, for the identification of situations of discrimination and xenophobia. The analysis of data production is proposed, in terms of governance, as a witness case to think about the production and use of data for the advancement of rights of groups in situations of structural disadvantage.

Producción de datos y monitoreo de la migración internacional en clave de derechos humanos (ES)

El objetivo es problematizar la producción y uso de datos para el monitoreo de las migraciones internacionales a partir de un estudio realizado en Argentina. La charla se organiza en tres ejes: (1) análisis de las dificultades de los registros administrativos para conocer la situación y acceso a derechos de la población migrante. (2) presentación de la Encuesta Nacional Migrante, un proyecto colectivo que propone una metodología de producción de datos primarios desde un enfoque de derechos humanos y (3) presentación de ideas preliminares sobre el uso de técnicas de inteligencia artificia, como el procesamiento de lenguaje natural, para la identificación de situaciones de discriminación y xenofobia. Se propone el análisis de la producción de datos, en clave de goberrnanza, como un caso testigo para pensar la producción y uso de datos para el avance en derechos de grupos en situación de desventaja estructural.

Nelly Sélem Mojica

Computational Biology on Wikipedia in Spanish (ES)

Bioinformatics articles in the Spanish version of Wikipedia are found in fewer numbers and with less content compared to their English counterpart. Over the last four years, we have collaborated closely with the Wikipedia community of interest of the Society for Computational Biology, achieving the implementation of an award dedicated to Latin American students. In this talk, we will share the narrative of our editathons and the ongoing efforts aimed at improving the Computational Biology category in Spanish.

Biología Computacional en la Wikipedia en Español (ES)

Los artículos de bioinformática en la versión en español de Wikipedia se encuentran en menor número y con menos contenido en comparación con su contraparte en inglés. A lo largo de los últimos cuatro años, hemos colaborado estrechamente con la comunidad de interés Wikipedia de la Sociedad de Biología Computacional, logrando la implementación de un premio dedicado a estudiantes latinoamericanos. En esta charla, compartiremos la narrativa de nuestros editatones y los esfuerzos continuos dirigidos a mejorar la categoría de Biología Computacional en español.

Nick Doiron

A Bite of Quinoa Genomics Data (EN)

To protect our food from the climate crisis, farmers might grow quinoa in new locations and new varieties. Opening the quinoa genome was part of this research. But what can someone do with a gigabyte of ACTGs? What approaches are there for tokenizing a genome with Large Language Models, and how do these compare to previous methods? This talk surveys AgroNT and scGPT (plus possible 2024 updates), and explains the specific tasks (gene expression and epigenetic marks) which they're evaluated on.

Un bocado de datos genómicos de la quinoa (EN)

Para proteger nuestros alimentos de la crisis climática, los agricultores podrían cultivar quinoa en nuevos lugares y nuevas variedades. Abrir el genoma de la quinoa fue parte de esta investigación. Pero ¿qué puede hacer alguien con un gigabyte de ACTGs? ¿Qué enfoques existen para tokenizar un genoma con modelos de lenguaje grandes y cómo se comparan con los métodos anteriores? Esta charla analiza AgroNT y scGPT (además de posibles actualizaciones para 2024) y explica las tareas específicas (expresión genética y marcas epigenéticas) en las que se evalúan.

Patricio Del Boca

Disorderly Transition: Preserving the Argentine Government's Open Data. (ES)

In November 2023, faced with a climate of uncertainty, Argentine civil society organized to support the government's open data portals due to fear that these portals would be deactivated. The first objective of the talk is to present the initiative (which we internally call Disorderly Transition), talk about the challenges that were presented, solutions that were developed and lessons learned. The second objective is to present the process that was carried out to document what can be done in scenarios where there are risks of public information being deleted and disappearing.

Transición Desordenada: Preservando los Datos Abiertos del Gobierno Argentino. (ES)

En Noviembre de 2023, ante un clima de incertidumbre, la sociedad civil Argentina se organizó para hacer un respaldo de los portales de datos abiertos del gobierno ante el temor de que dichos portales sean dados de baja. El primer objetivo de la charla es presentar la iniciativa (que llamamos internamente Transición Desordenada), hablar sobre los desafíos que se presentaron, soluciones que se desarrollaron y lecciones aprendidas. El segundo objetivo es presentar el proceso que se realizó para dejar documentado qué se puede hacer en escenarios donde hay riesgos de que la información pública se dé de baja y desaparezca.

Raeedah Wahid

Holding the powerful and their data accountable (EN)

From the New York City Police Department’s crime data to company diversity reports – datasets cannot tell the whole story by themselves and often carry implicit bias. But when they are analyzed critically and fairly, they reveal trends and patterns powerful institutions prefer to keep hidden. In this session, I will walk through examples of stories I’ve worked on for Bloomberg News and how we contextualized data coming from political and corporate entities and used it with additional reporting and visualization to strengthen our analysis.

Responsabilizar a los poderosos y sus datos (EN)

Desde los datos sobre delitos del Departamento de Policía de la ciudad de Nueva York hasta los informes sobre diversidad de las empresas, los conjuntos de datos no pueden contar la historia completa por sí solos y, a menudo, conllevan sesgos implícitos. Pero cuando se analizan de manera crítica y justa, revelan tendencias y patrones que las instituciones poderosas prefieren mantener ocultos. En esta sesión, analizaré ejemplos de historias en las que he trabajado para Bloomberg News y cómo contextualizamos datos provenientes de entidades políticas y corporativas y los usamos con informes y visualizaciones adicionales para fortalecer nuestro análisis.

Rahul Bhargava

Create Data Representation for Social Justice Movements (EN)

In the evolving landscape of data representation, where quantitative data has transitioned from specialized domains to integral components of democratic governance and community decision-making, a critical misalignment persists between current data visualization practices and the transformative contexts in which data is now utilized. This disconnect perpetuates personal, community-level, and societal harms within our "datafied" society. We need a rethinking of the toolbox for data representation, challenging the dominance of visual, computationally encoded norms rooted in sciences and statistics. Drawing inspiration from participatory action research and epistemological pluralism, we argue for an expanded approach encompassing experiential, presentational, and practical ways of representing data. Three compelling case studies from Mexico City, Chicago, and Los Angeles exemplify an expanded toolbox through creative data representation in social justice movements. To mitigate the perpetuation of harms associated with entrenched data practices, we can look to the arts for a broader set of approaches that foster community empowerment, efficacy, and engagement in a datafied society.

Crear representación de datos para movimientos de justicia social (EN)

En el panorama cambiante de la representación de datos, donde los datos cuantitativos han pasado de dominios especializados a componentes integrales de la gobernanza democrática y la toma de decisiones comunitarias, persiste una desalineación crítica entre las prácticas actuales de visualización de datos y los contextos transformadores en los que ahora se utilizan los datos. Esta desconexión perpetúa los daños personales, comunitarios y sociales dentro de nuestra sociedad "dataficada". Necesitamos repensar la caja de herramientas para la representación de datos, desafiando el dominio de las normas visuales codificadas computacionalmente arraigadas en las ciencias y las estadísticas. Inspirándonos en la investigación acción participativa y el pluralismo epistemológico, abogamos por un enfoque ampliado que abarque formas experienciales, presentacionales y prácticas de representar datos. Tres estudios de caso convincentes de la Ciudad de México, Chicago y Los Ángeles ejemplifican una caja de herramientas ampliada a través de la representación creativa de datos en los movimientos por la justicia social. Para mitigar la perpetuación de los daños asociados con las prácticas de datos arraigadas, podemos recurrir a las artes en busca de un conjunto más amplio de enfoques que fomenten el empoderamiento, la eficacia y la participación de la comunidad en una sociedad basada en datos.

Renata Hirota

Fires in the Amazon: investigating the effects of pollution on health (ES)

In this presentation, I will focus on the methodology and results of the "Engolindo Fumaça (Swallowing Smoke)" project, which linked health and satellite data to investigate the effects of pollution caused by fires in the Amazon on the health of the population. . The project was the winner of the King of Spain International Journalism Award in the Environment category and part of the team is in the process of updating the data for a scientific article.

Incendios en la Amazonia: investigando los efectos de la contaminación en la salud (ES)

En esta presentación, me centraré en la metodología y resultados del proyecto "Engolindo Fumaça (Tragando Humo)", que relacionó datos de salud y de satélite para investigar los efectos de la contaminación causada por los incendios en la Amazonía en la salud de la población. El proyecto fue ganador del Premio Internacional de Periodismo Rey de España en la categoría de Medio Ambiente y parte del equipo estamos en el proceso de actualización de los datos para un artículo científico.

Ricardo Miron Torres

Utilizing open source and data to combat mis and dis-information with digital public goods (EN-ES)

While digital technologies are essential parts of our lives and provide solutions to some of the world’s greatest challenges, we must urgently recognize, and help solve their downsides. This is particularly true regarding online information pollution, which has grown to be a cause of distrust and obfuscation. Digital public goods (DPGs), open-source software, open data, open AI models, open standards, and open content that help attain the SDGs, can provide scalable solutions that can be adapted to meet different context-specific needs concerning information pollution. As seen with prominent platforms like Mastodon and Signal, open-source solutions can provide promising and effective alternatives. Given their open-source nature, DPGs can be deployed and adopted quickly by different types of stakeholders, especially in advance of situations and within regions susceptible to information pollution.

Utilizando código y datos abiertos para combatir la desinformación con bienes públicos digitales/ Utilizing open source and data to combat mis and dis-information with digital public goods (EN-ES)

Si bien las tecnologías digitales son partes esenciales de nuestras vidas y brindan soluciones a algunos de los mayores desafíos del mundo, debemos reconocer urgentemente sus desventajas y ayudar a resolverlas. Esto es particularmente cierto en lo que respecta a la contaminación de la información en línea, que se ha convertido en una causa de desconfianza y confusión. Los bienes públicos digitales (DPG), el software de código abierto, los datos abiertos, los modelos abiertos de IA y el contenido abierto que ayudan a alcanzar los ODS pueden proporcionar soluciones escalables que se pueden adaptar para satisfacer diferentes necesidades específicas del contexto relacionadas con la desinformación. Como se ve en plataformas destacadas como Mastodon y Signal, las soluciones de código abierto pueden ofrecer alternativas prometedoras y efectivas. Dada su naturaleza de código abierto, los DPG pueden ser implementados y adoptados rápidamente por diferentes tipos de partes interesadas, especialmente antes de situaciones y dentro de regiones susceptibles a la contaminación de la información.

Rocío Arias Puga and Isaías Morales López

Sisdai and Gema: free software and open data tools of the Mexican government (ES)

In this talk we want to talk to you about Sisdai and Gema. Sisdai is a design and accessibility system for research; a set of connected patterns and shared practices, coherently organized to serve the purposes of a digital product. This system complies with the Accessibility Guidelines for Web Content 2.1 at conformity level “A” and makes free software components available to people that privilege the Spanish language. Gema is a geospatial knowledge infrastructure that allows you to view layers of geographic information and generate maps using open data that can be downloaded in formats such as CSV, Geojson, Geopackage and PNG. Both projects are developed by the Mexican government to support the opening of data and free code and thus move towards technological sovereignty in the country.

Sisdai y Gema: herramientas de software libre y datos abiertos del gobierno de México (ES)

En esta charla te queremos hablar acerca del Sisdai y Gema. El Sisdai es un sistema de diseño y accesibilidad para la investigación; un conjunto de patrones conectados y prácticas compartidas, organizadas coherentemente para servir a los propósitos de un producto digital. Este sistema cumple con las Pautas de Accesibilidad para el Contenido Web 2.1 en el nivel de conformidad “A” y pone a disposición de las personas componentes de software libre que privilegian el idioma español. Gema es una infraestructura de conocimiento geoespacial que permite visualizar capas de información geográfica y generar mapas con el uso de datos abiertos que se pueden descargar en formatos como CSV, Geojson, Geopackage y PNG. Ambos proyectos son elaborados desde el gobierno de México para abonar a la apertura de datos y código libre y así caminar hacia una soberanía tecnológica en el país.

Sara Mannheimer

Implementing AI Responsibly: Perspectives from library and archives community for the data-making community (EN)

Artificial intelligence (AI) can be used in libraries and archives as a powerful tool for enhancing metadata, improving search and discovery, recommending resources, powering library chatbots, and more. However, AI systems also have the potential to cause social and ethical problems. AI may incorporate surveillance technologies that threaten user privacy, AI can provide misinformation that looks real, and AI reflects and amplifies the biases of our society due to biased training data. This talk outlines the activities of an IMLS-funded project that examines this tension between AI-based tools and services, open data practices, and protecting user communities. Our talk will: (1) describe the results of a literature review and a special issue that investigate how librarians and archivists consider (or do not consider) ethics when implementing AI projects and tools, (2) review preliminary results from participatory workshops with library and archives practitioners, administrators, and users, and (3) discuss forthcoming activities that will result in a decision-making toolkit for responsible AI software development and technology implementation. This toolkit will be in alignment with library and archives professional values, and it can act as a starting point for the broader data-making community.

Implementación de la IA de manera responsable: perspectivas de la comunidad de bibliotecas y archivos para la comunidad de creación de datos (EN)

La inteligencia artificial (IA) se puede utilizar en bibliotecas y archivos como una herramienta poderosa para mejorar los metadatos, mejorar la búsqueda y el descubrimiento, recomendar recursos, impulsar los chatbots de bibliotecas y más. Sin embargo, los sistemas de IA también tienen el potencial de causar problemas sociales y éticos. La IA puede incorporar tecnologías de vigilancia que amenazan la privacidad del usuario, puede proporcionar información errónea que parece real y refleja y amplifica los prejuicios de nuestra sociedad debido a datos de entrenamiento sesgados. Esta charla describe las actividades de un proyecto financiado por IMLS que examina esta tensión entre herramientas y servicios basados en IA, prácticas de datos abiertos y protección de comunidades de usuarios. Nuestra charla: (1) describirá los resultados de una revisión de la literatura y un número especial que investiga cómo los bibliotecarios y archiveros consideran (o no consideran) la ética al implementar proyectos y herramientas de IA, (2) revisarán los resultados preliminares de talleres participativos con bibliotecas. y profesionales, administradores y usuarios de archivos, y (3) discutir las próximas actividades que darán como resultado un conjunto de herramientas de toma de decisiones para el desarrollo responsable de software y la implementación de tecnología de IA. Este conjunto de herramientas estará alineado con los valores profesionales de bibliotecas y archivos, y puede actuar como punto de partida para la comunidad más amplia de creación de datos.

Sara Petti

Open Data Editor: The tormented journey of an app (EN)

Do you remember the Frictionless Data desktop application we presented last year in Buenos Aires? We are back with a name (Open Data Editor) and a beta version. In this talk we will share the journey that has taken us from the alpha, presented last year at csv,conf, to the beta released in October 2023, and the current work-in-progress v1. During this journey the application development progressed, and even got a promising generative AI integration, but we also made mistakes. We want to talk about what we got wrong, the shifts in our initial plans, the ideas that didn't pan out as expected and the subsequent reconsiderations we've made. Errors are normal, but unfortunately they are not very often openly discussed. We think there is a lot to learn from them. We will therefore share our ODE journey: the mistakes, and how we addressed them, hoping it will be useful for the community.

Open Data Editor: el atormentado viaje de una aplicación (EN)

¿Recuerdas la aplicación de escritorio Frictionless Data que presentamos el año pasado en Buenos Aires? Estamos de vuelta con un nombre (Open Data Editor) y una versión beta. En esta charla compartiremos el viaje que nos ha llevado desde la versión alfa, presentada el año pasado en csv,conf, hasta la versión beta lanzada en octubre de 2023 y el trabajo en progreso v1 actual. Durante este viaje, el desarrollo de la aplicación avanzó e incluso consiguió una prometedora integración de IA generativa, pero también cometimos errores. Queremos hablar sobre en qué nos equivocamos, los cambios en nuestros planes iniciales, las ideas que no resultaron como esperábamos y las reconsideraciones posteriores que hicimos. Los errores son normales, pero lamentablemente no suelen comentarse abiertamente. Creemos que hay mucho que aprender de ellos. Por lo tanto, compartiremos nuestro viaje ODE: los errores y cómo los abordamos, esperando que sea útil para la comunidad.

Virginia Brussa

Lots of AI narrative, but what are we teaching? (ES)

From Codatecs (UNR) we are interested in sharing a systematization of the syllabus/study plans of the careers that explicitly offer training in AI in Argentina and that have been created during the last 3 years. For the most part, the ethical approach is superficial and fragmented, there are no tours of the global or regional regulatory frameworks that allow contextualizing the challenges, minimal allusion to the development of AI in the public sector and even less an inclusive data science design. What data and AI competencies prevail? What type of job profiles are offered? What thematic vacancies prevail (open, inclusive, fair)? How to collaborate in the diversity and openness of these formal trainings? We propose innovative instances of internationalization of openness, multi-actor collaboration with these educational entities and designs of instances such as hybrid residences or collaborative code labs for the immersion of students and teachers in public, open, hard and soft scientific infrastructure competitions, etc. .

Mucha narrativa IA, pero qué estamos enseñando? (ES)

Desde el Codatecs (UNR) nos interesa compartir una sistematización sobre los syllabus/planes de estudio de las carreras que explícitamente ofrecen capacitaciones en IA en Argentina y que han creadas durante estos últimos 3 años. En su mayoría el planteamiento ético es superficial y fragmentado, no existen recorridos por los frameworks normativos globales o regionales que permitan contextualizar los desafíos, mínima alusión al desarrollo de IA en el sector público y menos aún un diseño de ciencia de datos inclusivo. ¿Qué competencias sobre datos e IA prevalecen? ¿Qué tipo de perfiles laborales se ofrecen? ¿Qué vacancias temáticas prevalecen (lo abierto, inclusivo, justo)? ¿Cómo colaborar en la diversidad y apertura de dichas capacitaciones formales? Proponemos instancias innovadoras de internacionalización de la apertura, de la colaboración multiactor con dichas entidades educativas y diseños de instancias como residencias híbridas o labs de código colaborativos para la inmersión de lxs estudiantes y docentes en competencias de infraestructuras públicas, abiertas, hard y soft científico etc.

Zachary Baker

From Novice to Navigator: An Iterative Approach to Steering the OMSF Community

Community is ever-changing, ethereal, and transitive. There are layers within layers, and it's made of individual personalities as well as united groups. In the Summer of 2024, I found myself managing one, without training or context. How did I survive? My talk with cover my background, my journey, and how I leveraged iterative, data-driven product management strategies to engage and maintain the Open Molecular Software Foundation community, a group globally distributed software scientists. I'll also cover the invaluable resources, connections, and external communities that have made my journey possible, and include a retrospective of my first year - what would I do differently knowing what I know now. También estoy practicando mi español con dedicación y espero incorporar el idioma en mi presentación.

De Novato a Navegante: Un Enfoque Iterativo para Guiar a la Comunidad de OMSF

La comunidad es siempre cambiante, etérea y transitoria. Hay capas dentro de capas, y está compuesta por personalidades individuales así como por grupos unidos. En el verano de 2024, me vi a mí mismo gestionando una, sin formación ni contexto. ¿Cómo sobreviví? Mi charla cubrirá mi trayectoria, mi viaje y cómo aproveché estrategias iterativas y basadas en datos de gestión de productos para involucrar y mantener la comunidad de la Fundación de Software Molecular Abierto (OMSF), un grupo de científicos de software distribuidos globalmente. También hablaré sobre los recursos invaluables, conexiones y comunidades externas que han hecho posible mi trayecto, e incluiré una retrospectiva de mi primer año, ¿qué haría diferente sabiendo lo que sé ahora? Además, estoy practicando diligentemente mi español y espero incorporar el idioma en mi presentación

Zane Selvans

Workplace Democracy, Open Source, and Open Data (EN)

Don’t want to do another post-doc or work for The Man? Skeptical of the nonprofit-industrial complex? Worker cooperatives offer another container for doing technical work in the public interest with a lot of autonomy, flexibility, and room for idealism. We’ll explain how a co-op is different from most corporations and non-profit organizations and why they can be a good fit for open source software & open data work. Then, we’ll give an overview of Catalyst’s experience as an all-remote worker co-op over the last 7 years. We’ll discuss securing grant funding and client contracts, growing from 3 to 9 members, sharing power and profits, and learning to manage ourselves without anybody being “in charge”. And we’ll explain how we’ve done all this while giving our software and data away for free to help decarbonize the US energy system.

Democracia en el lugar de trabajo, código abierto y datos abiertos (EN)

¿No quieres hacer otro postdoctorado o trabajar para El Hombre? ¿Escéptico ante el complejo industrial sin fines de lucro? Las cooperativas de trabajadores ofrecen otro contenedor para realizar trabajo técnico de interés público con mucha autonomía, flexibilidad y espacio para el idealismo. Explicaremos en qué se diferencia una cooperativa de la mayoría de las corporaciones y organizaciones sin fines de lucro y por qué pueden ser una buena opción para el trabajo con software de código abierto y datos abiertos. Luego, brindaremos una descripción general de la experiencia de Catalyst como cooperativa de trabajadores totalmente remotos durante los últimos 7 años. Hablaremos sobre cómo conseguir subvenciones y contratos con clientes, cómo crecer de 3 a 9 miembros, compartir el poder y las ganancias y aprender a gestionarnos nosotros mismos sin que nadie esté "a cargo". Y explicaremos cómo hemos hecho todo esto mientras regalamos nuestro software y datos para ayudar a descarbonizar el sistema energético de EE. UU.