1204
Revista de Biología Tropical, ISSN: 2215-2075 Vol. 69(4): 1204-1223, October-December 2021 (Published Nov. 25, 2021)
Avances de la bioinformática en Costa Rica:
vista retrospectiva y perspectivas
Rebeca Campos-Sánchez1,3*; https://orcid.org/0000-0002-9413-8371
Andrés Flores-Cruz2; https://orcid.org/0000-0001-5354-2901
José Arturo Molina-Mora2,3,4; https://orcid.org/0000-0001-9764-4192
Rodrigo Mora2,3; https://orcid.org/0000-0001-7964-3575
César Rodríguez2,4; https://orcid.org/0000-0001-5599-0652
Andrés Gatica-Arias5; https://orcid.org/0000-0002-3841-0238
Caterina Guzmán-Verri6; https://orcid.org/0000-0003-1036-920X
1. Centro de Investigación en Biología Celular y Molecular, Universidad de Costa Rica, San Pedro, San José, Costa Rica;
rebeca.campos@ucr.ac.cr (Correspondencia*)
2. Facultad de Microbiología, Universidad de Costa Rica, San Pedro, San José, Costa Rica; andres.florescruz@ucr.ac.cr,
jose.molinamora@ucr.ac.cr, rodrigo.morarodriguez@ucr.ac.cr, cesar.rodriguezsanchez@ucr.ac.cr
3. Programa de Maestría en Bioinformática y Biología de Sistemas, Escuela de Medicina, Universidad de Costa Rica,
San Pedro, San José, Costa Rica.
4. Centro de Investigación en Enfermedades Tropicales, Universidad de Costa Rica, San Pedro, San José, Costa Rica.
5. Escuela de Biología, Universidad de Costa Rica, San Pedro, San José, Costa Rica; andres.gatica@ucr.ac.cr
6. Programa de Investigación en Enfermedades Tropicales, Escuela de Medicina Veterinaria, Universidad Nacional,
Heredia, Heredia, Costa Rica; caterina.guzman.verri@una.cr
Recibido 05-V-2021. Corregido 27-X-2021. Aceptado 09-XI-2021.
ABSTRACT
Bioinformatics advances in Costa Rica: retrospective view and perspectives
Introduction: The scientific discipline of bioinformatics has the potential to generate innovative applications for
human societies. Costa Rica, small in size and population compared to other Latin American countries, has been
progressively adopting the discipline. Recognizing progress makes it possible to determine where the country
can go in this field, as well as its contribution to the Latin American region.
Objective: This manuscript reports evidence of the evolution of bioinformatics in Costa Rica, to identify weak-
nesses and strengths allowing future actions plans. Methods: We searched databases of scientific publications
and sequence repositories, as well as information on training activities, networks, infrastructure, web pages and
funding sources.
Results: Important advances have been observed since 2010, such as increases in training opportunities and the
number of publications, significant contributions to the sequence databases and connections through networks.
However, areas such as critical mass and financing require further development. The scientific community and
its sponsors should promote bioinformatics-based research, invest in graduate student training, increase profes-
sional training, create career opportunities in bioinformatics, and promote international collaborations through
networks.
Conclusions: It is suggested that in order to experience the benefits of bioinformatics applications, three key
aspects must be strengthened: the scientific community, the research infrastructure, and funding opportunities.
The impact of such investment would be the development of ambitious but feasible projects and extended
Campos-Sánchez, R., Flores-Cruz, A., Molina-Mora, J. A., Mora,
R., Rodríguez, C., Gatica-Arias, A., & Guzmán-Verri,
C. (2021). Avances de la bioinformática en Costa Rica:
vista retrospectiva y perspectivas. Revista de Biología
Tropical, 69(4), 1204-1223. https://doi.org/10.15517/rbt.
v69i4.46873
https://doi.org/10.15517/rbt.v69i4.46873
OTROS
1205
Revista de Biología Tropical, ISSN: 2215-2075, Vol. 69(4): 1204-1223, October-December 2021 (Published Nov. 25, 2021)
Las sociedades humanas son impulsadas
por la información en forma de datos. Las
disciplinas científicas, incluidas la agronomía,
la biología, la ecología, la microbiología, la
química y la medicina, se benefician del rápi-
do crecimiento de tecnologías que producen
y manejan cantidades masivas de datos. Esto
permite la toma de decisiones más precisas
y acertadas acorde a la realidad que cada
sociedad vive.
Un ejemplo claro de esto es la medicina
personalizada o de precisión que permite rea-
lizar diagnósticos basados en la información
propia de cada paciente, como la genética. Esto
facilita la prescripción de tratamientos médicos
hechos a la medida de la condición propia de
cada paciente. También se pueden integrar dife-
rentes niveles moleculares a estudios GWAS
(Genome Wide Association Studies) para com-
prender mejor las enfermedades humanas, o
incluso asistirse de estrategias como inteli-
gencia artificial para describir padecimientos
con modelos descriptivos y predictivos. En
el futuro, podría ser posible modificar genes
defectuosos con técnicas como CRISPR-Cas9
(Razzouk, 2018), o estrategias basadas en ARN
(ácido ribonucleico) de interferencia.
Otro ejemplo actual ilustrado por la pan-
demia del SARS-CoV-2, es la relevancia de
la vigilancia genómica global de patógenos,
la cual permite una respuesta oportuna para el
control de la diseminación de la enfermedad, o
quizás incluso prevenirla por completo (Gardy
& Loman, 2017). Adicionalmente, la informa-
ción generada de la secuenciación del genoma
del SARS-CoV-2, permitió un diseño rápido y
dirigido de vacunas sin precedentes (Kyriakidis
et al., 2021).
En el tema de bioprospección, con las tec-
nologías de secuenciación y análisis de datos
se pueden describir comunidades enteras de
microorganismos. De estas secuencias se pue-
den identificar los genes de esos organismos
para encontrar moléculas con potencial apli-
cación biotecnológica y por ende económico
(Coutinho et al., 2018).
Costa Rica tiene ejemplos relevantes de
contribuciones y aplicaciones de la bioinformá-
tica. Entre ellas están el retrato de la riqueza de
la biodiversidad nacional, la estructura genética
de la población humana según las genealogías
registradas en el país, y las detalladas caracte-
rizaciones fenotípicas de venenos de serpientes
(Campos-Sánchez et al., 2013; CBOL Plant
Working Group, 2009; Lomonte et al., 2014;
Lomonte & Calvete, 2017; Segura-Wang et al.,
2010; Suárez-Esquivel et al., 2017a). La parti-
cipación en esfuerzos globales como el proyec-
to “International Barcoding of Life – iBOL” y
la secuenciación del genoma completo (WGS)
de familias con esquizofrenia o trastorno bipo-
lar también reflejan contribuciones importantes
en el avance de la generación y la investigación
basada en cantidades masivas de datos de Costa
Rica (Glahn et al., 2019; Shokralla et al., 2015).
Durante los últimos diez años, el país ha
registrado una serie de eventos que reflejan
el aumento de interés y capacidad de realizar
investigación en el campo. Uno de ellos es
la instalación de seis instrumentos Illumina
de secuenciación en instituciones tanto públi-
cas como privadas. En recursos de computa-
ción, existe al menos un clúster computacional
moderno con libre acceso para investigación
(Kabré del Colaboratorio Nacional de Compu-
tación Avanzada - CNCA). En el área académi-
ca, se creó en el 2011 el Programa de Maestría
en Bioinformática y Biología de Sistemas
(MBBS) de la Universidad de Costa Rica, se
han organizado múltiples cursos internacio-
nales entre ellos el de Genómica y Vigilancia
Epidemiológica de Patógenos Bacterianos en
collaborations within the Latin American region and abroad. This would allow significant contributions to
address global challenges and the implementation of new approaches to research, innovation and knowledge
transfer for the development of the economy, within an ethics of research framework.
Key words: data analysis; NGS-next generation sequencing; education; Web of Science; SRA (Sequence Read
Archive); PubMed; ENA (European Nucleotide Archive).
1206
Revista de Biología Tropical, ISSN: 2215-2075 Vol. 69(4): 1204-1223, October-December 2021 (Published Nov. 25, 2021)
Costa Rica desde el 2013. Además, se han
organizado sesiones de Bioinformática y Biolo-
gía de Sistemas como parte de las conferencias
internacionales IWOBI 2018 (IEEE Interna-
tional Work Conference on Bioinspired Inte-
lligence), CARLA 2019 (Latin America High
Performance Computing Conference) e IWOBI
2020. A nivel nacional, el Consejo Técnico en
Bioinformática Clínica (CTBC) del Ministerio
de Salud ha organizado dos Jornadas en Bioin-
formática Clínica (2019 y 2020) con participa-
ción profesional y estudiantil.
En este trabajo se recopila y presenta evi-
dencia de la evolución de la bioinformática en
Costa Rica desde el 2010. Para esto se usaron
datos de la literatura científica, se realizaron
búsquedas en bases de datos de secuencias y
páginas en línea, y entrevistas a profesiona-
les y docentes relacionados con el campo a
nivel nacional. Los datos indican un avance
importante en esta disciplina. Además, con
este trasfondo, se identificaron debilidades y
fortalezas para proponer acciones a futuro. Los
autores sugieren acciones desde la perspectiva
científica para impulsar el crecimiento de la
investigación en genómica y bioinformática
con potencial impacto social y económico.
Esto dependerá de la capacidad de fortalecer la
comunidad, de conseguir fondos de investiga-
ción y del desarrollo de una infraestructura de
investigación bien articulada (Fig. 1).
MATERIALES Y MÉTODOS
El objetivo principal de esta revisión es
evaluar el progreso de la investigación y el
ambiente nacional con respecto a la bioinfor-
mática en Costa Rica en los últimos once años.
Para esto se cuantificaron aspectos como el
aumento en el número de publicaciones, núme-
ro de secuencias depositadas en bases de datos
y número de personas capacitadas. Además, se
midieron los avances en términos de acceso
a fondos de financiamiento e infraestructura
computacional, colaboración en redes cientí-
ficas y la legislación que regula el acceso y
Fig. 1. Componentes interrelacionados para medir el avance de la bioinformática en Costa Rica y potenciales puntos de
acción para fortalecer la disciplina.
Fig. 1. Interrelated components to measure progress of bioinformatics in Costa Rica and action opportunities to strengthen
this discipline.
1207
Revista de Biología Tropical, ISSN: 2215-2075, Vol. 69(4): 1204-1223, October-December 2021 (Published Nov. 25, 2021)
análisis de datos genómicos. Todas las búsque-
das se realizaron del 15-23 de abril del 2021,
abarcando los años 2010 hasta el 23 de abril
del 2021. En resumen, el proceso de recolecta
de información se dividió en tres etapas: bús-
queda en bases de datos de artículos científicos,
búsqueda en bases de datos de secuencias de
nucleótidos y recolecta de información directa-
mente de páginas web o personas ligadas a las
actividades relacionadas con la bioinformática.
Búsqueda en bases de datos de artícu-
los científicos: Se realizaron búsquedas en
tres bases de datos: PubMed, Web of Science
y IEEEXplore. Las dos primeras difieren en
su formato de búsqueda, así como en el con-
tenido de las bases de datos, aunque hay un
traslape que no se cuantificó. IEEEXplore
contiene artículos tipo “proceedings” de con-
ferencias que no están presentes en PubMed o
Web of Science.
La búsqueda en PubMed se hizo de tres
maneras, buscando el campo “title”, “title/abs-
tract” o “allfields”. Este es un ejemplo del for-
mato title: (((((((((((((((((((bioinformatic[Title])
OR (systems biology[Title])) OR (computatio-
nal biology[Title])) OR (genome[Title])) OR
(genomic[Title])) OR (transcriptomic[Title]))
OR (transcriptome[Title])) OR (rna
seq[Title])) OR (RNA-Seq[Title])) OR
(microbiome[Title])) OR (microbiota[Title]))
OR (metagenome[Title])) OR
(metagenomic[Title])) OR (proteomic[Title]))
OR (proteome[Title])) OR (microarray[Title]))
OR (exome[Title])) OR (NGS[Title])) AND
(Costa Rica[Affiliation])) AND ((“2010”[Date
- Publication] : “3000”[Date - Publication])).
Los resultados se exportaron en formato csv y
se extrajo únicamente la fecha de publicación.
La búsqueda en Web of Science se reali-
zó de tres formas, buscando el campo “title”,
“topic” y “allfields”. Un ejemplo de búsque-
da es el siguiente: TITLE: (bioinformatics)
OR TITLE: (systems biology) OR TITLE:
(computational biology) OR TITLE: (genome)
OR TITLE: (genomic) OR TITLE: (trans-
criptomic) OR TITLE: (transcriptome) OR
TITLE: (rnaseq) OR TITLE: (RNA-Seq) OR
TITLE: (microbiome) OR TITLE: (microbio-
ta) OR TITLE: (metagenome) OR TITLE:
(metagenomic) OR TITLE: (proteomic) OR
TITLE: (proteome) OR TITLE: (microarray)
OR TITLE: (exome) OR TITLE: (NGS). Los
resultados fueron luego filtrados en Refine
results con la palabra Costa Rica y por organi-
zaciones (ORGANIZATIONS-ENHANCED:
(UNIVERSIDAD COSTA RICA OR UNI-
VERSIDAD NACIONAL COSTA RICA OR
HOSP NACL NINOS DR CARLOS SAENZ
HERRERA OR CATIE CENTRO AGRONO-
MICO TROPICAL DE INVESTIGACION Y
ENSENANZA OR FDN INCIENSA OR UNI-
VERSIDAD ESTATAL A DISTANCIA UNED,
INST TECNOL DE COSTA RICA). Los resul-
tados se exportaron con la opción “other file
formats” usando la opción “Record content =
Full record” y “File format = plain text”. De
estos archivos se extrajo únicamente la fecha
de publicación (identificado como PY).
En IEEEXplore la búsqueda incluyó dos
palabras bioinformatics AND Costa Rica para
todos los años que hubiera datos disponibles.
Adicionalmente, se realizó una nube de
palabras con la herramienta en línea word-
clouds (https://www.wordclouds.com/) usando
los títulos de las publicaciones identificadas en
la búsqueda de PubMed por título y resumen.
Todas las palabras de los títulos se cambiaron a
minúsculas para hacer el conteo.
Búsqueda en bases de datos de secuen-
cias de nucleótidos: Para esta revisión se
hicieron búsquedas en dos bases de datos:
ENA (European Nucleotide Archive) y SRA
(Sequence Read Archive). Cada base de datos
tiene campos de búsqueda distintos y alber-
ga tanto datos compartidos (redundantes)
como únicos, así que no son completamente
comparables.
Se realizó la búsqueda limitando la fuente
geográfica a 19 países Latinoamericanos, uno
cada vez (Argentina, Belice, Bolivia, Brasil,
Chile, Colombia, Costa Rica, Cuba, Ecuador,
El Salvador, Guatemala, Honduras, México,
Nicaragua, Panamá, Paraguay, Perú, Uruguay
y Venezuela). Las búsquedas se enfocaron en
1208
Revista de Biología Tropical, ISSN: 2215-2075 Vol. 69(4): 1204-1223, October-December 2021 (Published Nov. 25, 2021)
datos generados por cualquier tecnología de
secuenciación de lecturas cortas y largas.
Se usó la interfaz web del ENA bajo la
opción búsqueda avanzada y el tipo de datos
“Raw reads”. La búsqueda tuvo el siguiente
formato (reemplazando el nombre de país):
(country = “Costa Rica”) AND (instrument_
platform = “ABI_SOLID” OR instrument_plat-
form = “BGISEQ” OR instrument_platform =
“CAPILLARY” OR instrument_platform =
“COMPLETE_GENOMICS” OR instrument_
platform = “DNBSEQ” OR instrument_plat-
form = “HELICOS” OR instrument_platform
= “ILLUMINA” OR instrument_platform
= “ION_TORRENT” OR instrument_plat-
form = “LS454” OR instrument_platform =
“OXFORD_NANOPORE” OR instrument_
platform = “PACBIO_SMRT”). Los resultados
se exportaron como un archivo TSV (columnas
separadas por tabs) y se extrajo la información
relevante con scripts de Unix. Los campos
de búsqueda fueron: “first_created”, “instru-
ment_platform”, y en el caso de Costa Rica
también se extrajo el nombre de la institución
que sometió las secuencias (“center_name”).
Una búsqueda similar se realizó en el
SRA del NCBI, sin embargo, el formato de la
búsqueda fue el siguiente: (Costa Rica) AND
(“2010”[Publication Date]: “3000”[Publication
Date]). Se repitió la búsqueda con el resto de 18
países mencionados anteriormente. Los datos
se exportaron en formato csv con las opciones
“file” y “format RunInfo”. Se usaron scripts
para extraer los datos de “release date”, “center
name” y “platform”.
Para ambas bases de datos, los datos
se normalizaron por tamaño de la población
usando el dato del 2020 según la página web
Worldometers (https://www.worldometers.
info/world-population/population-by-country/,
accesada el 21 de abril del 2021).
Búsqueda de datos en páginas web o
directamente con personas: Otra información
que se presenta en este trabajo fue recabada de
representantes de organizaciones, incluyendo
la dirección de la Maestría en Bioinformática
y Biología de Sistemas de la UCR (19 de abril
2021), CNCA (30 abril 2021), colaboradores
del proyecto CABANA en Costa Rica (25 de
abril 2021), colaboradores de las redes RedBio-
Sea, RedBioAplicada y Rigatrop. También se
obtuvo información de profesores de la UCR,
UNA e ITCR relacionados con la enseñanza de
la bioinformática en sus instituciones.
Se recabó información de páginas web de
las redes SOIBio y BIOCANET, y de publica-
ciones de estas redes.
RESULTADOS
Producto de la búsqueda y análisis de
información de bases de datos de publicaciones
y secuencias, páginas web de redes y entre-
vistas, se observa en general: un incremento
en la producción científica y el entrenamiento
de profesionales, el impacto positivo de la
colaboración en redes, el acceso a infraes-
tructura computacional gratuita y avances en
la legislación para regular la investigación.
También se evidenció un desestímulo en los
últimos años en el financiamiento nacional para
la ciencia en general, que podría afectar a la
bioinformática directamente.
Producción científica: En la Fig. 2 se
muestra el aumento en la producción científica
a partir del 2014 en Costa Rica, según los datos
recolectados en PubMed y Web of Science con
18 palabras clave. Esta tendencia creciente
después del año 2014 se observa también en el
número de registros en la base de datos ENA
(Fig. 3), así como en todas las publicaciones
científicas de Costa Rica registradas en la
base de datos HIPATIA del Programa Esta-
do de la Nación (https://hipatia.cr/dashboard/
publicaciones-cientificas). Especialmente, en
el 2020 se muestra un crecimiento acelerado
de publicaciones, quizás siendo un preámbulo
para un 2021 aún mayor. Entre ambas bases
de datos hay un traslape de publicaciones que
no se cuantificó, sin embargo, es evidente que
PubMed captura mejor las búsquedas inclu-
sive solo usando el título y resumen de los
artículos. Esta realidad supera los resultados
brindados por de las Rivas y colaboradores
1209
Revista de Biología Tropical, ISSN: 2215-2075, Vol. 69(4): 1204-1223, October-December 2021 (Published Nov. 25, 2021)
(Rivas et al., 2017), en un análisis de Latino-
américa enfocado en publicaciones científicas
buscadas en Web of Science con tres palabras
clave únicamente: bioinformatic, computatio-
nal biology o biological database.
En la base de datos de IEEEXplore se
encontraron adicionalmente 22 publicaciones
de conferencias que no se encuentran reportadas
en PubMed o Web of Science. Estas publica-
ciones corresponden a los años 2014 (1), 2016
(4), 2017 (1), 2018 (12), 2019 (3) y 2020 (1).
En el 2018 se desarrolló la conferencia IWOBI
en Costa Rica, por lo que hubo una importante
participación de la comunidad nacional (ver
sección Redes nacionales e internacionales).
En la representación en nube de las pala-
bras de los 255 títulos de publicaciones iden-
tificadas en Pubmed se observan los temas
más relevantes (Fig. 3). Entre ellos es clave la
presencia de los estudios en venenos de ser-
pientes; el estudio de bacterias de los géneros
Brucella, Clostridium y Pseudomonas; estu-
dios en cáncer, enfermedad bipolar y asma;
y aplicaciones en genética, genómica, micro-
biomas y proteómica.
Por otra parte, en las bases de datos
de secuencias se muestra un comportamiento
Fig. 2. Número de publicaciones científicas relacionadas a bioinformática desde el 2010 identificadas utilizando diversas
palabras clave en las bases de datos PubMed y Web of Science. En estas publicaciones al menos un autor tiene afiliación de
alguna institución de Costa Rica. Los datos del 2021 son los registrados hasta el 23 de abril.
Fig. 2. Number of scientific publications related to bioinformatics since 2010 identified using various keywords in PubMed
and Web of Science databases. In these publications, at least one author is affiliated with an institution in Costa Rica. Data
for 2021 was obtained before April 23rd.