Les données génomiques produites grâce à la lecture de l'ADN des cellules permettent des avancées cruciales en médecine, en écologie, et en agronomie. Ces précieuses données de séquençage s'accumulent de manière exponentielle dans les banques de données génomiques publiques telles que l'ENA (48 pétaoctets de données en 2023). Cependant, leur exploitation est impossible à une large échelle car il n'existe pas de méthode efficace pour interroger ces données. On peut s'imaginer ces trésors de données, comme ce que serait internet sans moteur de recherche : largement sous-exploité.
Afin de permettre d'exploiter pleinement ce trésor d'information, le projet OmicFinder allie quatre équipes Inria qui travaillent sur le développement de nouveaux algorithmes et structures de données, sur l'exploitation d'ontologies pour exploiter au mieux les métadonnées associées aux données de séquences, sur la distribution des indexes qui seront proposés et sur la réduction de l'impact environnemental de l'usage des moteurs de recherches que nous produirons. Les partenaires externes sont le CEA-GenoScope, Elixir, l'Institut Pasteur, Inria Challenge OceanIA, le CEA-CNRGH, et l'Institut Méditerranéen d'Océanographie. Ils participent aux développements algorithmiques et fournissent des validations et des cas d'utilisation.