Jahresbericht 2020-2021

FORSCHUNG — 49 Prof. Dr. Christoph Steinbeck ist zusammen mit Dr. Oliver Koepler von der TIB Hannover Sprecher von NFDI4Chem (siehe Seite 23). Derzeit arbeiten etwa 70 Personen in sechs Aufgabenbereichen (TAs) an NFDI4Chem mit: TA1 Management, TA2 Smart Lab, TA3 Repositories, TA4 Standards, TA5 Community and Training und TA6 Synergies. Zusammen unterstützen sie Wissenschaftler dabei, Forschungsdaten in der Chemie zu sammeln, zu speichern, zu verarbeiten, zu analysieren, verfügbar zu machen und wiederzuverwenden. Dazu werden technische Lösungen wie Elektronische Labornotizbücher (ELNs) oder Datenrepositorien neu bzw. weiterentwickelt. Standards werden im internationalen Austausch festgelegt und neue Ressourcen (Knowledgebase, Terminology Service) geschaffen, die Forschenden Wissen für nachhaltiges FDM vermitteln. In verschiedenen Veranstaltungen (Stammtisch, Workshops, Talk Series) wendet NFDI4Chem sich an die Community und lädt sie ein, sich zu beteiligen. Das NFDI4Chem-Team an der Universität Jena, ist in allen sechs TAs aktiv. Schwerpunkte sind neben der Koordination des Konsortiums im NFDI4Chem — Fachkonsortium für die Chemie in der NFDI Rahmen von TA1 die Entwicklung eines neuen Repositoriums für NMR-Daten (nmrXiv) in TA3 und die Entwicklung und Etablierung neuer Datenstandards in der Chemie in TA4. [5] Steinbeck C., Koepler O., Bach F., et al. (2020): NFDI4Chem - Towards a National Research Data Infrastructure for Chemistry in Germany. RIO Journal, DOI: 10.3897/rio.6.e55852. [6] Ortmeyer J., Schön F., Herres-Pawlis S., et al. (2021): NFDI4Chem – Fachkonsortium für die Chemie. Bausteine Forschungsdatenmanagement, DOI: 10.17192/bfdm.2021.2.8340. Deep Learning in der Chemie Große Mengen an chemischen Informationen werden primär in der wissenschaftlichen Literatur in Form von Text und Bildern veröffentlicht, ohne sie in strukturierter, maschinenlesbarer Form in Datenbanken zugänglich zu machen. Dies stellt insofern ein Problem dar, dass die chemischen Daten in strukturierter Form benötigt werden, um von den Vorteilen moderner Methoden aus dem Bereich des maschinellen Lernens profitieren zu können. Zudem ist die manuelle Extraktion der Daten aus der Literatur ein arbeitsaufwendiges und fehleranfälliges Unterfangen. Die Gruppe von Prof. Dr. Steinbeck beschäftigt sich daher mit der auf Deep Learning basierenden automatisierten Extraktion chemischer Daten aus der wissenschaftlichen Literatur. In diesem Kontext wurden mit DECIMER-Segmentation [7] und DECIMER - Image Transformer [8] Systeme zur Segmentierung von Bildern chemischer Strukturen aus gescannten Seiten und zur automatisierten Übersetzung dieser segmentierten Abbildungen in maschinenlesbare Repräsentationen geschaffen. Neben der Verarbeitung von Abbildungen chemischer Strukturen beschäftigt sich die Gruppe auch mit der Verarbeitung von chemischen Informationen in Textinhalten. So wurde mit STOUT [9] ein auf der Transformer-Architektur basiertes Programm zur Übersetzung von IUPAC-Namen in maschinenlesbare String-Repräsentationen der entsprechenden chemischen Struktur (und umgekehrt) veröffentlicht. Weitere Schwerpunkte liegen in der Extraktion von in Textinhalten erwähnten Naturstoffen und ihrer Verknüpfung mit spezifischen analytischen Daten und den Namen der Organismen, die diese Substanzen produzieren. [7] Rajan K., Brinkhaus HO., Sorokina M., Zielesny A., Steinbeck C. (2021): DECIMER-Segmentation: Automated extraction of chemical structure depictions from scientific literature. Journal of Cheminformatics. DOI: 10.1186/s13321-021-00496-1. [8] Rajan K., Zielesny A., Steinbeck C. (2021): DECIMER 1.0: deep learning for chemical image recognition using transformers. Journal of Cheminformatics. DOI: 10.1186/s13321-021-00538-8. [9] Rajan K., Zielesny A., Steinbeck C. (2021): STOUT: SMILES to IUPAC names using neural machine translation. Journal of Cheminformatics. DOI: 10.1186/s13321-021-00512-4.

RkJQdWJsaXNoZXIy OTI3Njg=