Digital Humanities Initiative

Die Professur und der Lehrstuhl für Angewandte Computerlinguistik wurden 2023 an der Philologisch-Historischen Fakultät der Universität Augsburg unter der Zielvorgabe eingerichtet, gemeinsam mit der Professur für Digitale Bildverarbeitung (Prof. Dr. Karsten Lambert) und mit Unterstützung durch die Professur für Natural Language Understanding der Fakultät für Angewandte Informatik (Prof. Dr. Annemarie Friedrich) einen Arbeitsschwerpunkt "Digital Humanities" an der Philologisch-Historischen Fakultät zu etablieren. Wir arbeiten hierbei insbesondere mit dem Medium Text, und sind v.a. an der semantischen und korpustechnologischen Erschließung von historischen Sprachvarietäten und von Low-Resource-Sprachen interessiert. Wir haben umfassende Erfahrung im Bereich digitaler Edition und besitzen einen besonderen Forschungsschwerpunkt im Bereich von Graphtechnologien und Wissensgraphen.

 

Die Digital Humanities (DH) sind ein interdisziplinäres Forschungsfeld, das computergestützte Methoden zur Analyse und Präsentation geisteswissenschaftlicher Daten einsetzt. Problematisch ist die Vielzahl technischer Lösungen in den DH, die oft nur für spezifische Fachdisziplinen entwickelt wurden, was Nachnutzung der Daten und interdisziplinäre Zusammenarbeit erschwert. Entwicklung und Einsatz standardisierter Formate schaffen Abhilfe, indem sie Interoperabilität zwischen Projekten und Institutionen schaffen und deren Verknüpfung auf technischer Ebene ermöglichen. Der so erleichterte Datenzugriff ermöglicht effiziente Zusammenarbeit, Langzeitarchivierung, Nachvollziehbarkeit und Qualitätssicherung wissenschaftlicher Ergebnisse und digitaler Ressourcen. Dies ist ein Forschungsschwerpunkt des Lehrstuhls.

 

Personell und inhaltlich setzt der Lehrstuhl Angewandte Computerlinguistik (ACoLi) die Juniorprofessur und Arbeitsgruppe Angewandte Computerlinguistik (ACoLi) fort, die 2013-2022 von Prof. Dr. Christian Chiarcos an der Goethe-Universität Frankfurt geleitet wurde. Im Folgenden sind diese Projekte mit benannt, jedoch entsprechent kenntlich gemacht.

Kooperationen und Projekte mit DH-Bezug

LeGaDH untersucht den Einsatz von Graphtechnologien in den Digital Humanities, insbesondere von RDF/LOD, und insbesondere die bislang offene Frage, mit welchen Mitteln diese in nutzerfreundlicher Weise mit traditionellen Formalismen zu vereinbaren sind, die eine dokumentenzentrierte Sicht auf die jeweiligen Quellen bieten (insbesondere TEI/XML). Obwohl das Potential dieser Verbindung bekannt ist, konnte bislang keine einheitliche Praxis hierfür etabliert werden. In praktischer Hinsicht ermöglicht diese Verbindung über verbesserte Nachnutzbarkeit und Interoperabilität hinaus eine digitale Tiefenerschließung und erweiterte Möglichkeiten, Informationen aus mehreren Quellen zusammenzuführen, beispielsweise durch semantischen Zugang zu Textressourcen über strukturierte Wissensgraphen, beinhaltet jedoch auch die Herausforderung, nutzerfreundliche Zugänge zu dieser Technologie zu entwickeln und ihren methodischen Implikationen zu untersuchen.

LeGaDH dient hierbei insbesondere der Begleitung von Kooperationsvorhaben innerhalb des Jakob-Fugger-Zentrums, in denen diese Fragestellung in Verbindung mit fachwissenschaftlichen Fragestellungen untersucht werden soll. Dabei verfolgen wir das Ziel, in interdisziplinären Forschungskooperationen und in Zusammenarbeit mit internationalen Standardisierungsinitiativen Best Practices zu entwickeln, um unterschiedliche Standards anwendungsbezogen miteinander zu integrieren und perspektivisch Kompatibilität zwischen ihnen zu etablieren, was wiederum Vorbildwirkung in der jeweiligen Disziplin haben kann.
 

Schlagworte: Digitale Edition, Graphtechnologien, TEI/XML, RDF, Linked Open Data

Leitung: Christian Chiarcos (Universität Augsburg)

Förderung: Jakob-Fugger-Zentrum (2025-2030)

Der Lehrstuhl Angewandte Computerlinguistik sind stark engagiert in der Entwicklung von Community-Standards und Best Practices. Dies beinhaltet beispielsweise die Mitwirkung von Prof, Chiarcos an der W3C Community Groups Ontology-Lexica (OntoLex), die technische Lösungen für die digitale Lexikographie und lexikalische Semantik in der Sprachtechnologie entwickelt, und die er derzeit gemeinsam mit internationalen Kollegen leitet. Im Rahmen der COST Action Nexus Linguarum. Towards Web-Centered Linguistic Data Science (2019-2024), an der 39 europäische und europäische Anrainerstaaten beteiligt waren, leitete er den Arbeitsbereich „Datenmodellierung“. Im Rahmen der Digital Humanities relevant ist seine aktuelle Tätigkeit im wissenschaftlichen Beirat des Akademie-Projektes „ALMA - Wissensnetze in der mittelalterlichen Romania“ der Heidelberger Akademie der Wissenschaften, der Akademie der Wissenschaften und Literatur Mainz und der Bayerischen Akademie der Wissenschaften (2023-2045) für den Bereich „Digital Humanities, Ontology Engineering, Softwareentwicklung“. In ähnlicher Rolle ist er Mitglied der Steuergruppe des "Subsahara-Afrika-Netz DaF Digital (SANDD)" (2024-2027).

Das Projekt PosTiMe wurde von Prof. Dr. Chiarcos gemeinsam mit Prof. apl. Dr. Jolanta Gelumbeckaite (Goethe-Universität Frankfurt, Empirische Sprachwisenschaft/Baltistik) eingeworben, und liefert eine computerbasierte textgenetische und sprachhistorische Untersuchung sowie Darstellung der altlitauischen lutherischen Postillen (Perikopenpredigten) und ihrer lateinischen und deutschen Vorlagentexte als einen Typ der digitalen Edition. Das Projekt teilt sich in mehrere stark untereinander verknüpfte Hauptaufgaben. Philologische Hauptaufgaben sind: (1) eine Untersuchung der Gestaltungsprinzipien und Übersetzungsstrategien der litauischen Texte, (2) Feststellung der intra- und intertextuellen Bezüge der Postillen und (3) die sprachhistorische Interpretation ihrer Inhalte in Form eines linguistisch tief annotierten Referenzcorpus. Texttechnologische Hauptaufgaben sind: (1) die Detektion intra- und intertextueller Bezüge sowie eine Alignierung mit Verfahren der maschinellen Übersetzung, die im Projekt weiterentwickelt werden, (2) die Modellierung als Graph (Bereitstellung und Entwicklung einer Linked Open Data Schnittstelle mit TEI+RDFa) sowie die graphische Darstellung dieser Strukturen als interaktive Visualisierung und (3) die Implementation einer Plattform über die die Forschungsergebnisse suchbar, traversierbar und allgemein zugänglich gemacht werden. Die öffentlich zugängliche Erschließung der litauischen lutherischen Postillen in der ganzen Komplexität ihrer Intertextualität spiegelt den kulturellen und für komplexe Texte oft schwer rekonstruierbaren historischen Bezugskontext wider. Aus administrativen Gründen wurde das Projekt 2022 an die Universität zu Köln transferiert, Prof. Chiarcos blieb jedoch in beratender Funktion involviert.
 

Schlagworte: Digitale Edition, Baltistik

Leitung: Christian Chiarcos (Goethe Universität Frankfurt, bis 2022), Jolanta Gelumbeckaite (Goethe Universität Frankfurt), Øyvind Eide (Universität zu Köln, seit 2022)

Förderung: DFG (2021-2025)

Unterstützung von Sprachkontaktforschung mit sprach- und texttechnologischen Verfahren und Formalismen, insbesondere durch Bereitstellung von Wörterbüchern in maschinenlesbarer Form als Linked Open Data und durch die Entwicklung von Schnittstellen, um diese für linguistische Forschung nutzbar zu machen. Hierfür wurden verschiedene Fallstudien betrachtet, die in verschiedenen Kooperationen sowie im Rahmen der Qualifikationsprojekte der Mitarbeiter verfolgt wurden, beinhaltend u.a.:
 

  • Aufbau und Auswertung eines Korpus von frühneuarmenischen Texten und Entwicklung von Methoden zur Erkennung und Klassifikation von Lehnworten
  • Dokumentation verschiedener nordostkaukasischer Varietäten in Georgien (Batsbi) und Aserbaidschan (Khinalug)
  • Aufbau eines lexikalischen Wissensgraphen von mehr als 3000 bilingualen Wörterbüchern
  • Technologien für die verbesserte (interoperable) Verarbeitung von interlinear glossierten Texten

Schlagworte: Digitale Lexikographie, Sprachdokumentation, Sprachkontaktforschung, Wissensgraphen, Linked Open Data
Leitung: Christian Chiarcos (Goethe Universität Frankfurt), Monika Rind-Pawlowski (Goethe Universität Frankfurt)

Förderung: BMBF (2015-2022)

Der Fachinformationsdienst ist wie die ihm vorangehende Virtuelle Fachbibliothek federführend an der Senckenberg-Bibliothek der Goethe-Universität angesiedelt, und wurde in drei Projektphasen von Christian Chiarcos um Linked-Open-Data-Komponenten für das Terminologiemanagement sowie sprachtechnologische Verfahren zur Metadatenerfassung von Sprachressourcen erweitert. In den Projekten wurden RDF-basierte Formalismen zur Repräsentation linguistischer Daten und Metadaten als Graphen eingesetzt und entwickelt, des weiteren wurde ein bestehendes Schlagwortsystem in einen Wissensgraphen überführt, beide wurden in eine bestehende Datenbankstruktur und Nutzeroberfläche integriert. Darüber hinaus wurden Systeme für die automatisierte Verschlagwortung und Textklassifikation linguistischer Fachtexte entwickelt.
 

Schlagworte: Terminologiemanagement, Ontologien, Verschlagwortung, Textklassifikation, Linguistik

Leitung: Senckenberg-Bibliothek, Teilprojekt Informationstechnologie: Christian Chiarcos (Goethe Universität Frankfurt, 2015-2022)

Förderung: DFG/LIS (seit 2015)

Das Projekt diente einerseits dem Aufbau von sprachtechnologischen Lösungen für die Altorientalistik, andererseits dem Ausbau der Cuneiform Digital Library Initiative (CDLI), ein zentrales Referenzportal für Sprachen und Textzeugen des antiken Mesopotamien, das an der UCLA und dem MPI für Wissenschaftsgeschichte, Berlin, gehostet wird. Mit Linked-Data-Formalismen haben wir die CDLI-Ressourcen mit anderen philologischen Portalen verknüpfen können, v.a. ORACC (Open Richly Annotated Cuneiform Corpus, University of Pennsylvania/University of Cambridge) und der RDF-Edition des Katalogs des British Museum, das einen Großteil der CDLI-Texte im Original besitzt. Das technische Konzept einer verlinkten und von außen verlinkbaren Forschungsplattform haben wir hiermit für die Altorientalistik bereits einmal implementiert, mit zwei separaten Schwerpunkten auf Annotation und maschineller Übersetzung (in textbasierten Formaten) einerseits und maschinenlesbare Metadaten (in RDF bzw. als LOD) andererseits. In Nachfolge von MTAAC haben wir mehrere Google Summer of Code-Projekte betreut, u.a. zu linguistischer Annotation und maschineller Übersetzung digital editierter Daten, Datenexporte in TEI/XML, Metadatenexporte in RDF, eine nutzerfreundliche Anfragesprache, eine auch für Mobilgeräte geeignete graphischen Visualisierung hierfür sowie Metadatenkonsolidierung von umfangreichen, heterogenen philologischen Datenbeständen. Diese Projekte wurden in Kooperation mit internationalen Studierenden realisiert und haben Pilotcharakter für nachfolgende Fallstudien und Projekte.
 

Schlagworte: Altorientalistik, Sumerisch, maschinelle Übersetzung, Linked Open Data, digitale Edition

Leitung: Heather Baker (University of Toronto), Robert Englund (UCLA), Christian Chiarcos (Goethe Universität Frankfurt)

Förderung: NEH, SSHRC, DFG (2017-2020)

Das Pilotprojekt „QuantQual@CEDIFOR – Zum Nebeneinander quantitativer und qualitativer Methoden in der germanistischen historischen Philologie“ wurde 2017 in Kooperation zwischen der Empirischen Sprachwissenschaft und der Informatik der Goethe-Universität Frankfurt im BMBF-finanzierten eHumanities-Zentrums CEDIFOR durchgeführt Dieses Projekt diente dazu, die quantitative Untersuchung von Wortstellungsregularitäten im historischen Deutschen vorzubereiten, indem syntaktische und semantische Annotationen erzeugt wurden, und baute hierfür auf Vorarbeiten zur Annotation historischer Sprachstufen auf, die von Christian Chiarcos zunächst im Rahmen des LOEWE-Schwerpunktes Digital Humanities und mit Bibeltexten älterer germanischer Sprachstufen durchgeführt wurden. Das Projekt diente zur Vorbereitung weitere Projekte in Zusammenarbeit mit der Mediävistik. Konkretes Ergebnis ist die Entwicklung eines syntaktischen Parsers und einer syntaktischen Annotation für das Referenzkorpus Mittelhochdeutsch.
 

Schlagworte: Mittelhochdeutsch, Syntax, Parsing, Korpusstudien

Leitung: Christian Chiarcos (Goethe Universität Frankfurt), Ralf Plate (Mainzer Akademie der Wissenschaften und der Literatur / Goethe Universität Frankfurt)

Lehre im DH-Bereich

Neben regulärer Lehre im Bereich der Computerlinguistik und Linguistik bieten wir jedes Semester i.d.R. mindestens zwei Lehrveranstaltungen mit Schwerpunkt Digital Humanities an, die i.d.R. keine technischen Teilnahmevoraussetzungen erfordern, und die, sofern die Nachfrage von Seiten der Studierenden das zulässt, auch Promovenden und Mitarbeitern offen stehen. Sofern es sich nicht um bilateral vereinbartes Co-Teaching mit Kollegen ausgewählter Sprach- und Geisteswissenschaften handelt, sind unsere Veranstaltungen i.d.R. fachübergreifend besuchbar. Insbesondere sind diese Veranstaltungen so konzipiert, dass die Teilnehmer immer mit der Sprache (sowie mit der historischen Sprachstufe) ihrer Wahl arbeiten können.
 

  • UE Einführung in die Programmierung für Sprach- und Geisteswissenschaftler (2 SWS, jedes Semester)

    Vermittelt Grundlagen der Programmierung mit Python und Jupyter Notebooks, zielt insbesondere darauf, die Voraussetzungen dafür zu schaffen, sich selbständig weiter zu qualifizieren.
  • VL+UE Projekt Computerlinguistik / Digital Humanities (4/2 SWS, Sommersemester)

    Die Teilnehmer erarbeiten in Kleingruppen an einem digitalen Projekt, das fallbezogen unterschiedliche Methoden der Datengewinnung (Crawling, Konvertierung, OCR), -aufbereitung, -annotation, digitalen Edition und/oder empirischen Untersuchung beinhaltet. Im SoSe 2026 sind ein Korpus von wissenschaftlicher Kommunikation (Briefe) aus dem Italien des 18.Jh., sowie ein linguistisch annotiertes Web-Korpus von modernen Nachrichtentexten entstanden.
  • Seminare, Übungen und Kolloquia zu wechselnden Themen (2 SWS, Wintersemester), meist im Team Teaching mit Kollegen aus den Geisteswissenschaften

    • WiSe 2024/2025: UE Digitale Edition (gemeinsam mit Prof. Dr. Steffen). Ergebnis ist die digitale Edition und die linguistische Annotation einer Enzyklopädie jesuitischer Texte aus dem Südamerika des 16.Jh., sowie deren Veröffentlichung über TEITOK.

    • WiSe 2025/2026: Kolloquium Digitale Edition (gemeinsam mit Prof. Dr. Klaus Wolf). Geplant ist derzeit v.a. Anwendung, Training und Evaluation von OCR-Software auf spätmittelalterliche Urkunden und/oder Inkubabeln, die methodische Reflexion der so gewonnenen Ergebnisse und die Vorbereitung einer digitalen Edition.

Daneben beinhalten unsere computerlinguistischen Veranstaltungen i.d.R. DH-Aspekte, etwa im Bereich der Verarbeitung von historischen und Low-Resource-Sprachen. Dies ist insbesondere fester Bestandteil unserer VL+UE Einführung in die Computerlinguistik (Wintersemester). In strukturierter Form bieten wir für Bachelor-Studierende derzeit nur einen "Wahlbereich Computerlinguistik für die Geisteswissenschaften" an.

Techniken & Tools

Für DH relevante Erfahrungen liegen v.a. in der digitalen Edition, der dafür notwendigen Datenaufbereitung (OCR, Konvertierung, TEI/XML), dem Einsatz von Wissensgraphen (RDF/LOD) und der Entwicklung und Anwendung sprachtechnologischer Lösungen auf historische und Low-Resource-Sprachen sowie im Einsatz von Verfahren des maschinellen Lernens. In der Lehre lehren wir regelmäßig folgende Technologien:
 

  • Python, Jupyter Notebooks
  • Docker, Shell-Programmierung mit Bash, reguläre Ausdrücke mit Perl
  • XML-Technologien (XPath)
  • RDF und SPARQL
  • digitale Edition mit TEITOK
  • Korpusauswertung mit CQP

Selbst entwickelte oder mit-entwickelte Software beinhaltet u.a.:
 

  • ANNIS (Korpusmanagementsystem mit SQL-Backend)
  • CQP4RDF (Korpusmanagementsystem mit RDF-Backend)
  • FINTAN (generelles Framework zur Konvertierung und Anreicherung von Daten aus Sprachwissenschaft und Sprachtechnologie)
  • Technologien zur Textzusammenfassung, Labelling- und Klassifikationsaufgaben und maschinellen Übersetzung

Wir besitzen umfassende Erfahrung in der Nutzung, der Nachnutzung und der Transformation nahezu beliebiger Formate der Sprachtechnologie und der Digital Humanities.

Ein Arbeitsschwerpunkt des Lehrstuhls und seiner Kooperationspartner liegt im Einsatz von Graphtechnologien und insbesondere Linked Data in Sprachtechnologie, Sprachwissenschaft und den Digital Humanities. Im Oktober 2024 haben wir hierzu einen Massive Open Online Course (MOOC) veröffentlicht, der frei besuchbar ist:
 

Ansprechpartner

Lehrstuhlinhaber
Angewandte Computerlinguistik
  • Telefon: 0821-598-5774
  • E-Mail:
  • Raum 4072 (Gebäude D)

Suche