Tobias Hallmen M.Sc.
Telefon: | +49 821 598 2322 |
Fax: | +49 821 598 2349 |
E-Mail: | tobias.hallmen@uni-auni-a.de () |
Raum: | 2016 (N) |
Sprechzeiten: | Nach Vereinbarung |
Adresse: | Universitätsstraße 6a, 86159 Augsburg |
Forschungsinteressen
Ich führe Gesprächsanalysen multimodal (Audio, Video, Text) mit Hilfe von Methoden aus dem Bereich des maschinellen Lernens und künstlicher Intelligenz (KI) durch. Dabei untersuche ich, ob und wie man mit diesen Methoden verschiedene Gesprächssituationen auswerten und bewerten kann.
Die Gespräche finden im Kontext von Psychotherapiesitzungen (Projekt TherapAI), Humanmediziner- und Lehrerausbildung (Projekt KodiLL) statt. Das Ziel ist es, Zusammenhänge zu finden und diese zu nutzen, um die Qualität dieser Gespräche messbar und (automatisiert) bewertbar zu machen, sowie langfristig zu verbessern. Dies kommt beiden Seiten zu Gute - den Therapeuten/Medizinern/Lehrern sowie den Patienten/Eltern.
So ist es denkbar, dass man gefundene Merkmale nutzt um bei Therapien zu intervenieren, oder in der Ausbildung KI-gestützte Rückmeldungen und Handlungsempfehlungen den Studenten gibt, um zukünftig bessere Gespräche zu führen.
Abschlussarbeiten
Hier sind Themen, die ich mir als Abschlussarbeit vorstelle. Bestenfalls werden die Ergebnisse als Modul für Nova implementiert - dadurch ist eine einfache Wiederverwendung gegeben, und man kann die unterschiedlichen Merkmale auf bestehenden Datensätzen einfach in Zusammenhang bringen und Auswerten. Gerne könnt ihr auch eigene thematisch passende Vorschläge einbringen:
-
Sprechereinteilung: Oftmals gibt es keine nach Sprecher getrennten Audioaufnahmen, oder falls doch, hört man auch die anderen Sprecher (leiser) in der eigenen Aufnahme. Dies verfälscht die Zuordnung von audiobasierten Merkmalen, z.B. die Transkription oder Emotionserkennung.
Bestehende Verfahren nutzen hier rein Audio - hier wäre es denkbar diese Modalität um Video oder Text oder andere abgeleiteten Merkmale (Gesichtspunkte) zu ergänzen und so die Sprechereinteilung zu verbessern. - Rezeptionssignale: Während jemand spricht, geben üblicherweise die Zuhörer Rezeptionssignale von sich (ja, mhm, Kopfnicken, usw.). Diese sind Hinweise, ob und wie sehr jemand am Gespräch beteiligt ist. Hier gilt es bestehende Methoden zu implementieren, zu verbessern, und zu evaluieren.
-
Fern-Photoplethysmographie: Üblicherweise tragen die gefilmten Personen keine Sensoren an sich, trotzdem wären einige Werte interessant, bspw. die "Manschettenfreie Blutdruckmessung" über Video um Herzrate und Variabilität zu ermitteln. Diese können Anzeichen für Aufgeregtheit im Gespräch und nützlich für Auswertungen sein.
-
Sprachmodelle als Experte: Können (kleine) Sprachmodelle aufwändige Annotations- und Beurteilungsarbeit Menschen abnehmen, oder mindestens unterstützen? Wegen sensibler Daten müssen diese Modelle lokal ausführbar sein, bestenfalls auf Endverbraucherhartware.
-
Sprachmodelle als Übungspartner: Sprachmodelle werden gerne zur synthetischen Datengenerierung genutzt. Kann man diese auch (lokal) als sinnvollen Übungspartner einsetzen um Elterngespräche auf verschiedenen Schwierigkeitsgraden zu üben?
Publikationsliste
2024 |
Tobias Hallmen, Silvan Mertes, Dominik Schiller and Elisabeth André. in press. An efficient multitask learning architecture for affective vocal burst analysis. preprint. DOI: 10.48550/arXiv.2209.13914 |
Dominik Schiller, Tobias Hallmen, Daksitha Withanage Don, Elisabeth André and Tobias Baur. in press. DISCOVER: a Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of human behaviour. preprint. DOI: 10.48550/arXiv.2407.13408 |
Moritz Bauermann, Kathrin Gietl, Tobias Hallmen and Karoline Hillesheim. 2024. Förderung der Beratungskompetenz von Studierenden durch simulierte Lernumgebungen und KI-basiertes Feedback: ein Verbundprojekt im Rahmen des interdisziplinären KodiLL Teilprojekts 4 [Poster]. In Forschungstag der Philospohisch-Soziologischen Fakultät, 17. April 2024, Universität Augsburg. Universität Augsburg, Augsburg |
Brian Schwartz, A. Vehlen, S. T. Eberhardt, Tobias Baur, Dominik Schiller, Tobias Hallmen, Elisabeth André and W. Lutz. in press. Going multimodal and multimethod using different data layers of video recordings to predict outcome in psychological therapy. Clinical Psychological Science (special issue on Multidisciplinary Clinical Psychological Science) . |
Moritz Bauermann, Kathrin Gietl, Tobias Hallmen and Karoline Hillesheim. 2024. KI in Beratungsgesprächen: Zukunft der Kommunikation [Abstract]. In Katrin Bauer (Ed.). Campus meets Castle: Vernetzt in die Zukunft durch kompetenzorientierte Lehre in den Fächern, Symposium des Verbundprojektes von PLP, Bayziel und VHB, 18.–20. März 2024, Bayreuth; ein kurzer Rückblick. Universität Augsburg, Augsburg, 13 |
Moritz Bauermann, Kathrin Gietl, Karoline Hillesheim, Tobias Hallmen and Andreas Hartinger. 2024. KI-basiertes Feedback für simulierte Elterngespräche: eine qualitative Analyse studentischer Wahrnehmung und Gestaltungsperspektiven – KI-WaGen [Abstract]. In Krisen und Transformationen: 29. DGfE-Kongress 2024, 10. bis 13. März 2024, Halle (Saale). |
Moritz Bauermann, Ann-Kathrin Schindler, Tobias Hallmen, Miriam Kunz, Elisabeth André and Thomas Rotthoff. 2024. Studienprotokoll: "AI Effect – Untersuchung der lernwirksamen Annahme von KI-generierten und durch Avatare vermittelten Feedback und Feedforward zur ärztlichen Kommunikation bei Medizinstudierenden in einer Simulationsumgebung" [Abstract]. In Raphaël Bonvin (Ed.). "Über Lernen, Lehren und Prüfen hinaus... der Mensch!": Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA), 05.-09.08.2024, Freiburg, Schweiz; Abstractband. Gesellschaft für Medizinische Ausbildung (GMA), Erlangen, 115-117 |
Daksitha Senel Withanage Don, Dominik Schiller, Tobias Hallmen, Silvan Mertes, Tobias Baur, Florian Lingenfelser, Mitho Müller, Lea Kaubisch, Corinna Reck and Elisabeth André. 2024. Towards automated annotation of infant-caregiver engagement phases with multimodal foundation models. In ICMI '24: International Conference on Multimodel Interaction, San Jose, Costa Rica, November 4-8, 2024. ACM, New York, NY, 428-438 DOI: 10.1145/3678957.3685704 |
Tobias Hallmen, Fabian Deuser, Norbert Oswald and Elisabeth André. 2024. Unimodal multi-task fusion for emotional mimicry intensity prediction. In 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 17-18 June 2024, Seattle, WA, USA. IEEE, Piscataway, NJ, 4657-4665 DOI: 10.1109/cvprw63382.2024.00468 |
Antonia Vehlen, Steffen Eberhardt, Brian Schwartz, Tobias Baur, Dominik Schiller, Tobias Hallmen, Elisabeth André and Wolfgang Lutz. 2024. Verstehst du mich? Die Qualität automatischer Transkriptionen von Therapievideos im Kontext von Emotionsanalysen [Abstract]. In Ulrich Ansorge, Daniel Gugerell, Ulrich Pomper, Bence Szaszkó, Lena Werner (Eds.). 53rd DGPs Congress / 15th ÖGP Conference, September 16-19, 2024, Vienna, Austria: abstracts. Universität Wien, Wien, 740-741 |
2023 |
Tobias Hallmen, Silvan Mertes, Dominik Schiller, Florian Lingenfelser and Elisabeth André. 2023. Phoneme-based multi-task assessment of affective vocal bursts. In Donatello Conte, Ana Fred, Oleg Gusikhin, Carlo Sansone (Eds.). Deep Learning Theory and Applications: 4th International Conference, DeLTA 2023, Rome, Italy, July 13–14, 2023, proceedings. Springer Nature, Cham, 209-222 DOI: 10.1007/978-3-031-39059-3_14 |
Pia Schneider, Philipp Reicherts, Gulia Zerbini, Tobias Hallmen, Elisabeth André, Thomas Rotthoff and Miriam Kunz. 2023. Smiling doctor, happy patient: the role of facial expressions in patient-doctor communication [Abstract]. In Jan Born, Max Harkotte, Lisa Bastian, Julia Fechner (Eds.). 48. Annual Conference Psychologie und Gehirn, 08.06.2023-10.06.2023, Tübingen: abstract booklet. Eberhard Karls Universität Tübingen, Tübingen, 273 |