Sprachtechnologie in den Digital Humanities

University of Zurich via Coursera

Go to Course: https://www.coursera.org/learn/digital-humanities

Introduction

**Course Review and Recommendation: Sprachtechnologie in den Digital Humanities** **Overview** If you are curious about the intersection of language technology and the Digital Humanities, then "Sprachtechnologie in den Digital Humanities" is a course you won’t want to miss. This course explores how language technology can enhance our understanding and analysis of digital texts. It covers a diverse range of topics, including text digitization, corpus creation, and multilingual text analysis. However, potential participants should note that the last enrollment for this foundational course will take place on May 20, 2019, after which it will be paused on Coursera. Despite the course’s pause on the platform, the valuable content remains accessible through their YouTube channel, making it still a worthwhile endeavor. **Course Structure** The course is structured into six comprehensive modules, each delving into key aspects of language technology: 1. **Week 1: Wege in die digitale Welt** The first week sets the stage by discussing text digitization methods, such as XML representation and Optical Character Recognition (OCR). You will also engage with corpus creation, tackling potential challenges along the way. 2. **Week 2: Strukturierte und nachhaltige Repräsentation von Korpusdaten** This week emphasizes structured representation, introducing XML markup and important standards for text representation. The session concludes with automatic text segmentation techniques, equipping learners with necessary analytical skills. 3. **Week 3: Eigenschaften von Korpora und grundlegende Analysemethoden** Module three focuses on the essential properties of corpora and fundamental analysis methods in corpus linguistics, including concepts like word frequencies and collocations. Additionally, you’ll be introduced to visual representations of text properties, enhancing your analytical toolkit. 4. **Week 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen** Diving deeper, the fourth week covers automatic corpus annotation with linguistic data such as Part-Of-Speech tags and the challenges that come with it. The processes of named entity recognition and text syntax analysis are also discussed, adding a layer of practical application. 5. **Week 5: Manuelle Annotation und Evaluation von Korpusdaten** This module is dedicated to the exploration of manual annotation methods and how they can coexist with automatic annotations through machine learning. It also addresses the quality assessment of annotations, alongside the innovative concept of crowdsourcing in data collection and correction. 6. **Week 6: Herausforderungen der Multilingualen Textanalyse** In the final week, you will explore the intricacies of multilingual text analysis, including automatic language identification and alignment between texts in different languages. This module is essential for anyone working in our increasingly multilingual world. **Recommendation** I highly recommend "Sprachtechnologie in den Digital Humanities" for both beginners and seasoned professionals interested in the Digital Humanities and language technology. The course offers deep insights into practical applications of language technology tools and their impact on research and analysis. The accessible format and diverse topics make it engaging and educational. The video content remains available for viewing, so even those who cannot enroll can still benefit from the rich visual and auditory resources provided through the university’s YouTube channels. Overall, this course is a valuable investment in your digital skills, particularly for those engaged in linguistics, computer science, or the Digital Humanities. Whether you are aiming to enhance your career or simply expand your knowledge, "Sprachtechnologie in den Digital Humanities" is a treasure trove of information waiting to be explored!

Syllabus

Woche 1 - Wege in die digitale Welt

In der ersten Woche werden wir darüber sprechen, wie Texte digitalisiert und zum Beispiel in XML dargestellt werden können und was OCR (optical character recognition) für die Anwendung in der Praxis bedeutet. Wir befassen uns außerdem mit der Erstellung von Korpora und den Schwierigkeiten, denen wir dabei begegnen können. Viel Spaß!

Woche 2 - Strukturierte und nachhaltige Repräsentation von Korpusdaten

In der zweiten Woche beschäftigen wir uns mit der strukturierten und nachhaltigen Repräsentation von Korpusdaten. Wir werden über die Markup Language XML sprechen und einige wichtige Standards zur Textrepräsentation kennenlernen. In der zweiten Hälfte dieses Moduls geht es anschließend um das Thema der automatischen Text- und Wortsegmentierung. Viel Spaß mit den Videos!

Woche 3 - Eigenschaften von Korpora und grundlegende Analysemethoden

In der dritten Woche geht es um die wichtigsten Eigenschaften von Korpora, um grundlegende Analysemethoden in der Korpuslinguistik und Grundbegriffe wie Worthäufigkeiten, Kollokationen, N-Gramme. Im letzten Teil wird Ihnen Noah Bubenhofer noch einen Ausblick auf die visuelle und graphische Darstellung von Texteigenschaften geben. Viel Spaß!

Woche 4 - Automatische Korpusannotation mit computerlinguistischen Werkzeugen

In diesem Modul geht es um die automatische Korpus-Annotation mit linguistischen Informationen wie Part-Of-Speech-Tags (Wortarten) und Lemmas (Grundformen), aber auch um die Schwierigkeiten, die eine solche automatische Annotation mit sich bringen kann. Wir werden besprechen, wie die automatische Erkennung von Eigennamen oder geographischen Namen (Named Entities) abläuft und im dritten Teil noch auf die automatische Syntax-Analyse von Texten eingehen. Viel Spaß!

Woche 5 - Manuelle Annotation und Evaluation von Korpusdaten

In Modul 5 beschäftigen wir uns mit der Frage, wie eine möglichst ökonomische Annotation aussehen kann und wie sich manuelle und automatische Annotation mit Hilfe von maschinellem Lernen ergänzen können. Wir besprechen außerdem, wie wir die Qualität bzw. die Genauigkeit der Annotation gewährleisten und evaluieren können. Im zweiten Teil geht es dann um das sogenannte "Crowdsourcing", wo über Online-Plattformen Daten für diverse Projekte gesammelt bzw. korrigiert werden. Viel Spaß in der vorletzten Woche!

Woche 6 - Herausforderungen der Multilingualen Textanalyse

Im letzten Modul befassen wir uns mit multilingualen bzw. parallelen Korpora. Im ersten Teil geht es um die automatische Sprach-Identifikation in gemischtsprachlichen Korpora, die einen wichtigen Schritt bei der Verarbeitung der Texte darstellt. Im zweiten Teil geht es um die automatische Satz- bzw. Wortalignierung zwischen parallelen Texten in unterschiedlichen Sprachen. Viel Spaß in der letzten Woche!

Overview

AKTUELL: Am 20.05.2019 startet die vorläufig letzte Runde des MOOCs "Sprachtechnologie in den Digital Humanities". Anschliessend wird der Kurs auf der Plattform Coursera pausiert, d.h. Einschreibungen in den Kurs werden ab diesem Datum nicht mehr möglich sein. Die Videos bleiben aber nach wie vor über unseren YouTube-Kanal (https://www.youtube.com/channel/UChb3Rd5vo3WEgMSy99VInaw) bzw. den SwitchTube-Kanal der Uni Zürich (https://tube.switch.ch/channels/bb3adc02) sichtbar. Die Pausierung dient p

Skills

Digital Preservation Corpora Parsing Named-Entity Recognition Natural Language Processing

Reviews

Sehr gut strukturierter Kurs! Man lernt viele aktuelle Methoden, Begriffe und Tools kennen, die man in dne unterschiedlichsten Projekten anwenden kann! Ein zeitnaher Kurs zu einem spannenden Thema!