• DE
Logogenerator (Bildmarke 32 mm): Clan OT Bold, 25 pt, LW 20,ZAB 32,2 ptClan OT News, 14 pt, LW 19, ZAB 36,4 pt Staatsbibliothekzu BerlinPreußischer Kulturbesitz Staatsbibliothekzu BerlinPreußischer Kulturbesitz Ausgleich der Außenkonturen: Produktlogo
  • HOME
  • DATEN
  • DEMOS
  • EVENTS
  • Click to open the search input field Click to open the search input field Suche
  • Menü Menü

Text Mining mit R

Toxizitätserkennung in historischen Drucken der Staatsbibliothek zu Berlin

Kulturerbe-Einrichtungen verfügen über umfangreiche Sammlungen, die oft über lange Zeiträume hinweg zusammengetragen wurden. Die Sammlungen spiegeln daher die kulturellen und gesellschaftlichen Normen der jeweiligen Zeit wider. Infolgedessen können sie Begriffe enthalten, die in unserer gegenwärtigen Gesellschaft als unangemessen wahrgenommen werden. Zugleich macht es der Umfang des digitalisierten Materials schwierig, problematische Begriffe zu erforschen und zu kontextualisieren. Dieser Workshop nimmt das Problem einer veralteten Sprache und der Verwendung toxischer Begrifflichkeit in den digitalisierten Sammlungen der Staatsbibliothek zu Berlin in den Blick. Mit Hilfe von Methoden der Digital Humanities führen Teilnehmende maschinelle Auswertungen eines kleinen Textkorpus (20-30 Texte) durch. Basale Text Mining-Verfahren wie wordfrequency und word clouds, tf-id, Bi- und Trigramme (n-Gramme) sowie die Berechnung von Wortassoziationen werden vorgestellt. Die Teilnehmenden lernen grundlegende Text Mining-Verfahren mit Hilfe des statistischen Softwarepakets R kennen und werden dazu befähigt, eine quantifizierende Auswertung von Texten in R vorzunehmen. Als Beispiele dienen Volltexte aus den digitalisierten Sammlungen der Staatsbibliothek zu Berlin, die rassistische, diskriminierende oder homophobe Begriffe enthalten, also abwertende Wörter und Ausdrücke, die nicht mit den Werten und der Ethik einer Kulturerbe-Einrichtung wie der Staatsbibliothek zu Berlin in Einklang stehen.

Termin: 21.09.2023, 10-16 Uhr

Ort: Staatsbibliothek zu Berlin, Unter den Linden 8, 10117 Berlin

Ansprechpartner: Dr. Jörg Lehmann

Sind Sie daran interessiert, an diesem Workshop teilzunehmen? Dann füllen Sie bitte dieses Formular aus.

Kontaktformular

Hinweise zur Datenverarbeitung bei Veranstaltungen | Allgemeine Hinweise zum Datenschutz

  • Critical Library Perspectives (2022)
  • Faithful Transcriptions (2021)
  • Frauen* im Fokus (2023/24)
  • Julie Elias (2022/23)
  • Stabi Lab Forum
  • Text Mining mit R
  • Stabi Tool Tuesday
  • Stabi Tool Tuesday (Season 2)

  • Kontakt

Schlagwörter

19. Jahrhundert (13) 20. Jahrhundert (15) Datenset (12) Demo (12) Event (12) Faithful Transcriptions (15) Hackathon (15) Handschrift (22) Mittelalter (21) Transkribathon (15)
Alle Schlagwörter

Soziale Netzwerke der Staatsbibliothek

Folgen auf Mastodon Folgenauf X Abonniereden RSS Feed
© Copyright - Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
  • Logo der Staatsbibliothek zu Berlin Das Logo zeigt einen Adler in einem Quadrat und den Schriftzug Staatsbibliothek zu Berlin Preußischer Kulturbesitz.
  • KONTAKT
  • IMPRESSUM
  • DATENSCHUTZERKLÄRUNG
  • BARRIEREFREIHEIT
  • BARRIERE MELDEN
Nach oben scrollen Nach oben scrollen Nach oben scrollen