datenleben   /     dl048: vesuv challenge

Description

Vor fast 2000 Jahren wurde eine antike Bibliothek bei einem Vulkanausbruch versch├╝ttet -- und jetzt ist es vorstellbar, dass die damals besch├Ądigten Schriftrollen trotz ihres Zustandes gelesen werden k├Ânnen. Wir besch├Ąftigen uns mit der Vesuv Challenge, einem Wettbewerb, der 2023 dazu aufgerufen hat mit Machine Learning Methoden die Texte wieder lesbar zu machen. Welche Voraussetzungen braucht es, damit derart besch├Ądigte Papyri mit digitalen Methoden erschlossen werden k├Ânnen? Welche Machine Learning Methoden k├Ânnen eingesetzt werden? Und gleichzeitig ist auch die Frage: Was werden wir zu lesen bekommen?

Subtitle
Wie werden 2000 Jahre alte Texte wieder lesbar?
Duration
00:46:58
Publishing date
2024-03-30 11:00
Link
https://www.datenleben.de/index.php/2024/03/30/dl048-vesuv-challenge/
Deep link
https://www.datenleben.de/index.php/2024/03/30/dl048-vesuv-challenge/#
Contributors
  datenleben
author  
Enclosures
https://www.datenleben.de/podlove/file/172/s/feed/c/mp3/DL048-vesuv-challenge.mp3
audio/mpeg

Shownotes

Vor fast 2000 Jahren wurde eine antike Bibliothek bei einem Vulkanausbruch versch├╝ttet -- und jetzt ist es vorstellbar, dass die damals besch├Ądigten Schriftrollen trotz ihres Zustandes gelesen werden k├Ânnen. Wir besch├Ąftigen uns mit der Vesuv Challenge, einem Wettbewerb, der 2023 dazu aufgerufen hat mit Machine Learning Methoden die Texte wieder lesbar zu machen. Welche Voraussetzungen braucht es, damit derart besch├Ądigte Papyri mit digitalen Methoden erschlossen werden k├Ânnen? Welche Machine Learning Methoden k├Ânnen eingesetzt werden? Und gleichzeitig ist auch die Frage: Was werden wir zu lesen bekommen?

Links und Quellen

Schlagworte zur Folge

Machine Learning, Vesuv, Herkulaneum, Forschung, Kultur

Intro (00:00:00)

Thema des Podcasts (00:00:18)

Helena: Willkommen zur 48. Folge beim Datenleben Podcast, dem Podcast ├╝ber Data Science. Wir sind Helena

Janine: und Janine

Helena: und m├Âchten euch mitnehmen in die Welt der Daten. Was ist Data Science? Was bedeuten Daten f├╝r unser Leben? Woher kommen sie und wozu werden sie benutzt? Das sind Fragen, mit denen wir uns in diesem Podcast auseinandersetzen. Dabei gehen wir Themen nach, die uns alle und die Welt, in der wir leben, betreffen.

Thema der Folge (00:00:41)

Janine: Und wie in der letzten Folge schon angek├╝ndigt, haben wir mal wieder ein Thema auf dem Tisch, bei dem es auch um Machine Learning geht, aber es geht auch um Schriftrollen, die fast 2000 Jahre alt sind. Wir gucken uns n├Ąmlich heute an, was die Vesuv-Challenge ist, beziehungsweise Vesuvius Challenge auf Englisch, die erstmals 2023 ausgerufen wurde und vor allem, was da genau passiert, gemacht wurde. Im Einspieler gibt es gleich ein bisschen Hintergrundgeschichte zu den Schriftrollen, um die es geht, wie sie verloren gingen und auch wiedergefunden wurden. Und ja, danach befassen wir uns kurz damit, was dazu gef├╝hrt hat, dass es jetzt m├Âglich ist, mit diesen zerbrechlichen Objekten aus Herkulaneum zu arbeiten. Und Helena erz├Ąhlt dann etwas dazu, welche technischen Verfahren und Machine Learning Methoden hier eingesetzt wurden, um die Schriftrollen eben lesbar machen zu k├Ânnen, ohne sie zu zerst├Âren. Und gegen Ende reden wir dann nochmal dar├╝ber, was bisher so gefunden werden konnte und vor allem, wie es auch weitergeht mit dieser Challenge, denn die gibt es auch dieses Jahr.

Warum ist das Thema interessant? (00:01:49)

Helena: Ja, und wir fanden das Thema interessant, einfach weil hier Methoden aus dem Data Science Bereich mal mit einem v├Âllig anderen Thema oder Gebiet verbunden werden, n├Ąmlich mit der Arch├Ąologie und dadurch Dinge m├Âglich sind, die vorher nicht m├Âglich waren. Insbesondere erm├Âglicht das Machine Learning hier, dass man sich Dinge angucken kann, ohne sie dabei zu zerst├Âren. Ja, und ehe wir dann in die technischen Details kommen, nochmal was zum historischen Hintergrund im Einspieler.

Einspieler: Die Geschichte der Schriftrollen aus Herkulaneum (00:02:19)

Janine: Die Geschichte der Schriftrollen aus Herkulaneum. Es ist das Jahr 79 nach unserer Zeitrechnung, also vor fast 2000 Jahren. Wir blicken auf den Golf von Neapel an der italienischen K├╝ste. Es muss Ende Sommer oder Anfang Herbst sein, etwa zur Mittagszeit, als der gro├če aktive Vulkan, den wir als Vesuv kennen, dem Druck des Erdinneren nachgibt. Eine gewaltige Eruption bricht sich Bahn, sprengt die Spitze des Vulkans und es entsteht eine ├╝ber Stunden immer weiter aufsteigende Eruptionss├Ąule. Ihre Hitze betr├Ągt ├╝ber 700 Grad Celsius. Nach und nach geht in der Umgebung vulkanisches Material nieder, feiner Aschestaub und schwere Gesteinsbrocken, Magma und hei├čer Wasserdampf. Zuerst wurden die St├Ądte in Windrichtung getroffen, Pompeji, Oplontis und Stabiae. Die Eruption wird ├╝ber Stunden immer wieder von Explosionen begleitet, bis schlie├člich gegen Mitternacht die Eruptionss├Ąule zusammenbricht. In der Folge gibt es mehrere pyroklastische Str├Âme, die die Ortschaften, auch Herkulaneum, trafen. Die St├Ądte und bis zu 5000 Bewohner*innen, die bis zu diesem Zeitpunkt nicht geflohen waren oder fliehen konnten, wurden von einer bis zu 20 Meter dicken Schicht von Vulkanmasse begraben. Der r├Âmische Schriftsteller Plinius der J├╝ngere war Zeuge dieser Katastrophe und berichtete ausf├╝hrlich ├╝ber die Ereignisse. Mit der Zeit entstanden neue Siedlungen und Ortschaften auf der verfestigten Oberfl├Ąche der vergangenen Katastrophe. Anfang des 18. Jahrhunderts wurden dann beim Anlegen eines Brunnens Reste eines Theaters aus Herkulaneum entdeckt, Ausgrabungen wurden vorangetrieben und schlie├člich wurde 1750 durch einen weiteren Brunnenbau eine prunkvolle Villa entdeckt, in deren Inneren eine Bibliothek gefunden wurde. Etwa 1800 Papyrusrollen, die herkulanischen Papyri, konnten geborgen werden und geben der Villa heute den Namen Villa dei Papyri. Sie haben viele Jahrhunderte ├╝berdauert, einerseits durch das umgebende Vulkanmaterial konserviert, andererseits durch Hitze und Asche zusammengepresst und br├╝chig zur├╝ckgelassen. Die Rollen haben sich verformt, zusammengezogen und durch die Hitze alle Flexibilit├Ąt verloren, kurzum, sie sind verkohlt, aber immer noch vollst├Ąndig. Erste Versuche, sie zu entrollen und zu entziffern, f├╝hrten dazu, dass die entsprechenden Rollen zerst├Ârt wurden. Es wurden zwar bessere Methoden entwickelt, aber es gelang nicht, die Papyri nicht zu besch├Ądigen. Unter den Fragmenten der ge├Âffneten Rollen wurden Texte von Epikur oder Philodemus von Gadara entdeckt, die aus dem 3. bis 1. Jahrhundert vor unserer Zeitrechnung stammen. Und es k├Ânnten weitere ber├╝hmte und vielleicht verloren geglaubte Texte in dieser Bibliothek enthalten sein oder sogar noch weiterhin vergraben in den noch nicht erkundeten Bereichen der Villa. Es wurde aber schlie├člich entschieden, die Schriftrollen ruhen zu lassen, bis es eine M├Âglichkeit g├Ąbe, sie zu entziffern, ohne sie zu zerst├Âren. Und diese Zeit beginnt jetzt, denn in den letzten Jahrzehnten wurden sowohl wissenschaftliche als auch technische Fortschritte erzielt, womit neue Verfahren m├Âglich sind, die eingesetzt werden k├Ânnen, ohne die Schriftrollen drastisch zu gef├Ąhrden. Es wird mit Spannung erwartet, wann die Texte wirklich wieder lesbar sind, erstmals in diesen Fassungen seit fast 2000 Jahren, und noch mehr, was in dieser Sammlung alles zu Tage kommen wird.

Warum werden wir die Schriftrollen vermutlich lesen k├Ânnen? (00:05:42)

Helena: Ja, die Schriftrollen. Also im Prinzip kann man sich das ja so naiv vorstellen wie ein aufgerolltes Blatt Papier. Nur eben v├Âllig verkohlt. Also bei den Schriftrollen, um die es jetzt hier im Wesentlichen geht. Also im Prinzip kann man sich das ein bisschen so vorstellen, wie wenn man eine ganze Zeitung ins Feuer wirft und die nicht komplett verbrennt, aber verkohlt. Ich wei├č nicht, vielleicht haben das einige Leute ja schon mal gesehen. Teilweise ist es dann sogar m├Âglich, ja in der Asche noch die Schrift zu lesen, aber sobald man es ber├╝hrt, zerf├Ąhrt alles zu Staub. Und es ist nicht ganz so schlimm, so wie ich das verstanden habe, mit diesen Schriftrollen, dass die sofort zu Staub zerfallen. Aber nennenswert besser ist die Situation auch nicht.

Janine: Ja, genau. Es gibt einen Grund, warum sie nicht vollst├Ąndig vernichtet wurden, weil, wie Helena gerade meinte, wenn man eine Zeitung aufgerollt ins Feuer wirft, die w├╝rde ja eigentlich anfangen zu brennen und dann eben sehr schnell komplett in Asche zerfallen irgendwann. Und die Schriftrollen in Herkulaneum, denen ist das eben nicht passiert, weil da verschiedene Faktoren zusammenkamen. Es ist n├Ąmlich so, dass zum einen, anders als in Pompeji, die andere Stadt, die bei diesem Vulkanausbruch vollst├Ąndig zerst├Ârt und in Ruinen hinterlassen wurde und unter Asche begraben wurde, sind in Herkulaneum die H├Ąuser nicht eingest├╝rzt, ehe Vulkanmasse dort ankam, weil gar nicht so viel Asche auf die H├Ąuser im Vorfeld gefallen ist. Das hei├čt, die H├Ąuser waren an sich intakt. Und dann ist folgendes passiert, n├Ąmlich der pyroklastische Strom, wie es so sch├Ân hei├čt, aus diesem ganzen Vulkanmaterial, hat die Stadt erst mal relativ flach getroffen. Der war nicht sehr hoch, es war nicht sehr viel Masse und dabei wurden die Geb├Ąude gewisserma├čen erst mal verf├╝llt. Und zerst├Ârt wurde deswegen nicht viel, weil man sich das, glaube ich, so vorstellen kann, der pyroklastische Strom hat eine derartige Hitze, ich glaube, es sind ├╝ber 300 Grad, dass die Ber├╝hrung mit dem Material das Material dann halt gar nicht erst Feuer f├Ąngt, sondern aufgrund der Hitze das Wasser aus dem Material, aus allem Organischen, so schnell entzogen wird, dass es halt direkt verkohlt und gar nicht beginnt zu brennen. Dadurch, dass es nicht brennt, direkt verkohlt wurde und dann sofort auch umschlossen wurde von der Masse, luftdicht versiegelt wurde gewisserma├čen, sind diese Rollen in ihrem Zustand so erhalten geblieben. Sie wurden dabei nat├╝rlich deformiert, so ein bisschen zusammengeschrumpft, verschoben, zusammengeknautscht. Die sehen nicht mehr so aus wie vorher und eben, sie sind auch komplett geschw├Ąrzt, karbonisiert, wie es auch hei├čt. Und erst im weiteren Verlauf des Vulkanausbruchs kamen dann weitere dieser pyroklastischen Str├Âme, die dann schlie├člich den Rest der Stadt auch verf├╝llt und ├╝berdeckt haben, sodass sie ja bis zu 20 Meter im Untergrund lag, nachdem dieser Vulkanausbruch, diese Katastrophe, vorbei war. Genau, und irgendwann hat man sie ja halt gefunden und man wollte wissen, was da drin steht und sie sind eben sehr oft zerfallen. Es gibt Schriftrollen in unterschiedlichen Erhaltungsgraden, manche sind zerbrechlicher, andere vielleicht ein bisschen geeigneter. Es wurde vieles versucht fr├╝her, unter anderem sie zu entrollen, also aufzurollen und anzusehen. Und auch dabei ist halt, weil die Flexibilit├Ąt nicht mehr im Material drin ist, durch den Entzug des Wassers, sind sie dann eben in der Regel auch zerbr├Âckelt. Man hat aber damals im 18. Jahrhundert durchaus ein paar Fragmente finden und auch lesen k├Ânnen und ├╝bersetzen k├Ânnen. Wo eben der Erhalt es hergegeben hat. Naja, aber der Rest ist in diesem Zustand, den man eigentlich nicht ├Ąndern kann. Und jetzt ist es gelungen, in sie hineinzusehen, ohne sie ├╝berhaupt zu ├Âffnen. Und ja, wie kam es denn dazu?

Helena: Ja, also der erste Schritt, der n├Âtig war, um jetzt da reingucken zu k├Ânnen, war die Entwicklung der R├Ântgenstrahlung Ende des 19. Jahrhunderts. Und R├Ântgenstrahlung kennen sicherlich die meisten. Ja, da kann man in Menschen reingucken. Gut, Menschen sind ein bisschen gr├Â├čer als so ein paar Schriftzeichen, das hei├čt, das ging dann damals schon sehr gut. Ja, ich komme sp├Ąter nochmal darauf, was genau jetzt verbessert wurde, damit das eben auch einsetzbar ist, diese Technik, die hier kam. Aber man hat ├Ąhnliche Verfahren durchaus auch zum Beispiel schon bei Pyramiden in den 80er Jahren verwendet, um zu gucken, ob da noch irgendwelche Geheimg├Ąnge drin sind, und ohne dass man immer alles wieder aufmachen muss. Also die Idee, dass man bildgebende Verfahren, die man woanders schon kannte, in der Arch├Ąologie einsetzt, ist jetzt auch nicht unbedingt neu. Aber eben das Ganze an diesen Schriftrollen zu machen, ist jetzt noch eine recht neue Entwicklung. Ja, zun├Ąchst einmal wurde das Ganze schon von einigen italienischen Forschern ausprobiert vor ein paar Jahren. Die haben durchaus Messungen gemacht, wo man einzelne W├Ârter erahnen konnte bei, aber daraus folgte noch nicht, dass man pl├Âtzlich die ganzen Schriftrollen lesen konnte. Es gab dann auch einen anderen Wissenschaftler aus UK, der auch an diesem Thema gearbeitet hatte. Der hatte dann aber zwischendurch noch eine andere Schriftrolle in die Finger gekriegt, n├Ąmlich aus Israel, die nicht auf dieselbe Weise verkohlt war oder aus anderen Materialien bestand, weshalb man das dann pl├Âtzlich lesen konnte. Ich werde da gleich auch noch mal drauf eingehen, wo genau der Unterschied ist zu den jetzigen Schriftrollen aus Herkulaneum. Ja, aber dadurch, dass dieser Wissenschaftler eben eine andere Schriftrolle zeigen konnte, dass er in der Lage ist, die zu vermessen und dann lesbar zu machen, wurden ihm dann tats├Ąchlich auch einzelne der Herkulaneum-Schriftrollen zur Verf├╝gung gestellt und die wurden dann 2019 gescannt. Und auf Basis dieser Scans fand jetzt im letzten Jahr die Vesuv-Challenge statt.

Was ist die Vesuv Challenge? (00:12:01)

Janine: Genau. Es sind vier Schriftrollen, meine ich, die da gescannt wurden und die Daten werden Forschenden bereitgestellt, um daran zu arbeiten und Verfahren zu entwickeln, die Schrift lesbar zu machen. Damit das ├╝berhaupt m├Âglich ist, wurden Preisgelder gesammelt und zwar f├╝r die Challenge 2023 kamen ├╝ber eine Million Dollar zusammen, die dann ausgeschrieben wurden in verschiedenen kleinen Abschnitten. Es war sozusagen ein gestaffelter Preis, der mit ersten Findings anfing, erste Ergebnisse, auf denen dann immer weiter aufgebaut werden konnte, sodass dann die Preisgelder gegen Ende immer etwas h├Âher wurden. Und diesem Aufruf zur Challenge sind tats├Ąchlich viele Menschen und Teams gefolgt und da hat sich eine ganze Community gebildet, um gemeinsam daran zu arbeiten oder auch gegeneinander daran zu arbeiten, denn es ist auch eine Form von Wettbewerb. Ja, und dabei wurden dann verschiedene Ans├Ątze und Ideen eingebracht und vor allem auch aus verschiedenen Bereichen Menschen, die sich mit den unterschiedlichen Problemen befassen, die bei dieser Arbeit ├╝berhaupt anstehen. Zum Beispiel ein erster Preis, der ausgegeben wurde, wurde f├╝r First Ink ausgegeben, also das Erkennen, wo Tinte auf dem verbrannten Papyrus ist, oder auch First Letters, also die ersten lesbaren Buchstaben oder auch erste lesbare Worte dann ├╝berhaupt zu erkennen. Und ja, das wurde dann ├╝ber das Jahr immer ausgeweitet und das Hauptziel des Preises, der Grand Prize, war vier Passagen von 140 Schriftzeichen, jeweils mit Minimum 85 Prozent von erkennbaren Buchstaben.

Helena: 140 Zeichen klingt so, als w├Ąre das so eine Oldschool Twitter Nachricht, alter Twitter Thread, den man da recoveren wollte.

Janine: Ja, also ich glaube, es h├Ąngt damit zusammen, dass diese Schriftrollen meistens in so Spalten beschrieben sind und da nat├╝rlich auch nur eine bestimmte Anzahl von Zeichen reinpasst, weil die in der Regel irgendwie eine ├Ąhnliche Laufweite haben. Naja, am Ende jedenfalls, Ende 2023, konnte sogar angek├╝ndigt werden, dass das Ziel ├╝bertroffen wurde. Es wurden statt vier sogar 15 Textbl├Âcke mit mehr als 2000 lesbaren Buchstaben eingereicht am Ende, woraufhin auch daf├╝r dann der Grand Prize vergeben wurde. Die spannende Frage, die wir uns aber auch gestellt hatten jetzt, war, welche Methoden wurden dabei entwickelt oder verfeinert und welche Herausforderungen hatten die Forschenden dabei zu ├╝berwinden?

Was sind die Herausforderungen und Methoden? (00:14:38)

Helena: Ja, und da fange ich mal an mit der ersten Methode, die erstmal ├╝berhaupt die komplette Basis daf├╝r ist, auch bekannt als CT. Und zwar ist das eine Form der R├Ântgentomographie, n├Ąmlich die Computertomographie, bei der man eben die R├Ântgenstrahlung mit dem Computer misst und dann ganz viele Bilder hat. Also Tomographie selber bedeutet im Wesentlichen, dass man ganz viele Bilder macht, etwas in ganz viele einzelne Bilder, die dann einzelne Scheiben quasi von dem Objekt, was man sich angucken will, darstellen sollen. Und dann kann man aus diesen einzelnen Scheiben hinterher ein komplettes, dreidimensionales Bild zusammensetzen.

Janine: Das ist ein bisschen wie aus dem 3D-Drucker, der mit Fl├╝ssigresin arbeitet. Da werden ja auch immer Scheiben auf Scheiben gesetzt und am Ende hast du das Objekt.

Helena: Genau, nur eben andersrum.

Janine: Ja.

Helena: Gut, ich meine, solche CTs gibt es nat├╝rlich in vielen Krankenh├Ąusern. Die sind allerdings jetzt nicht geeignet f├╝r diese Art von Messung, weil man ja mit relativ kleinen Schriftzeichen es zu tun hat, die man irgendwie erkennen will. Man m├Âchte ja f├╝r jedes Schriftzeichen auch eine nennenswerte Anzahl an Pixeln zur Verf├╝gung haben. Ja, um das besonders gut zu messen, hat man deswegen Teilchenbeschleuniger genutzt. Und zwar gibt es relativ viele Teilchenbeschleuniger, deren Zweck es ist, im Prinzip bestimmte Formen von R├Ântgenstrahlung, sogenannte Synchrotonstrahlung, zu emittieren, um eben verschiedenste Messungen damit zu machen. Also das ist dann nicht so, dass man einfach nur ins n├Ąchste Krankenhaus f├Ąhrt und die Schriftrollen da reinlegt, sondern man muss zu dem n├Ąchsten Teilchenbeschleuniger fahren. Aber es gibt irgendwie so 50 oder so auf der Welt, die dazu geeignet w├Ąren. Also das ist ein sehr Standardinstrument in verschiedenen Forschungsbereichen inzwischen. Und das Ganze haben die dann eben Mini-CT genannt, damit man kleine, also eine sehr gro├če Aufl├Âsung hat. Gut, man hat also ein 3D-Bild, was dann eben aus Scheiben aufgebaut ist. Auf der Webseite von der Vesuv Challenge gibt es eine ganz sch├Âne Animation dazu, wie man sich das auch vorstellen kann, au├čer beim 3D-Drucker. Und zwar haben die da einen Teig genommen und auf diesem Teig mit einem anderen Teig in einer anderen Farbe einen Buchstaben drauf gemalt und das Ganze dann aufgerollt. Und das, was das CT dann im Wesentlichen macht, ist, es nimmt immer eine Scheibe davon, die wird abgeschnitten und dann kann man ein Foto davon machen. Und das sind dann die Fotos, die man letztlich hat zur Verf├╝gung. F├╝r einige der Themen, die wir heute besprechen, empfehle ich auf jeden Fall, dass man sich die Webseite mal anguckt. Da sind richtig sch├Âne Animationen drauf. Gut, das hei├čt, man hat jetzt erstmal ein 3D-Bild. Und bei einem 3D-Bild gibt es dann auch so etwas wie Pixel, die nennt man in 3D dann allerdings "Voxel". Und die haben dann irgendwie bestimmte Werte und ja dann ist die Frage, welche Werte entsprechen jetzt Tinte und welche nicht oder gibt es da noch andere Dinge. Und das Gemeine jetzt an den herkulerneums Schriftrollen ist, die sind halt auf Papyrus geschrieben. Papyrus sind Pflanzenfasern, die man eben zu einem Blatt zusammengebaut hat. Und die Tinte, die hier verwendet wurde, basiert ja auch auf Kohlenstoff, also kann man vielleicht mit einem Bleistift vergleichen. Das hei├čt, man hat im Prinzip Kohlenstoff auf Kohlenstoff. Das hei├čt, es gibt keinen besonders gro├čen Kontrast zwischen Tinte und Untergrundmaterial.

Janine: Besonders nicht, wenn es alles verkohlt ist.

Helena: Ja, besonders nicht, wenn es verkohlt ist. Was jetzt der eine Wissenschaftler schon einmal gemacht hatte, war eine andere Schriftrolle, genau auf diese Weise vermessen, und zwar eine, die in Israel gefunden wurde. Und in dem Fall war die Tinte eine metallhaltige Tinte und Metall verh├Ąlt sich eben in R├Ântgenstrahlung doch sehr anders als Kohlenstoff. Und in dem Fall war auch das Ganze nicht auf Papyrus, sondern auf Tierhaut geschrieben. Ich glaube, der Teil ist jetzt nicht ganz so entscheidend, wie das eben die Schrift aus Metallbasis war und deswegen der Kontrast einfach vorhanden war. Das hei├čt, im Wesentlichen, das, was man hier bei der Schriftrolle aus Israel machen musste, war nur der erste Schritt quasi, den man jetzt auch noch bei den Herkuler Neum rollen machen muss, und zwar das Entrollen. Und dann konnte man die bereits lesen, weil dann der Kontrast schon gro├č genug war. Und da hatte man festgestellt, oh, es ist ein Teil der Bibel. Buch Leviticus wurde damals gefunden. Und zwar in einer sehr alten Fassung. Gut, und weil man das eben gemacht hatte, wusste man dann, ja, okay, wir k├Ânnen das im Prinzip, aber es gibt noch eine weitere Herausforderung au├čer das Entrollen, n├Ąmlich eben auch das Tinte erkennen. Und um jetzt so Methoden wie maschinelles Lernen und so einsetzen zu k├Ânnen, ist es ja eigentlich immer n├Âtig, dass man auch die gleichen Messungen gemacht hat mit Objekten, wo man wei├č, was herauskommt, auf die man dann trainieren kann. Und so tragisch es auch ist, dass man einige Rollen vermutlich verloren hat, dadurch, dass man sie auch versucht hat zu entrollen, gab es jetzt ja doch diese Fragmente. Und die hat man eben genau mit derselben Methode gescannt. Der Vorteil an diesen Fragmenten ist halt, wenn man jetzt mit Infrarotkameras misst, dann ist der Kontrast der Schrift sehr gro├č. Also wenn man da tats├Ąchlich drauf gucken kann mit einer Infrarotkamera, dann sieht man die Schrift. Und ja, das hei├čt, man kann dann, dadurch, dass man die gleichen Messungen mit diesen Fragmenten gemacht hat, diese als Trainingsdaten verwenden. Ja, da hat man diese Trainingsdaten. Und dann gibt es im Wesentlichen zwei gro├če Herausforderungen. Eben das Entrollen, das wird dann auch in Segmentation, in Flattening aufgeteilt. Und eben die Schrifterkennung, beziehungsweise Ink Detection.

Wie funktioniert das digitale Entrollen? (00:20:38)

Also bei dem Entrollen, also es geht dann ja nicht nur darum, dass man ein flaches Bild hat, sondern bei der Segmentation ist dann das Ziel auch, weil die Schrift ist dann immer in so Bl├Âcken. Dass man auch diese Bl├Âcke schon identifiziert als Block. Wo endet dieser Block? Und so. Weil wenn man wei├č, da ist ein Block und da ist der zu Ende, ist es auch leichter... In der n├Ąheren Umgebung wei├č man dann, da sollte vielleicht noch Tinte sein oder nicht. Das hilft ja auch, diese Erkenntnis. Genau, und das Entrollen funktioniert im Prinzip so, dass man sich erstmal nur eine Ebene anguckt von diesem 3D-Bild, so wie das der Tomograph ja auch gemacht hat. Und wenn man sich jetzt so ein aufgerolltes St├╝ck Papier vorstellt und von oben drauf guckt, dann sieht man ja, da wo Papier ist, Linien und dazwischen ist es potenziell dunkler. Oder wenn man eine Lampe hinterh├Ąlt, vielleicht auch heller. Aber man sieht relativ deutlich, wo das Papier erstmal verl├Ąuft. Einfach weil man Linien sieht. Und Linienerkennung ist in der computergest├╝tzten Bildbearbeitung etwas, was schon seit Jahrzehnten ├╝berhaupt kein Problem ist. Wenn man bei Linienerkennung einfach nur guckt, ├Ąndern sich die Werte der Pixel relativ stark. Und dann kann man relativ gut tats├Ąchlich Linien erkennen. Und dann kann man diese Linien einzeichnen quasi, wo man die erkannt hat. Und dann guckt man sich eine Ebene weiter hinten, das n├Ąchste Bild, an. Und guckt, dass man versucht, die gleichen Linien wiederzufinden. Weil so eine Rolle, wenn die zerknickt ist, zum Beispiel, wenn man beim Papierbeispiel ist, dann kann sich ja auch die Position der Linie auch ver├Ąndern. Und das hei├čt, man kann dann, wenn man Ebene f├╝r Ebene durchgeht, immer gucken, wo hat sich die Linie hin bewegt. Und dann wei├č man, welche von den Voxeln des 3D-Bildes zu welcher Papierebene geh├Âren. Beziehungsweise bei der Schriftrolle Papyrus-Ebene. Wenn man das Ganze dann entrollt, dann tut man das nicht, indem man nur genau die Pixel, wo diese Linie ist, anguckt, beziehungsweise Voxel, sondern man nimmt auch die drumherum. Weil Tinte kann ja auch oberhalb auf dem Papyrus sein, beziehungsweise auch eingesickert sein, bis zu einer gewissen Ebene. Und deswegen braucht man dann von jedem St├╝ck Papier quasi, was man da rauszieht, von jedem flachen St├╝ck Papier auch mehrere Ebenen nochmal. Weil man ja nur ein 3D-gescanntes Bild hat und man kann ja nicht von oben einfach drauf gucken, weil es ja nicht entrollt ist, physisch, sondern das muss ja virtuell erfolgen.

Janine: Ja, auch f├╝r das, was Helena gerade beschrieben hat mit dem Entrollen, gibt es auch einige dieser schon erw├Ąhnten Animationen auf der Seite, also mindestens eine auf jeden Fall, wo man sich das vielleicht auch noch ein bisschen besser vorstellen kann, was die Problematik darin ist, wie die aufgerollte Struktur aussieht und sich so ein bisschen vorstellen kann, wenn man jetzt von der Seite auf so ein im Halbkreis gebogenes Blatt guckt, ist es halt schwieriger, die Buchstaben zu erkennen, als wenn es flach vor einem liegt. Und das sieht man da so ein bisschen, wie man sich das vorstellen kann, dass das Zusammensetzen dann im Computer funktioniert, damit da eine flach liegende Seite bei rauskommt.

Helena: Und die flach liegende Seite braucht man jetzt nicht nur, weil es nat├╝rlich einfacher ist, auf flachen Seiten was zu lesen, sondern auch, weil die Trainingsdaten der Fragmente ja auch flach sind. Das hei├čt, dieser Schritt des Entrollens, den muss man auch erst einmal machen, bevor man dann tats├Ąchlich mit der Schrifterkennung anfangen kann, weil man ja nur auf der Ebene trainieren kann erst mal. Das hei├čt, man hat dann eben flache Fragmente als Trainingsdaten, wo man eben wei├č, was herauskommt, und dann braucht man irgendwie Modelle, mit denen man die Schrifterkennung trainieren kann.

Wie funktioniert die Schrifterkennung? (00:24:24)

Und zwar werden hier tats├Ąchlich verschiedene Machine Learning-Modelle parallel verwendet, insbesondere, was wohl auch die besten Ergebnisse geliefert hatte, ist das sogenannte TimeSformer-Modell. Das ist ein Modell, das im Prinzip auf den Transformer-Modellen basiert. Also das T in ChatGPT steht auch f├╝r ein Transformer-Modell. Das ist also eine bestimmte Klasse von Machine Learning-Modellen. Und das ist allerdings auf eine bestimmte Weise ver├Ąndert. Und zwar, wenn man sich jetzt so ChatGPT vorstellt, das hat halt eine Reihe von Text, mit der es arbeitet, und kann dann auf Basis dieses Textes dann irgendwie Vorhersagen machen, was jetzt als n├Ąchstes zu erwarten w├Ąre, als Wort und so weiter. Das ist dann quasi aber eine Reihe von Dingen, die hintereinander kommen. Und bei dem TimeSformer-Modell geht es eher, also es wurde eigentlich f├╝r Videobearbeitung oder -verarbeitung entwickelt. Das hei├čt, es gibt nicht nur die Reihe von Dingen, die hintereinander kommen, sondern jedes Ding, was dann in einer Ebene ist, entspricht auch ganz vielen Pixeln. Und im Grunde genommen ist jetzt ein Video auch nicht so viel anders wie ein 3D-Bild, nur dass man eben bei einem 3D-Bild als dritte Achse auch eine Raumdimension hat, und bei einem Video ist es halt die Zeit. Deswegen ist es irgendwie naheliegend gewesen, dass man ja einfach Video-Modelle nehmen k├Ânnte. Also ich wei├č nicht, wie naheliegend das war, ich wei├č jetzt nicht, ob alle Teams so da herangegangen sind, aber so im Nachhinein betrachtet ist es doch irgendwie sehr naheliegend, das damit zu probieren, erst mal.

Janine: Ich muss auch gerade dran denken an die Folge 18 mit Lisa, wo es darum ging, aus Bildern halt quasi 3D-Informationen f├╝r 3D-Modelle zu generieren. Also vielleicht ist da ja auch so ein bisschen eine Verbindung, fiel mir gerade dabei ein.

Helena: Ja, da wei├č ich gerade gar nicht mehr, was f├╝r ein Modell die benutzt haben. Ja, jedenfalls eines der Probleme, die man hier mit sowas wie ChatGPT sehr gut kennt, ist, dass es sich manchmal, wenn man den Fragen stellt, Dinge einfach ausdenkt, was man ja auch Halluzinieren nennt. Und das will man nat├╝rlich hier nicht, man will ja, dass das, was da steht, auch wirklich da steht. Ich meine, ein Vorteil, den man jetzt nat├╝rlich hier hat, ist, wenn die Leute, die dann die Schrifterkennung trainieren und am Ende das einreichen, selber kein Altgriechisch lesen k├Ânnen und nicht in der Lage sind, zu erkennen, ob das sinnvolle W├Ârter sind oder nicht, hat man immer an einer Ebene eine Absicherung dagegen, dass jemand absichtlich irgendwie Dinge da versucht reinzubekommen.

Janine: Auf jeden Fall, ja.

Helena: Insbesondere, w├╝rde man ja erkennen, ob man den Text schon kennt oder nicht. Das ist, glaube ich, hier relativ vorteilhaft. Und wenn es sich irgendwas halluziniert, ist im besten Fall das tats├Ąchlich auch Nonsens, also W├Ârter, die nicht existieren. Aber damit will man sich nicht zufriedengeben, deswegen hat man noch ein anderes Machine Learning-Modell verwendet, das ResNet-3D-Modell. Und das basiert im Gegensatz zu den Transformer-Modellen auf sogenannten convolutional neural networks, also faltungsbasiert. Das ist eben eine andere mathematische Methode, mit der man eben solche neuronalen Netze aufbauen kann. Und solche convolution-Netzwerke sind eigentlich ein bisschen ├Ąlter schon. Die Transformer waren letztlich dann etwas, was schon das Ganze revolutioniert hat und sowas wie ChatGPT ├╝berhaupt erst m├Âglich gemacht hatten. Aber der Vorteil ist, wenn man jetzt einfach noch ein unabh├Ąngiges Modell hat, dann sollte man zumindest erhoffen, dass es andere Dinge halluziniert und die dann sich einfach widersprechen. Und dann wei├č man, man kann dem nicht so gut trauen und deswegen benutzt man auf jeden Fall mehr als eins. Also die, die gewonnen haben, haben das zumindest so gemacht.

Janine: Ich habe mal in die Bedingungen f├╝r die 2024er Challenge geguckt und da steht tats├Ąchlich auch explizit dieses Problem mit dem Halluzinieren mit drin. Und zwar, dass wenn Menschen etwas einreichen, m├╝ssen sie auch die Frage beantworten, ob sie die Erfahrung gemacht haben, dass ihr Modell oder ihre Anwendung zum Halluzinieren neigt und wie sie mit diesem Problem umgehen. Also welche Ma├čnahmen sie dagegen haben.

Helena: Ja, da bin ich mal gespannt, was dann daraus kommt. Ja, was man jetzt nat├╝rlich zu der letztj├Ąhrigen Challenge noch sagen kann, ist, die bezog sich nur auf die Schrifterkennung, also die Ink-Detection. Das Entrollen und Segmentieren selber war nicht Teil der Challenge, weil dadurch, dass man ja nicht wusste, was da drauf ist, wollte man das jetzt nicht irgendwie noch komplizierter machen. So, dann haben die Leute, die Challenge gemacht haben, das erst mal so gemacht. Trotzdem hat das Gewinner-Team auch ein Segmentierungsmodell eingereicht, wo ich jetzt nicht drauf eingehen werde. Aber die haben sich trotzdem auch mit diesem Problem besch├Ąftigt, obwohl das nicht mal Teil der Challenge war. Das fand ich dann auf jeden Fall ganz gut.

Was steht in den bisher entdeckten Bereichen? (00:29:15)

Helena: Ja, jetzt gibt es ein Gewinner-Team, das tats├Ąchlich Dinge lesbar gemacht haben. Und ich habe mir das angeguckt und habe eindeutig griechische Schriftzeichen erkannt. Aber ich kann jetzt kein Altgriechisch. Was steht denn da so drin?

Janine: Ja, Altgriechisch kann ich auch nicht, aber ja, was steht denn in den bisher entdeckten Bereichen? Also erst mal vielleicht noch ein bisschen historisch. Es war vorher schon ein bisschen bekannt, aus den fr├╝heren Versuchen, die Schriftrollen zu ├Âffnen, wo sie ja eben h├Ąufig aber auch leider kaputt gegangen sind, ist ersichtlich geworden, dass der gr├Â├čte Teil der Schriftrollen Texte eines Philosophen namens Philodem sind. Au├čerdem wurden viele kopierte Schriften von Epikur entdeckt und ansonsten auch noch andere bereits bekannte Autoren der griechischen Antike. Und ja, einen kleineren Teil an Schriftrollen, die gefunden wurden, sind auch in lateinischer Schrift, die aber tats├Ąchlich vermutlich erst sp├Ąter zu der Bibliothek hinzugef├╝gt wurden, nachdem dieser Philodem von Gadara, wie er hei├čt, dort gewirkt hat. Denn was als relativ gesichert gilt, ist, dass die gefundene Bibliothek von eben diesem, na ja, zumindest aufgebaut wurde. Und die Villa selbst, in der das alles lag, soll Lucius Calpurnius Piso geh├Ârt haben. Und Philodem war dessen Hausphilosoph, wie Cicero einmal ├╝ber ihn sagte. Also auch kein sehr unbekannter Mensch in der Zeit. Und dieser Lucius Calpurnius Piso war, glaube ich, Helena, korrigier mich, falls ich falsch liege, der Schwiegervater von Caesar?

Helena: Das wei├č ich nicht. Aber was man jetzt daraus vielleicht sieht, weil das auch Cicero was ├╝ber den gesagt hat, der ist 100 Jahre vor dem Vulkanausbruch gestorben, der Philodem.

Janine: Ja.

Helena: Und der war auch Lehrer von Vergil, den man vielleicht kennt, wenn man ein bisschen mit lateinischen Texten schon mal was zu tun hatte. Aber der ist auch vorher schon gestorben. Das hei├čt, es kann sehr gut sein, dass Dinge nachtr├Ąglich hinzugekommen sind.

Janine: Jedenfalls hat Philodem dort gearbeitet und in der Zeit dort auch gelebt. Und danach wurde eben die Bibliothek noch weiter fortgef├╝hrt. Das so zum Hintergrund, es sind damals auch schon Textfragmente ├╝bersetzt und auch wissenschaftlich von Philologen untersucht worden. Da gibt es auf jeden Fall schon Sachen zu finden. Die Frage ist aber, was war jetzt das erste Wort, das w├Ąhrend dieser Challenge, der Vesuv-Challenge, entdeckt wurde und zwar mit den Methoden, die angewendet wurden, ohne die ganzen philologischen, papyrologischen Ma├čnahmen, die da im Vorfeld gelaufen waren. Und zwar gibt es ein Wort, das erste vollst├Ąndig und klar lesbare Wort war "purple", also lila oder violett.

Helena: Aber "purple" ist doch dann auch schon die englische ├ťbersetzung, oder?

Janine: Ja, genau. Ich kann halt auch leider kein Altgriechisch. Ich habe es jetzt von der Webseite zitiert.

Helena: Ist das Bild da irgendwo?

Janine: Ja, es gibt ein Bild davon. Unter "Gewinner 2023" oder so ├Ąhnlich ist das einmal aufgezeigt. Naja, Ende 2023, mit Abschluss der Challenge, gab es auch ein Ergebnis. Wie gesagt, es ist ├╝bertroffen worden, das Ziel. Es konnten jetzt insgesamt 5% der ersten Schriftrolle entrollt und gelesen werden, beziehungsweise ja, die 15 Spalten, die ich schon erw├Ąhnt hatte. Und die Besch├Ąftigung mit den Texten ist dann wiederum Papyrologen und geisteswissenschaftlichen Expert*innen ├╝berlassen. Und diese wurden auch hinzugezogen und es wurde eine vorl├Ąufige Transkription erstellt, auch in die altgriechischen Worte. Es gibt keine englische ├ťbersetzung dieser Passagen auf der Challenge-Seite. Ich habe mal versucht, das Griechisch in DeepL einzusetzen. Allerdings ist das von m├Ą├čigem Erfolg gekr├Ânt. Das ist doch alles viel zu doppeldeutig, die Abschnitte zu kurz. Da kommt einfach nicht wirklich etwas Sinnvolles bei raus. Aber was die Papyrologen festgestellt haben, ist, dass es sich um wirklich einen bisher nicht ├╝berlieferten Text aus der Antike handelt. Und zwar einen Text von Philodem, der bisher noch nirgendwo ver├Âffentlicht war. Zu Lebzeiten hat er, glaube ich, auch relativ wenig publiziert, Schr├Ągstrich ist, sehr wenig erhalten davon. Und in seiner Bibliothek waren eben auch Manuskripte oder Arbeitstexte noch vorhanden. Es ist also keine Abschrift oder Kopie hier, sondern ein bisher noch unbekannter Text. So. Und soweit die Fragmente bisher angesehen werden konnten, geht es vor allem um das Thema Vergn├╝gen.

Helena: Okay. Ich habe gerade nachgeguckt, Porphyras ist das griechische Wort f├╝r Purple. Also das Wort, was die tats├Ąchlich gelesen haben.

Janine: Sehr sch├Ân.

Helena: Was hat Lila jetzt mit Vergn├╝gen zu tun?

Janine: Genau. Wie schon in den ersten Erkenntnissen, auch schon aus dem 18. Jahrhundert ersichtlich war, es sind vor allem epikurierische Philosophie, die in diesen Texten enthalten ist. Und eine zentrale Rolle spielt da eben dieses Thema quasi Vergn├╝gen. Es sind die, wie hie├č das doch? Ach ja, ich habe hier ein Zitat aus dem Philosophie Magazin. Epikureismus ist in moralischer Hinsicht ein asketischer Hedonismus, also das Streben nach Lust, das praktiziert wird auf eine Weise, in der die Vergn├╝gen ohne Exzess und mit vernunftgeleiteter Einsicht erlebt werden.

Helena: Okay.

Janine: Ja, also hab Spa├č, genie├č das Leben, aber ├╝bertreib es nicht - vielleicht. Ganz kurz zusammengefasst und Philodem war eben, glaube ich, auch ein Sch├╝ler von Epikur oder mindestens in seiner Denkschule sehr bewandert und hat auch dazu beigetragen, diese Schule der Philosophie zu verbreiten. Und in den zwei aufeinanderfolgenden Spalten, die auf der Seite auch einmal transkribiert ins Altgriechische dastehen, geht es vor allem um die Verf├╝gbarkeit von G├╝tern und wie sich deren Verf├╝gbarkeit, beispielsweise Lebensmittel, auf das Vergn├╝gen auswirkt, das durch sie entstehen kann. Also haben wir mehr Spa├č an Sachen, die weniger verf├╝gbar sind? Gibt es einen Unterschied, was es ist? Und dergleichen hat er offensichtlich ├ťberlegungen angestellt. Ja, also so ein bisschen die Besch├Ąftigung mit Mangel und ├ťberfluss und dazu das Thema Vergn├╝gen. Und in anderen Textstellen wird auch noch ein Mensch namens Xenophantus erw├Ąhnt, die Forschenden vermuten, dass es sich da um einen Musiker handeln k├Ânnte, der bereits in einem im 18. Jahrhundert gefundenen Text von Philodem aus den Herkulaneum-Schriftrollen genannt wurde und da schon gefunden werden konnte. Und da ging es eben um Musik.

Helena: Okay, ja, spannend.

Janine: Ja, was machen wir damit und was bedeutet es eigentlich, diese Sachen zu finden? Es hat im Jahr 2020 Kilian Fleischer eine Vorlesung gehalten mit dem Titel "Die Papyri Herkulaneums im digitalen Zeitalter" und das ist auch als Buch publiziert worden und zwar Open Access, das hei├čt, wer sich sehr daf├╝r interessiert, findet auch den Link dazu in den Shownotes. Und er gibt darin eben eine Einsch├Ątzung der Bedeutung dieser Schriftrollen und er sagt, dass der prim├Ąre Wert darin l├Ąge, dass die Papyri "einen vertieften, authentischen Einblick in die epikur├Ąischen Philosophie und ihre literarischen Spielarten gew├Ąhren, also in eine Philosophie-Richtung, deren Schriften das sp├Ątantike Nadel├Âhr der ├ťberlieferung nicht passiert haben und fast g├Ąnzlich verloren gingen." Die epikurische Schule hatte n├Ąmlich ein Problem, sie war nicht sehr beliebt.

Helena: Okay.

Janine: Es gab andere Schulen, die sie ein bisschen ├╝bertrumpft haben und deswegen wurden weniger Texte davon ├╝berliefert und kopiert in gewissen Zeiten und das ist auch der Grund, warum viele sagen, wir haben hier wirklich die einzige erhaltene antike Bibliothek vor uns, die noch nicht durch sp├Ątere Zeitalter kuratiert wurde.

Helena: Ja, das ist auf jeden Fall spannend. Und die Stoiker haben es besser gemacht als die Epikurier, oder?

Janine: Ja, ich glaube schon. Die waren n├Ąmlich sehr gegen die Epikurier, soweit ich das im schnell nochmal nachschlagen gesehen habe.

Helena: Die waren ja auch zeitlich danach, die waren ja ungef├Ąhr zu der Zeit, wo das jetzt passiert ist mit dem Vulkan, ja.

Janine: Und au├čerdem sagt Kilian Fleischer auch noch, dass viele Philosophen noch da drin sind, Historiker und Grammatiker und Dichter in diesen Schriftrollen, die eben nicht nur zu dieser Schule geh├Ârten. Das hei├čt, da gibt es auch noch andere vielleicht spannende Sachen zu entdecken. Er m├Âchte, glaube ich, gerne Gedichte von Sappho lesen. Naja, auf jeden Fall. Dar├╝ber hinaus dann eben auch die Bedeutung f├╝r buchgeschichtliche und paleografische Studien, weil es eben ja um das Material auch geht. Und er verweist darauf, dass damit auch Funde aus ├ägypten eingeordnet und erg├Ąnzt werden k├Ânnten. Also es wird sehr viel zu tun geben f├╝r Philologen und Papyrologen, wenn da mehr Texte und mehr Material erschlossen wird.

Helena: Ja, ich bin sehr gespannt, was da noch kommt. Und ich hoffe, dass es jetzt nach und nach klappt, auch einfach alle tats├Ąchlich sich anzugucken. Also bisher ist ja noch nicht mal eine ganze Schriftrolle gelesen worden.

Wie geht es jetzt weiter? (00:38:49)

Helena: Ja, wie geht es denn jetzt weiter?

Janine: Ja, die Vesuv-Challenge war extrem erfolgreich. Wie gesagt, sie haben ihr Ziel ├╝bertroffen. Und ja, Brent Seals, der auch ma├čgeblich diese Challenge mit vorangetrieben hat, hat in einem Video auch unter anderem erz├Ąhlt, wie er seit 20 Jahren in gewissem Ma├če daran arbeitet. Und das Problem, die Herkulaneums Tinte zu identifizieren, hat jetzt drei Monate gebraucht. In diesen drei Monaten haben ├╝ber 1000 Teams daran gearbeitet, an dem sonst maximal f├╝nf Forschende beteiligt gewesen w├Ąren, wenn es ein normales Forschungsprojekt gewesen w├Ąre und keine Challenge.

Helena: Ja.

Janine: Das auf jeden Fall schon mal. Und er sagt halt, in diesen drei Monaten sind etwa zehn Lebensjahre an Arbeitszeit von Menschen investiert worden und zwei Jahre Rechenzeit geleistet.

Helena: Ja, ich meine, der Vorteil ist nat├╝rlich bei so einer Challenge, dass auch sehr viele Leute mit relativ wenig Aufwand sich mal angucken k├Ânnen und eine Idee ausprobieren k├Ânnen. Und wenn die Idee halt von Anfang an relativ gut war, ist die Wahrscheinlichkeit auch h├Âher, dass man dann weitermacht. Und das hei├čt, auch wenn jetzt zehn Lebensjahre aufgewendet wurden, ist die sicherlich nicht verschwendet worden bei den Leuten, die jetzt nicht gewonnen haben. Die haben es halt mal ausprobiert, es hat vielleicht nicht so gut funktioniert und haben so was anderes gemacht. Aber nicht so wie, wenn jetzt f├╝nf Forscher zehn Jahre lang daran arbeiten, aber niemand genau die richtige Idee hatte, das richtige Modell anzuwenden oder so.

Janine: Genau. Und auch der Austausch in der Community hat ja auch dazu gef├╝hrt, dass neue Erkenntnisse oder neue Methoden oder zusammengefasste Methoden existieren konnten. Und deswegen wird es das auch f├╝r 2024 geben. Es hat quasi gerade begonnen. Anfang M├Ąrz wurden die Preise und die Ziele verk├╝ndet. Und es gibt dieses Mal insgesamt ├╝ber 500.000 Dollar, die wieder gespendet wurden und f├╝r die Preise ausgeschrieben werden. Und das Ziel ist es, Ende 2024, dass von den vier Schriftrollen, deren Daten vorliegen, 90 Prozent lesbar gemacht werden k├Ânnen.

Helena: Das w├Ąre schon ganz sch├Ân gut.

Janine: Dass das Ziel an sich ├╝berhaupt erreichbar ist, daran wird im Grunde nicht mehr gezweifelt durch die Ergebnisse, die wir 2023 bekommen haben. Allerdings ist ein Faktor, der 2024 in der Challenge eine Rolle spielt, die Zeit, in der das ├╝berhaupt m├Âglich gemacht werden kann. Also zum Beispiel der Preis f├╝r First Automated Segmentation, also die erste automatisierte Segmentierung, hat in den Kriterien drinstehen, dass der Human Input, die Zeit, die ein Mensch investiert, um die Segmentierung anwenden zu k├Ânnen, maximal vier Stunden betragen darf und die Rechenzeit der Anwendung maximal 48 Stunden betragen darf. Und das ist deswegen n├Âtig, weil die Segmentierung, die innerhalb der 2023er Challenge erreicht werden konnte, immer noch sehr viel Zeit braucht. Und deswegen soll jetzt die Verbesserung der Anwendbarkeit quasi im Vordergrund stehen. Zum Beispiel aber auch die Verbesserung nicht nur der Segmentierung, sondern auch des Scans der noch vorhandenen Schriftrollen, denn es gibt ja immer noch hunderte Schriftrollen, die noch ├╝berhaupt nicht gescannt wurden auf diese Art und Weise, sodass die Texte ja quasi durch die neuen Methoden gar nicht erfasst werden k├Ânnen. Also da m├╝ssen auch noch Scans gemacht werden und wie das optimiert werden kann, damit die Kosten gedr├╝ckt werden k├Ânnen, die tats├Ąchlich enorm hoch sind, als auch aber die Daten, die die Scans produzieren, mit einem besseren finanziellen Aufwand produziert werden k├Ânnen, also verbessert werden k├Ânnen. Ja, das ist so, worum es geht. Und wenn das gelungen ist, gibt es tats├Ąchlich noch im Masterplan der Vesuv Challenge, steht auch auf der Homepage, noch einen dritten und vierten Schritt. Im dritten Schritt wird n├Ąmlich dann der Fokus auf das Einscannen nochmal gelegt und das Lesen der Schriftrollen mit einem gesch├Ątzten Zeitaufwand von zwei bis drei Jahren, die dann daf├╝r aufgewendet werden m├╝ssen, um circa 300 Schriftrollen einzuscannen und zu lesen. Und ja, der vierte und abschlie├čende Schritt ist dann gar nicht mehr in den H├Ąnden der Vesuv Challenge oder der Leute, die dieses Projekt so vorangebracht haben, sondern das Ziel des vierten Schrittes ist, Menschen davon zu ├╝berzeugen, im Wesentlichen in der Politik aktive Menschen, ├╝berhaupt Geld in die Hand zu nehmen, weitere Ausgrabungen zu t├Ątigen, um noch weitere Schriftrollen, die in der Villa vermutet liegen, zu erschlie├čen und dann auch rausholen zu k├Ânnen und einscannen zu k├Ânnen, weil die Hoffnung ist halt, dass auch hier, wenn die Ergebnisse vorgezeigt werden, der fr├╝heren Stages, Schritte, die diese Challenge hatte, dann genug Motivation da ist, in Ausgrabungen zu investieren und zu gucken, was dort noch f├╝r kulturelle Sch├Ątze liegen.

Helena: Ich hoffe, das klappt. Aber gut, das ist der Schritt vier. Vorher gibt's ja auch erstmal noch ganz sch├Ân viele Schriftrollen, die man auch erstmal einscannen muss. Das ist ja auch nicht trivial.

Janine: Genau.

Fazit (00:43:58)

Helena: Ja, sch├Ân. Also ich fand, das war ein sehr spannendes und sch├Ânes Thema, dass hier Machine Learning mal in einem Bereich angewendet wird, wo man sonst nicht wirklich irgendwas hinkriegen w├╝rde ohne diese Technik. Und dass man eben zerst├Ârungsfrei dann verkohlte Schriftrollen lesbar machen kann, finde ich schon ziemlich gut. Und ich hoffe, dass das dann auch auf andere Dinge, die man in der Zukunft irgendwo findet, angewendet werden kann.

Janine: Ja, ich fand das Thema auch sehr spannend, weil, ja, wie du sagst, das Ineinandergreifen hier der Methoden, um das wieder lesbar zu machen, ist halt zum einen sehr spannend und zum anderen eben aber auch, was liegt da alles, was f├╝r Texte erwarten uns? Also Menschen sind schon immer neugierig und im Speziellen darum, wenn es darum geht, solche Sachen wieder zu erschlie├čen und zu erfahren. Also der Brent Seals hat auch in einem Interview gesagt, dass es halt ja auch sehr emotional f├╝r ihn ist, dieses Projekt, weil es ja auch darum geht, mehr ├╝ber sich selbst vielleicht erfahren zu k├Ânnen. Also ├╝ber die Vergangenheit, ├╝ber Sachen, die sich entwickelt haben, ├╝ber Denkweisen und auch aus einer einfach ganz menschlichen Sicht da mal drauf zu gucken. Deswegen ist das schon sehr spannend.

N├Ąchste Folge: Lehrerfolge an Schulen messen im April (00:45:17)

Helena: Ja, und in der n├Ąchsten Folge besch├Ąftigen wir uns mit dem Thema, wie man eigentlich an Schulen Dinge messen kann. Habt ihr euch auch schon gefragt, woher wir eigentlich wissen, wann eine Lehrmethode erfolgreich ist? Und es gibt Noten f├╝r Sch├╝ler*innen, aber gibt es auch Noten f├╝r Lehrmethoden? In der n├Ąchsten Folge haben wir zwei G├Ąstinnen bei uns, die ihre Masterarbeiten ├╝ber dieses Thema geschrieben haben. Und sie haben anhand eines Themas untersucht, welche Lehrmethode in den Klassenstufen 8 bis 10 welche Erfolge erzielt. Und ja, da gibt es eine ganze Menge zu beachten und auch einige Hindernisse und Herausforderungen zu ├╝berwinden. Und darum geht es das n├Ąchste Mal.

Call to Action (00:45:59)

Janine: Ich bin schon sehr gespannt drauf. Vor allem haben wir mal wieder G├Ąstinnen da. Das freut mich sehr. Ja, und wenn ihr die n├Ąchsten Folgen auch nicht verpassen wollt, hier der ├╝bliche Aufruf. Folgt uns doch gern auf Mastodon unter @datenleben@podcasts.social oder besucht unsere Webseite www.datenleben.de. Da k├Ânnt ihr uns auch sehr gerne Feedback hinterlassen, also auf unserem Mastodon-Account nat├╝rlich auch immer. Und ja, dar├╝ber freuen wir uns n├Ąmlich, wenn wir wissen, dass ihr auch gerne h├Ârt, was wir hier machen. Und ihr k├Ânnt uns nat├╝rlich aber auch, wenn euch unsere Arbeits- und Denkweise gef├Ąllt, als Data Scientist buchen f├╝r Analysen und Projekte, kontaktiert uns gerne. Auch wenn ihr Fragen habt oder Themen, die euch interessieren.

Helena: Ja, dann bleibt mir nur noch, f├╝r eure Aufmerksamkeit zu danken und bis zum n├Ąchsten Mal. Ciao.

Janine: Tsch├╝ss.

Outro (00:46:47)

Deeplinks to Chapters

00:00:00.000 Intro
255
00:00:18.452 Thema des Podcasts
255
00:00:40.548 Thema der Folge
255
00:01:48.569 Warum ist das Thema interessant?
255
00:02:19.226 Einspieler: Die Geschichte der Schriftrollen aus Herkulaneum
255
00:05:41.757 Warum werden wir die Schriftrollen vermutlich lesen k├Ânnen?
255
00:12:01.014 Was ist die Vesuv Challenge?
255
00:14:38.300 Was sind die Herausforderungen und Methoden?
255
00:20:37.640 Wie funktioniert das digitale Entrollen?
255
00:24:24.314 Wie funktioniert die Schrifterkennung?
255
00:29:14.929 Was steht in den bisher entdeckten Bereichen?
255
00:38:49.298 Wie geht es jetzt weiter?
255
00:43:58.175 Fazit
255
00:45:17.431 N├Ąchste Folge: Lehrerfolge an Schulen messen im April
255
00:45:59.352 Call to Action
255
00:46:46.607 Outro
255