Als Extraktor wird in MonArch ein Service bezeichnet, der beim Import eines neuen Dokuments Informationen aus der zu importierenden Datei extrahiert, z.B. aus dem Dateinamen oder den Metadaten, und auf verschiedene Arten in MonArch übernimmt, z.B. als Eigenschaften oder Themen. Nicht verwendete Metadaten gehen dabei nicht verloren, wenn sie nicht direkt in MonArch übertragen werden, sondern können jederzeit in den Bild-Metadaten im Eigenschaftenfenster eines Dokuments abgelesen werden. Die Originaldatei kann zudem jederzeit wieder aus MonArch heraus exportiert werden und beinhaltet alle ursprünglichen Metadaten.

In den Einstellungen kann jeder der vorhandenen Extraktoren, die im folgenden vorgestellt werden, einzeln aktiviert oder deaktiviert werden.

Importfunktionen

Die erste Seite der Importfunktionen beinhalt neben Extraktoren auch einige allgemeinere Einstellungen zum Import von Dokumenten. Zum einen kann konfiguriert werden, ob Dokumente im Standard verlinkt (d.h. die Originaldatei bleibt an ihrem Speicherort und wird in MonArch nur referenziert) oder kopiert (d.h. die Originaldatei wird direkt auf den MonArch-Server kopiert) werden, ob vor dem Import einer neuen Datei überprüft werden soll, ob ein Duplikat bereits in MonArch vorhanden ist und ob der ursprüngliche Speicherort der Datei als Dateipad in MonArch mitgespeichert werden soll.

    Die ersten drei Extraktoren lesen aus der importierten Datei ein Vorschaubild (welches im Eigenschaftenfenster eines Dokuments angezeigt wird), ein Thumbnail (d.h. das kleine Vorschaubild, welches in der Galerieansicht der Dokumente angezeigt wird) und einen Hashwert (über welchen die Duplikatsprüfung durchgeführt wird) aus. Alle drei sind im Standard aktiv und sollten in den meisten Anwendungsfällen nicht deaktiviert werden.

    Im nächsten Abschnitt können Metadaten von der Datei in die Eigenschaften eines MonArch-Dokuments übernommen werden. Damit werden Felder im Eigenschaftenfenster dieses Dokuments automatisch befüllt. Neben dem Erstell- und Änderungsdatum können hier auch die Bezeichnung und Beschreibung sowie Copyright-Hinweise übernommen werden:

    Als Dokumenttypen werden Themen bezeichnet, die sich in der kleinen Themenhierarchie links neben dem Ergebnisfenster für Dokumente befinden und dem Schema „Dokumenttypen“ zugeordnet wurden. Beim Import einer Datei kann sowohl der Dateityp als auch die Dateiendung in ein eigenes Thema innerhalb der Dokumenttypen extrahiert und verknüpft werden. Hier, sowie bei allen weiteren Themengenerierungen gilt: Exisitiert das Thema bereits, wird es nicht erneut angelegt, sondern das neue Dokument mit dem bereits vorhandenen Thema verknüpft.

    1 Datumsangaben

    Über die Datumsangaben-Extraktoren ist es möglich, neue Themen in Form von Datumsangaben anlegen zu lassen. Diese lassen sich sowohl aus Datei-Metadaten als auch Datei- oder Ordnernamen auslesen. Eine generierte Datumshierarchie folgt dabei stets demselben Schema, bestehend aus einem hierarchisch aufgebauten Jahr, Monat und Tag:

    Die ersten drei Extraktoren, die hier einzeln aktiviert und deaktiviert werden können, lesen jeweils das Erstell-, Änderungs- oder – im Fall eines Bildes – Aufnahmedatum aus den Metadaten der importierten Datei und erzeugen alle dort gefundenen Daten als neue interne Themen. Das neue Dokument wird mit diesen anschließend automatisch verknüpft. Zusätzlich wird pro generierter Datumshierarchie (d.h. „Aufgenommen am“, „Erstellt am“, „Geändert am“) ein Schema angelegt, mittels welcher die neu angelegten Themen innerhalb einer großen Themenhierarchie durch eine entsprechende Selektion in der übergeordneten Schema-Hierarchie schneller aufgefunden werden können:

    Neben Metadaten ist es möglich, Daten auch aus Datei- oder Ordnernamen direkt auszulesen. An dieser Stelle kann zudem konfiguriert werden, ob dazu ein europäisches oder amerikanisches Format (mit umgedrehtem Tag und Monat) benutzt werden soll. Datumsangaben können (bei Auswahl des europäischen Formats) aus folgenden Formaten ausgelesen werden:

    • Varianten mit Trennzeichen („_“, „-“ oder „.“):
      • JJJJ_MM_TT:
      • JJJJ_MM_T
      • JJJJ_M_TT
      • JJJJ_M_T
      • TT_MM_JJJJ
      • T_MM_JJJJ
      • TT_M_JJJJ
      • T_M_JJJJ
    • Varianten ohne Trennzeichen:
      • JJJJMMTT
      • TTMMJJJJ

    Um möglicherweise fehlerhafte Ausgaben zu verringern, kann zudem festgelegt werden, dass Daten nur innerhalb eines bestimmten Zeitraums importiert werden sollen. Ebenso kann das Auslesen eines zweistelligen Jahres aktiviert oder deaktiviert werden. Im Fall der Aktivierung muss hier angegeben werden, als was diese zweistelligen Werte gelesen werden sollen. Dieser Startwert muss angegeben werden, da z.B. das Datum „01.01.37“ ja sowohl den 1.Januar 1937 als auch den 1.Januar 2037 oder 1.Januar 1837 meinen könnte und ohne diese Einschränkung auf einen Zeitraum von 100 Jahren ab Startwert nicht zugeordnet werden könnte.

    2 Externe Themen

    Im Gegensatz zu Datumsextraktoren können keine externen Themen angelegt werden. Stattdessen ist es hier nur möglich, nach bereits vorhandenen externen Themen zu suchen und die importierte Datei im Fall eines positiven Fundes damit zu verknüpfen. Die Suche kann dabei sowohl auf den Dateinamen alleine als auch die Datei mit dem direkt darüber liegendem Ordner oder dem gesamten Ordnerpfad angewendet werden.

    Jeder Name wird dazu in einzelne Wörter (ohne Zahlen oder Sonderzeichen) aufgeteilt und anschließend auf den Wortstammbasen dieser Wörter mit allen vorhandenen externen Themen abgeglichen. Wird auf dieser Suchebene etwas gefunden, wird die Datei mit dem Thema verknüpft. Wurde nichts gefunden, werden alle Kombinationen zweier jeweils aufeinander folgenden Wörter mit den vorhandenen Themen abgeglichen und möglicherweise verknüpft. Wurde auch hier nichts gefunden, wird dasselbe mit drei aufeinander folgenden Wörtern durchgeführt, usw.

    Zuletzt kann auf dieser Einstellungsseite festgelegt werden, ob Dateien mit Themen verknüpft werden sollen, wenn gleichbenannte Themen gefunden wurden und wie viele solcher Themen maximal existieren dürfen, um eine Verknüpfung durchzuführen.

    3 Interne Themen

    Für den Fall der internen Themen gibt es dieselben automatisierten Verknüpfungsmöglichkeiten wie im Fall der externen Themen im vorherigen Abschnitt.

    Es ist zusätzlich möglich, Stichwörter („keywords“) aus den Metadaten der importierten Datei auszulesen. Diese bestehen aus einer Liste mehrerer Begriffe, welche u.a. für vorhandene Themen stehen können. Der Extraktor sucht anschließend für jeden der Begriffe nach möglichen gleichbenannten Themen und verknüpft das Dokument damit. Werden mehrere Themen innerhalb der Themenhierarche gefunden, wird das Dokument nur mit dem in der Hierarchie an tiefster Stelle liegenden Thema verknüpft.

    Des Weiteren gibt es noch die Möglichkeit, interne Themen aus Datei- oder Ordnernamen heraus zu generieren. Auch hier kann dazu definiert werden, ob Dateiname, Datei- und Ordnername oder der gesamte Ordnerpfad betrachtet werden soll. Anschließend wird auch in diesem Extraktor der eingegebene Name in einzelne Wörter aufgeteilt, jeder Begriff bereinigt und jeweils ein internes Thema erzeugt. Existiert bereits ein Thema mit demselben Begriff, wird es nicht abermals erzeugt sondern die Datei mit dem vorhandenen Thema nur verknüpft. Alle generierten Themen werden dabei zunächst in einer alphabetischen Hierarchie sowie einem eigenen Schema gesammelt, bevor sie nach Belieben weiter verschoben, umbenannt oder gelöscht werden können:

    Ebenso ist es auch möglich, Metadaten direkt als neue Themen in die Themenhierarchie zu übernehmen. Dazu werden aktuell folgende Werte ausgelesen (falls Sie zusätzliche Werte auswerten wollen, sprechen Sier das MonArch-Team gerne darauf an):

    • Ersteller
    • Quelle
    • Aufnehmer
    • Credit
    • Verfasser der Metadaten
    • Kamera-Modell
    • Ort
    • Ortsdetail
    • Bundesland
    • Land

    4 Personen

    Auch im Fall der Personen gibt es dieselben automatisierten Verknüpfungsmöglichkeiten wie im Fall der externen Themen im obigen Abschnitt.

    5 Planschlüssel

    Die Planschlüssel-Extraktoren dienen dem Import von Dateien nach bestimmten vorgegebenen Namensschemas und wurden für Kunden spezifisch entwickelt. Im Standardsystem sind sie deshalb nicht freigeschalten.

    6 Strukturelemente

    Für Strukturelemente existieren ebenfalls dieselben automatisierten Verknüpfungsmöglichkeiten wie im Fall der externen Themen im obigen Abschnitt.

    Analog zur Einstellungsseite der internen Themen können auch für Strukturelemente Stichwörter aus den Metadaten der importierten Datei ausgelesen werden. Der Extraktor sucht in diesem Fall für jeden der Begriffe nach möglichen gleichbenannten Strukturelementen und verknüpft das Dokument damit. Werden mehrere Elemente innerhalb der Strukturhierarchie gefunden, wird das Dokument nur mit dem in der Hierarchie an tiefster Stelle liegenden Strukturelement verknüpft.

    7 Strukturtypen

    Zuletzt existieren dieselben automatisierten Verknüpfungsmöglichkeiten wie im Fall der externen Themen im obigen Abschnitt auch noch einmal für Strukturtypen.

    8 XMP

    Für den Sonderfall der Arbeit mit ARW- und dazugehörigen XMP-Dateien gibt es eine eigene Einstellungsseite mit verschiedenen Extraktoren. Zunächst kann hier angegeben werden, ob mögliche aufgefundene XMP-Dateien mit in MonArch gespeichert werden sollen, auch wenn z.B. nur die ARW-Datei manuell importiert wurde. Nur wenn diese Einstellung aktiv ist, ist es später möglich, im Einstellungsfenster der ARW-Datei die Metadaten aus der XMP-Datei auszulesen.

    Alle folgenden Extraktoren existieren in gleicher Form für „normale“ Metadaten, können aber für XMP-Dateien eigens aktiviert oder deaktiviert werden. Dazu zählen zwei Extraktoren, die Bezeichnung, Beschreibung sowie Copyright-Hinweise aus der XMP-Datei in die Dokumenteigenschaften übernehmen (s. Importfunktionen) sowie zwei weitere Extraktoren, die spezifizierte Metadaten (s. Interne Themen) oder das Aufnahmedatum (s. Datumsangaben) als neue Themen in die Themenhierarchie aufnehmen. Zuletzt können auch in XMP-Dateien aufgefundene Stichwörter auf Themen oder Strukturelemente gematcht und damit verknüpft werden.