Allegro-Export für Goobi

Aus Allegro
Wechseln zu: Navigation, Suche

1 Aktuelle Infos[Bearbeiten | Quelltext bearbeiten]

1.1 Beteiligte Skripte und Programme[Bearbeiten | Quelltext bearbeiten]

Auf Goobi-Seite

1.1.1 Neu Allegro-Goobi-Mixed-Update[Bearbeiten | Quelltext bearbeiten]

Auf Allegro-C-Seite

2 Import-Export-Grundsatzgedanken[Bearbeiten | Quelltext bearbeiten]

Wenn die Allegro-C-Zeitschriftenartikel nach Goobi exportiert sind, müssen später die isolierten Strukturelemente aus den METS-Daten mindestens unter einem Aspekt wieder in Allegro-C zurück geschrieben werden: die elektronische Adresse für den Aufruf des Digitalisats.

2.1 Exportszenario[Bearbeiten | Quelltext bearbeiten]

Alltagsbeispiel für Korrekturen

In einem Band/Vorgang haben wir z.B. 160 Strukturelemente. Mit Goobi.Production wird am Element mit den in METS momentanen Bezeichnungen DMDLOG_0010 und DMDLOG_0120 die Paginierung geändert und DMDLOG_0122 wird noch aufgeteilt, weil im Artikel noch ein Gedicht gesondert strukturiert sein soll = DMDLOG_0123. Nach Abschluß des Arbeitsschritts erfolgt ein automatischer Export. Es entsteht eine Exportdatei im Allegro-Extern-Format mit 161 Datensätzen/Elementen Diese Datensätze werden in Allegro importiert. Die Datensätze sind auf beiden Seiten nach der Konzeption wieder identisch.

2.1.1 Altdaten-Neudaten-Problem[Bearbeiten | Quelltext bearbeiten]

Im obigen Beispiel gibt es DMDLOG_0010 und DMDLOG_0120 als Altdaten und DMDLOG_0123 (das Gedicht) ist ein neuer Datensatz mit einer Goobi-Identnummer.
In Allegro wird anschließend bei dem Datensatz mit der ID <ppn>-<zähler> (= DMDLOG_0122 im METS) der Verfassername geändert. Es wird dieser Datensatz exportiert.

Kozh: Ich sehe, ehrlich gesagt, keinen Grund, warum Altdaten und Neudaten getrennt behandelt werden müssten. Diese als solche zu identifizieren wäre ohnehin schwierig, da keinerlei Wissen darüber vorhanden ist, was Allegro momentan beinhaltet. Wenn man dies anhand des Identifiers versucht ("richtig alte" Strukturdaten hätten einen BBF-Identifier), gäbe es spätestens beim zweiten Export das Problem, dass beim ersten Export evtl. schon Strukturelemente neue exportier wurden, die keine BBF-Identifier besitzen, sonden die von Goobi.

Der einzige Underschied zwischen Alt- und Neudaten wäre, dass Neudaten alle Metadaten mitgegeben bekommen, wären Altdaten nur die "Only-Goobi". Sehe ich das richtig? Wäre es nicht egal, wenn immer alle konfigurierten Metadaten mitgegeben werden, solange sie richtige Werte enthalten? Lässt es sich in Allegro evtl. konfigurieren, welche Felder importiert werden?

Liebmann:
Ja, das bedeutet für uns auf Allegro-Seite müssten zwei Importroutinen für Goobi-Daten gebaut werden.
Routine 1: für Metadaten, deren Ersterfassung in Goobi erfolgte (Projekt ReliPäd). Allegro soll alle Felder importieren, da in Allegro noch nichts vorhanden.
Routine 2: für Metadaten, die in Allegro bereits vorhanden und nur mit "Only-Goobifeldern" "geupdatet" werden sollen, wie z.B. die URL.

Voraussetzung wären zwei getrennte Exportlieferungen (GoobidatenErsterfassung, GoobidatenausAllegroimportiert), jeweils mit allen Metadaten, dann kann ich beim Import festlegen welche Felder übernommen werden. Könnten Sie die Exporte in dieser Form zusammen stellen?

Es gibt nicht wirklich eine Möglichkeit, goobiseitig Altdaten von Neudaten zu unterscheiden. Evtl. ließe sich der Exporter mit einem Flag so starten, dass er entweder alle Strukturelemente wie Altdaten bzw. Neudaten behandelt und eine ensprechend umfassende Exportdatei generiert. Wäre das eine Option für Sie?
Allerdings sehe ich kein Problem darin, wenn Altdaten in Allegro von den Exportdaten überschrieben werden, solange der Wert der gleiche ist, auch wenn es Allegro-Only-Felder sind.

"...solange der Wert der gleiche ist..." Das ist das Problem. Es kommt prinzipell vor, daß Allegro-Only-Felder geändert werden, währenddessen der Vorgang/Band in Goobi auch noch bearbeitet wird.


Verzweigungslinien im Exportmodul

Wenn CatalogIDDigital = allegro-feld: 00 den Präfix "BBF" hat, sind das Altdaten. Sonst Neudaten, also von Goobi erzeugt.

  • Bei Allegro-Altdaten sind keine ZDB-ID-Nummern, sondern interne Kürzel verwendet.
  • Bei Goobi-Neudaten sind das ZDB-IDs und beim Export noch mit einem vorangehenden Unterstrich für Allegro versehen.
Nach diesem Neudatenexport, werden die Verweise zur Quelle auf beiden Seiten nie mehr geändert.

2.1.2 Periode der Datenmigration[Bearbeiten | Quelltext bearbeiten]

2.1.3 Periode Neudigitalisate aus Goobi[Bearbeiten | Quelltext bearbeiten]

2.1.4 Periode laufende Bearbeitung von Daten[Bearbeiten | Quelltext bearbeiten]

3 Informationsaustausch für den Bau eines Importers[Bearbeiten | Quelltext bearbeiten]

3.1 Exportformat Allegro-XML[Bearbeiten | Quelltext bearbeiten]

3.1.1 KombiXML Zeitschrift & Artikel • das beabsichtige Exportformat[Bearbeiten | Quelltext bearbeiten]

Die Kombination von Zeitschriftenstammsatz (166 Zeitschriften) und allen zugehörigen Artikeln (243.519 Stück) ist die gewählte Exportvariante. Die Zusammengehörigkeit aller Artikel zu einer Zeitschrift wird demnach in der Repräsentation einer XML-Datei ausgedrückt.

3.1.1.1 Welche Felder, welche Daten wie wohin?[Bearbeiten | Quelltext bearbeiten]

Grundsätzlich und weitgehend ohne goobi- oder projektspezifische Anmerkungen ist das Allegro-Kategorienformat für die CATALOG-Datenbank in diesem Artikel Allegro-Kategorienformat für BBF dokumentiert. Über diese Artikel kann man aber über die "Eigenarten" der Dateneintragungen in den jeweiligen Allegro-Feldern (= "Kategorien" in Allegrofachsprache) mehr erfahren.

An anderer Stelle sammeln wir projektspezifische Informationen in Bezug auf die Felder beider Seiten und der Austauschmöglichkeiten von Daten.

Im Artikel Metadatentypen Regelsatz digizeit.xml und Allegrofelder gehen wir alle Goobimetadaten zur logischen Struktur durch und verweisen auf die Allegro-Felder mit deren speziellen Anforderungen.

Unter 2.1.3. schränken wir dieses mapping zwischen Allegrofeldern und den Goobi-Metadaten auf diejenigen Allegrofelder ein, die in den Artikelexporten der Zeitschriften überhaupt genutzt wurden.

3.1.2 Vorgefundene SPO Felder im Export - Zeitschriftenstammsatz[Bearbeiten | Quelltext bearbeiten]

3.1.2.1 Stammsatzdaten von ZDB holen statt XML-Exportkopf nutzen[Bearbeiten | Quelltext bearbeiten]

Wir möchten die Vor- und Nachfolger der zu importierenden Zeitschrift in Goobi elektronisch verlinkt eingetragen haben. In Allegro-C wurde das konzeptuell nicht aufgenommen. Es wurde der ausgeschriebene Titel im allegro-feld: 81F und allegro-feld: 81S eingetragen.

Anhand der PPN aus allegro-feld: 00 kann per PPN-Nummer der Datensatz von der ZDB geholt werden.
siehe Beispiel:

3.1.3 Vorgefundene SPO Felder im Export - Zeitschriftenartikel[Bearbeiten | Quelltext bearbeiten]

3.1.4 Steuerzeichen in den Metadaten[Bearbeiten | Quelltext bearbeiten]

siehe auch weiter unten


3.1.5 Zusammenhänge Band - Heft - Artikel - Imageset - Paginierung[Bearbeiten | Quelltext bearbeiten]

Aufbau der Sortierung, die in der Datenbank hinterlegt ist:

Beispiel einer Ordnerhierarchie:

- 201152-969
- 201152-970
- 201152-970,1 Das ist ein Registerband zu Band 70
- 201152-976
- 201152-976,2 Das ist ein Registerband zu Band 76

3.1.6 Erschließbare Strukturdaten[Bearbeiten | Quelltext bearbeiten]

3.1.6.1 Strukturinformation über Verzeichnishierarchie[Bearbeiten | Quelltext bearbeiten]

entfällt

3.1.6.2 Strukturinformationen erkennen über #20[Bearbeiten | Quelltext bearbeiten]

Wird gesteuert über die Parameterdatei configDipfAllegroImportPlugin.xml

  • Inhaltsverzeichnis • Suchen nach nr="20" lb="Titel">Inhalt de.* und nr="20" lb="Titel">Inhalts.*
  • Rezensionen • Suchen nach nr="20" lb="Titel">Re[cz]ension.*
  • Titelblatt • Suchen nach nr="20" lb="Titel">Titel.*
  • Vorwort • Suchen nach nr="20" lb="Titel">Vorwort.*
  • Miszelle • Suchen nach nr="20" lb="Titel">Mis[cz]ell[ea].*
  • Anzeige • Suchen nach nr="20" lb="Titel">Anzeige.*
  • Nachwort • Suchen nach nr="20" lb="Titel">Nachwort.*

3.1.6.3 Strukturinformationen über Formschlagwort #31f[Bearbeiten | Quelltext bearbeiten]

301 Rezensionen sind über #31f markiert.

3.1.6.4 Strukturinformation über allegro-feld: 708 Paginierung[Bearbeiten | Quelltext bearbeiten]

Das Goobi Metadatum logicalPageNumber kann seine Informationen aus allegro-feld: 708 extrahieren.

Schreibweisen sind:

Paginierung und Startwert
Vorgefunden Vorschlag für Anfangswert
138 - 142 138
XIV - XVI XIV
[8] Bl. [8]
5 - 6 5
487 - 488 : Tab. 487
250 [550] 250
357 : Tab. 357
[77] - [78] [77]
437 - 448 [469 - 480] 437
460 - 464 : Ill. 460
[41 - 42] [41]
[1] S. [1]
I I
[VIII] [VIII]
6 - 9 ; Ill. 6
7 7
[3] - 21 [3]
Bl. [1] 1 ; Ein unpag. Blatt (kann Vor- und Rückseite sein)
Bl. [1], 1 - 38 1 ; 1. Seite unpaginiert, dann pag. Seiten
Bl. [1] - [28] 1 ; Unpaginierte Blätter
Bl. [1] : Ill. 1 ; Ein unpag. Blatt (kann Vor- und Rückseite sein, 2 images mit einer Illustr.)

Es soll der Anfangswert ermittelt werden. Danach hat die Zuordnung der Images Vorrang und bestimmt pEnde = pAnfang + CountImgages

Ein Wechsel der Paginierungsart innerhalb des Kindelements von Band bzw. Heft kann nicht abgebildet werden. Es ist nicht zu ermitteln, wo ein evtl. Wechsel stattfindet. Eine intellektuelle Korrektur ist später nötig.

Festlegung 20110624-1248: Alle Datensätze mit 708-Werten, die nicht durch den Importer verwertbar sind, sollen "uncounted" bei der Paginierung werden. WARN-Hinweis in der Logdatei ist die Folge. Damit sind die ERROR-Stops bei allegro-feld: 708 erledigt.

3.1.6.5 Strukturelement mit CatalogIDDigital[Bearbeiten | Quelltext bearbeiten]

Aus dem Regelsatz habe ich mal alle Strukturelemente extrahiert, die einen Identifier haben (sollen).

Es steht dann zum Strukturelement im Regelsatz dazu :<metadata num="1m" DefaultDisplay="true">CatalogIDDigital</metadata>, wobei der Wert:

  • num="*" bedeutet kein mal oder beliebig oft (0...n)
  • num="+" bedeutet ein mal oder beliebig oft (1...n)
  • num="1o" bedeutet kein mal oder genau einmal (0...1)
  • num="1m" bedeutet genau einmal (1)

variieren kann.

PartOfWork kann also 0 oder beliebig viele Identifier haben?


3.1.6.6 Strukturelemente und zugehörige Allegrofelder[Bearbeiten | Quelltext bearbeiten]

  • Zeitschrift

allegro-feld: 00

  • Band
allegro-feld: 8z = CurrentNoSorting Dort kann die physische Bandzählung ermittelt werden. Das verstehen wir als interne Sortierung für die Bandübersicht im Viewer
allegro-feld: 704 = CurrentNo. In #704 haben wir den "Jahrgang" eingegeben. Wird im Viewer in Klammern bei der Bandübersicht angezeigt.
statt Zahlen kann dort auch stehen: [N.S.]5. Bedeutet "neue Serie Band 5"
allegro-feld: 76 = PublicationYear Erscheinungsjahr des Bandes
allegro-feld: 75 = PublisherName Verlag
allegro-feld: 74 = PlaceOfPublication Erscheinungsort
allegro-feld: 70 + allegro-feld: 704 = TitleDocMain Über das Kürzel in allegro-feld: 70 kann in den Zeitschriftenstammsatz gesprungen werden. Dasselbe Kürzel steht im ZS-Stammsatz im allegro-feld: 8na. Aus dem Stammsatz soll der Titel aus dem allegro-feld: 8n genommen werden.
Der Aufbau des Bandtitels im Viewer in der Bandübersicht erfolgt dann so: Wert aus #8n[SP]-[SP]CurrentNo[SP](PublicationYear)   
([SP] bedeutet spatium, Leerzeichen) Bitte den Titel aus #8n abschneiden ab dem Zeichen "[" oder ab dem String [SP]:[SP]
  • Heft

allegro-feld: 706 = CurrentNo allegro-feld: 706 = Heft CurrentNo = TitleDocMain

CurrentNoSorting kann von Allegro nicht beliefert werden. Was tun, um eine realistische Reihenfolge der Hefte im Inhaltsverzeichnis/Band abzubilden? In allegro-feld: 706 sind nicht immer arabische Zahl eingeschrieben, auf folgende Arten:

10
10/11
[8]
10-12
0
004-005
Bd. 9, H. 10
Jubiläums-Nr. 1
Probenummer
Sondernr
bd. 27
Bd. 89
Bd. 34, Abt. 2, H. 8



  • Artikel etc.


  • Beilage

3.1.7 Normalisieren der Bildstapel[Bearbeiten | Quelltext bearbeiten]

Die Ordnerstrukturen der alten Digiprojekte nach dem Schema xxxxIV, xxxxTI und xxxxAUF werden aufgelöst. Die Dateistapel werden nach Goobi-üblicher Weise pro Vorgang neu aufgebaut.

Alle Dateien des Zeitschriftenbandes werden achtstellig von 0 bis x hochzählend um 1 umbenannt.

3.2 Segmentierung der Zeitschriften in DMS[Bearbeiten | Quelltext bearbeiten]

  • 1 Band = 1 Goobivorgang

Obige Zeitschrift hat 43 Bände (erkennbar über das Dateisystem; Verzeichnisse \547393-701 bis \547393-750 mit Lücken)

Es würden bei einem Export aller Objekte aus retro-digit (Zeitschriften, Nachschlagewerke, Schulprogramme) mindestens 2.207 Bände als Vorgänge angelegt werden. Dazu kommen später noch die digitalisierten Schülerzeitungen (nicht-öffentliche Daten) mit ca. 2.450 Bänden.

Ein Band kann 1.667 Seiten oder nur wenige Seite haben.

3.3 Kollektionierung von Zeitschrift, Beilage, früherer/späterer Titel[Bearbeiten | Quelltext bearbeiten]

Wie bekommen wir die Beilagen zu einer Zeitschrift später im DMS z.B. als Unterkollektion oder in Form irgendeines erkennbaren Verbund/Verweis hin?
Vorgänger/Nachfolger, Beilagen und Zeitschrift haben in den Metadaten der Allegro-Datenbank im Feld #8na etwas hineincodiertes: Das interne Zeitschriftenkürzel hat als letztes Buchstabenzeichen im Bedarfsfall folgende Hinweise:

2a1337 = Zeitschrift, wo im Regelfall kein Nachfolger/Vorgänger vorhanden ist
(Teilweise hat der Nachfolger/Vorgänger eine andere Signatur.)
2a1337[a-r] = Zeitschrift und deren Nachfolger bzw. Vorgänger 
(Reihenfolge nicht garantiert. Kann auch sein a,c,b,f,e)
2a1337[s-z] = Beilage(n)

3.4 DFG-Viewer[Bearbeiten | Quelltext bearbeiten]

4 Technische Anmerkungen[Bearbeiten | Quelltext bearbeiten]

4.1 Erstellen der XML-Exporte in den Ordner AllegroXMLZeitschriften[Bearbeiten | Quelltext bearbeiten]

Dort pflegt Sabine Liebmann eine Excel-Tabelle über die 166 Exporte oder hier Tabelle der Zeitschriftenexporte

4.2 Kopieren der XML-Export in den für Ubuntu zugänglichen Ordner Allegro-XML-Export-Zeitschriften[Bearbeiten | Quelltext bearbeiten]

  • \\bbfdata1\Digitalisate\SPO\Allegro-XML-Export-Zeitschriften

4.3 Zugriff von Ubuntu auf Windows-Ordner tiff_retro-digit[Bearbeiten | Quelltext bearbeiten]

GoobiDigi kann den Ordner "Digitalisate" aus dem Pfad UNC:tiff_retro_digit mounten. (Test Herr Tönjes vom 14.02.2011)
Deshalb müssen die TIF-Master von retro-digit nicht noch einmal umziehen. Die gewohnten Speicherplätz bleiben erhalten. Beim Import nach Goobi werden die TIF-Dateien in den Vorgangsordner kopiert.

Bei den SPO-Altdaten sind das komprimierte bitonale TIFs mit einer geringen Größe jeweils unter 300 KB.

4.4 Diverse Allegro-Registerauszüge in exportierter Listenform als Hilfestellung[Bearbeiten | Quelltext bearbeiten]

  • \\dipf-intern.de\Intern-Berlin\Geschäftsdaten-BBF\Digitalisierung_OAI_DFG-Viewer_DigiBib\Goobi_GDZ\AllegroXMLZeitschriften

Excel-Datei Zeitschriftenaufsätzespeicheradresse8z beinhaltet den Sonderabschnitt aus Register 10
Siehe oben wie der zustande kommt.

Manuell und zeitaufwendig kann man noch einige Ergebnismengen aus der Datenbank listenartig erstellen:

  • Liste Register 10 ZDB-ID Band mit Artikel und Datei von...bis
   1  \547393-701\00000001.gif
   1  \547393-701\00000002.gif - 00000020.gif
   1  \547393-701\00000021.gif - 00000024.gif
   1  \547393-701\00000024.gif
   1  \547393-701\00000025.gif - 00000027.gif
   1  \547393-701\00000028.gif
   1  \547393-701\00000029.gif - 00000031.gif
   1  \547393-701\00000031.gif - 00000032.gif
   1  \547393-701\00000032.gif
   1  \547393-701\00000033.gif - 00000034.gif
   1  \547393-701\00000034.gif - 00000036.gif
   1  \547393-701\00000037.gif - 00000038.gif
   1  \547393-701\00000039.gif - 00000041.gif
   1  \547393-701\00000041.gif - 00000042.gif
   1  \547393-701\00000043.gif - 00000044.gif
   1  \547393-701\00000044.gif - 00000045.gif
   1  \547393-701\00000045.gif - 00000046.gif
   1  \547393-701\00000047.gif - 00000049.gif
   1  \547393-701\00000049.gif - 00000050.gif
   1  \547393-701\00000050.gif
 
 384  547393-701
 565  547393-702
 457  547393-711
 636  547393-712
 726  547393-713
 673  547393-714
 667  547393-715
 644  547393-716
 669  547393-717
 663  547393-718
 688  547393-719
 671  547393-720
 674  547393-721
 631  547393-722
 620  547393-723
 581  547393-724
 537  547393-725

5 Briefing history[Bearbeiten | Quelltext bearbeiten]

  • Briefing-ReliPäd-BBF-Goobi_20100211.pdf in UNC: \\dipf-intern.de\Intern-Berlin\Geschäftsdaten-BBF\Digitalisierung_OAI_DFG-Viewer_DigiBib
  • Langzeitarchivierung_Beispiel_ad369_wue_goobi_20100303.pdf in UNC: \\dipf-intern.de\Intern-Berlin\Geschäftsdaten-BBF\Digitalisierung_OAI_DFG-Viewer_DigiBib\SPO-LZA


6 Überblick der Zeitschriften XML-Exporte aus Allegro-C[Bearbeiten | Quelltext bearbeiten]

Bitte hier schauen. Inhalt wird immer wieder aktualisiert Tabelle der Zeitschriftenexporte

7 Überblick Zahlen[Bearbeiten | Quelltext bearbeiten]

    166 Zeitschriften
  2.207 Bände in retro-digit
  2.450 Bände in retro-digitsz (Schülerzeitungen)
  1.667 Seiten dickster Band in retro-digit
      1 Seite kleinster Band in retro-digit ''(keine Ahnung woher ich das habe, Wünsch)''
243.050 Artikel

8 Schritte vor Importstart[Bearbeiten | Quelltext bearbeiten]

Jetzt ist es so, daß bei den 243.050 Datensätzen (Stand: 05.05.2011) in Allegro-C im üblichen Geschäftsverlauf Korrekturen vorgenommen werden. Diese korrigierten Datensätze erhalten in der Allegro-Datenbank im Feld #15 den Status Digitkor (Index 9 _ZZ digitkor) und werden später für Goobi erneut exportiert.

Dazu wird eine XML-Datei 
  • \\dipf-intern.de\Intern-Berlin\Geschäftsdaten-BBF\Digitalisierung_OAI_DFG-Viewer_DigiBib\Goobi_GDZ\AllegroXMLZeitschriften\KorrigierteAufsätze.xml

erstellt.

  • Aktueller Exportstand aller 174 Zeitschriften am 21.03.2011 und auch Intranda per WUALA-Download zur Verfügung gestellt.

8.1 Vorschlag Intranda 29.03.2011[Bearbeiten | Quelltext bearbeiten]

  • Am 2011-03-29 18:26, schrieb Andrey Kozhushkov:

Sehr geehrter Herr Wünsch,

anbei übersende ich Ihnen einen Vorschlag, wie die Allegro-Felder nach Goobi gemappt werden können. Es handelt dabei sich um eine XML-Konfigurationsdatei, die außerhalb von Goobi im Dateisystem liegen wird und somit bearbeitet werden kann.

Dabei wird jeweils das Allegro-Feld (<feld>) anhand der Nummer (nr) geholt ( das Attribut "lb" dient nur zur Orientierung). Das Unterelement enthält das entsprechende Metadatum im Goobi-Regelsatz (<goobiMetadata>). Bei mehreren Werten pro Allegro-Feld kann ein Trennzeichen (<separator>) sowie mehrere Goobi-Felder konfiguriert werden (das Attribut "order" gibt dabei an, welcher der Werte wohin gemappt wird).

Was halten Sie davon? Dies ist, wie gesagt, erstmal nur ein Vorschlag.

Etwas Hilfe bräuchten wir bei der genauen Zuordnung der durch Trennzeichen getrennten Werte (etwa bei ZeitschrStammtitel). Außerdem brauchen wir noch Angaben zu den in den Datensätzen nicht enthaltenen Metadaten, etwa der Kollektion.


<?xml version="1.0" encoding="ISO-8859-1" ?>
<config>
	<hotfolder>/opt/digiverso/goobi/hotfolder/allegro/</hotfolder>
	<collection>Varia</collection>
	<mapping>
		<feld nr="00" lb="IdNr">
			<goobiMetadata>CatalogIDDigital</goobiMetadata>
		</feld>
		<feld nr="8n" lb="ZeitschrStammtitel">
			<separator>:</separator>
			<goobiMetadata order="0">TitleDocMain</goobiMetadata>
			<goobiMetadata order="1">TitleDocSub</goobiMetadata>
		</feld>
		<feld nr="23" lb="Nebentitel">
			<goobiMetadata>TitleDocParallel</goobiMetadata>
		</feld>
		<feld nr="37" lb="Sprache">
		    <goobiMetadata>Language</goobiMetadata>
		</feld>
		<feld nr="76p" lb="Ersch.Verlauf">
			<goobiMetadata>PublicationRun</goobiMetadata>
		</feld>
		<feld nr="77d" lb="Techn.Beschreibung">
			<separator>;</separator>
			<goobiMetadata order="0">TechnicalDesc</goobiMetadata>
			<goobiMetadata order="1">mediumsource</goobiMetadata>
		</feld>
	</mapping>
</config>


8.2 Antwort BBF 30.03.2011[Bearbeiten | Quelltext bearbeiten]

  • Richtig ist
<feld nr="23" lb="Nebentitel">
<goobiMetadata>VariantTitle</goobiMetadata>
  • matching pattern muß Leerzeichen davor und danach einbeziehen
<feld nr="8n" lb="ZeitschrStammtitel">
<separator>\s:\s</separator>
• Mit dem separator kann man beim ersten Treffer von links, die Daten auf zwei Felder aufteilen. order="0" speichert den linken Datenteil. order="1" den rechten Datenteil und somit gesamten Rest. Reicht das aus?
Nichtsortiermarkierungen <NS> </NS>
@ und ▼ als Metazeichen in Allegrodaten sind:
a) Klammeraffe kommt nur in Personenfelder vor. Sortiererzwingung.
b) BLACK DOWN-POINTING TRIANGLE kommt vor in allegro-feld: 20

Wir können diese Metazeichen im Produktionssystem unverändert übernehmen. Nur für den Export ins DMS ist eine "Entfernung" oder "Verarbeitung" der Metazeichen nötig. Ein Rückimport nach Allegro erfolgt ja nie vom DMS aus. Somit kann das eine "rücksichtslose" Einweg-Konvertierung sein.

8.3 Frage Intranda vom 06.04.2011 Allegro-Felder und Strukturmetadaten[Bearbeiten | Quelltext bearbeiten]

Von: Andrey Kozhushkov [1] Gesendet: Mittwoch, 6. April 2011 20:52 An: Wuensch, Martin Betreff: Re: Allegro-Importer Zwischenbericht

Hallo Herr Wünsch,

vielleicht habe die nötigen Informationen im Wiki einfach übersehen, aber ich hätte noch eine Frage bzgl. der Zuordnung von Metadaten eines <record>-Elements zu Strukturelementen. Felder wie 00, 15 oder 40 gehören sicherlich zum Artikel, während Felder wie 706 eher dem Band zuzuordnen sind. Gibt es irgendwo eine Zuordnungstabelle, welche Werte auf welche Ebene gehören?

Beispiel:

<record inr="677916">
<feld nr="00" lb="IdNr">BBF0570718</feld> 
<feld nr="15" lb="Kürzel">Digit</feld> 
<feld nr="20" lb="Titel">Psychologische Beobachtung</feld> 
<feld nr="31f" lb="FormalSW">Online-Publikation</feld>
<feld nr="37" lb="Sprache">ger</feld>
<feld nr="40" lb="Verfasser">Schönebeck, Erich</feld> 
<feld nr="70" lb="Quelle">!2a1081</feld> 
<feld nr="704" lb="BandNr">29</feld> 
<feld nr="706" lb="Heft">32</feld> 
<feld nr="708" lb="Seiten">501 - 503</feld> 
<feld nr="76" lb="EJahr">1921</feld> 
<feld nr="77d" lb="Techn.Beschreibung">TIFF, Vers.6.0, 600 dpi, 1 bit (s/w),ITU group; Digitalisierungsvorlage Mikrofilm</feld> 
<feld nr="8e" lb="URL">http://www.bbf.dipf.de/cgi-shl/digibert.pl?id=BBF0570718</feld>
<feld nr="8z" lb="Speicheradresse">\208800-929\00000520.gif - 00000522.gif</feld> 
<feld nr="90" lb="Signatur">02 A 1081 ; RF 744 - 764</feld> 
</record>

8.4 Antwort BBF vom 07.04.2011[Bearbeiten | Quelltext bearbeiten]


Ursprüngliche Nachricht-----

Von: Wuensch, Martin
Gesendet: Donnerstag, 7. April 2011 14:05
An: 'Andrey Kozhushkov'
Betreff: AW: Allegro-Importer Zwischenbericht

Lieber Herr Kozhushkov,

im Kapitel Allegro-Export_für_Goobi#Strukturelemente_und_zugehörige_Allegrofelder haben wir Ihre Frage für Band und Heft beantwortet. Hoffen wir. Bitten um Rückmeldung.


8.5 Fragen vom 13.04.2011[Bearbeiten | Quelltext bearbeiten]

  • Frage:

wenn mehrere Artikel auf einer Seite untergebracht sind (Bsp. 208800-940, Seite 45/63.tif), ist das Atrribut "inr" des Records die einzige möglichkeit, die Reihenfolge dieser Artikel zu ermitteln.
Kann ich davon ausgehen, dass der Wert in "inr" immer auch der Reihenfolge entspricht? Bsp.:

684913 Staats- und Wirtschaftkunde in der Polizeiberufsschule
684914 Unzulängliche Herabsetzung des Schulgeldes in Preußen
  • Antwort:

"inr" geht leider nicht. Das ist eine zufallsbedingte Datensatznummer, die sich beim Neuindexieren ändert.
In diesem Fall ist die Reihenfolge beliebig in der METS-Datei als DMDlog einzuschreiben.

  • Antwort neu:
als "Reihenfolge" für Datensätze, die dieselbe Seite abbilden, also mehrere Strukturelemente auf einer Seite kann doch einigermaßen ermittelt werden: Bei der Erfassung der Daten arbeiten die Kolleginnen i.d.R. in Leserichtung. Damit hat jeder Datensatz eine höhere Identnummer in #00. Wenn nun mal ein übersprungener Inhalt später nachgetragen wird, dann ist diese Reihenfolge falsch. Diese Ausnahmen muß man eben in Kauf nehmen. Sie können also, wenn es Ihre Arbeit nicht zu sehr behindert, diese Sortierebene über die #00 einbeziehen (aber nur bei solchen Fällen: mehrere Elemente auf derselben Seite.)


  • Frage:

Liessen sich diese Bilder im Bandverzeichnis zusammenlegen, oder fängt die Zählung in jedem Unterverzeichnis neu an?
(es geht um die Unterverzeichnisse IV, TI, AUF)

  • Antwort:

Meinen Sie, das wir vor dem Import die Bilder zusammen legen? Das schaffen wir nicht. Es kann sein, dass die Zählung immer von vorne beginnt.

  • Frage:

können Sie mir sagen, wie ich eine ZDB-Abfrage für die Stammsatzdaten mache? Ist es ein Z39.50-Server, oder gibt es eine andere Möglichkeit, die Schnittstelle maschinenlesbar abzufragen. In welchen Feldern stehen die Vorgänger- und Nachfolger-Daten?

  • Antwort1:

da bin ich von zuhause aus überfragt und brauche die Kolleginnen zur Beratung. Kann vielleicht Steffen Hankiewicz helfen?

  • Antwort2:

Hier habe ich noch einen Hinweis: http://www.zeitschriftendatenbank.de/services/schnittstellen/z3950.html
Also in Goobi wird doch auch die ZDB abgefragt, wenn man einen Zeitschriftenband anlegt. Ohne diese Abfrage kann man doch keinen Vorgang in Goobi anlegen. Hilft das?

  • Rückantwort:

Ja, das hilft, danke. Anscheindend hat die ZDB aber auch eine SRU-Schnittstelle, die XML-Daten liefert.
siehe: SRU Datenbankabfrage
Hier ist das Beispiel aus dem Wiki als MARCXML:

Wenn dort die gewünschten Werte stehen (welche?), werde ich SRU benutzen und den Krampf mit Z39.50 weglassen.

  • Antwort3: da finde ich leider keinen Hinweis der ZDB über die Vorgänger und Nachfolger der Zeitschrift. Aber ich bin da auch nicht den Fachmann. Auch ein Punk für die Kolleginnen morgen. Ich bin immer mehr gespannt, was da morgen heraus kommt. Sorry für heute.
  • Antwort4: Aus Digitzeit die Anzeige von Vorgänger und Nachfolger, was ich mal Steffen gesandt hatte. Vielleicht kommen Sie an die DigiZeit-Lösung ran?

"[...] bei DigiZeitschriften http://www.digizeitschriften.de/dms/toc/?PPN=PPN391365657 ist in der Übersicht Vorgänger- und Nachfolgerzeitschrift angegeben."

  • Meldung:

die Darstellung der Vorgänger- und Nachfolgerzeitschrift in der Präsentation ist eigentlich eine ganz andere Geschichte.
Erstmal brauchen wir die Identifier o.ä. dieser Zeitschriften, die (so ging es aus der Skype-Konferenz letzte Woche hervor) in diesen ZDB-Datensätzen vorhanden sein sollen. Da die ZDB anscheinend unterschiedliche Formate liefern kann, würde ich gerne MARCXML verwenden, falls die nötigen Werte dort ebenfalls enthalten sind
(was im Wiki steht, sieht aus wie ein Z.3950-Datensatz, der schwieriger zu parsen ist.)

8.6 Fragen vom 14.04.2011 Vorgänger und Nachfolger[Bearbeiten | Quelltext bearbeiten]

Beim WebOPAC der ZDB suchen Sie z.B. „Deutsches Philologen-Blatt“ und gehen dann auf den Karteireiter "Titeldaten": dort sind die Vorgänger und Nachfolger komplett nachverfolgbar.

ZDB

Bei der internen Ansicht des Datensatzes sieht man das so (hier die Zeitschrift mit Vorgänger/kein Nachfolger/mit Beilage):


 001@	$012,16-18,33-34,52,60,86,91,96,105-106,111,117$a3
 001A	$01996:07-02-05
 001B	$09999:09-03-10$t09:41:56.000
 001D	$09001:26-05-05
 001X	$00
 002@	$0Obvz
 003@	$0027061086
 006Z	$02176772-5
 009Q	$uhttp://www.bbf.dipf.de/cgi-opac/catalog.pl?t_digishow=x&zid=2a1081$xD$zLF
 009Q	$uhttp://www.bibliothek.uni-regensburg.de/ezeit/?2176772$xF
 010@	$ager
 011@	$a1912$b1935
 016A	$acr
 017A	$adm
 019@	$aXA-DXDE
 021A	$aDeutsches Philologen-Blatt$nElektronische Ressource$dKorrespondenz-Blatt 
          für der akademisch gebildeten Lehrerstand ''ist (TitleDocMain + TitleDocSub1)''
 031@	$a20.1912 - 43.1935,6
 033A	$pLeipzig
 034D	$aOnline-Ressource
 039C	$9024493015$8: Blätter für Rechtsfragen des höheren Unterrichtswesens
 039D	$aDruckausg.$9011207256$8: Deutsches Philologen-Blatt
 039E	$bf$9027046958$8: Korrespondenzblatt für den akademisch gebildeten Lehrerstand ''ist (CatalogIDPredecessor)''
 045U	$e370$a280
 101@	$a12

Bei ZDB-Datensatz mit Vor- und Nachgänger steht dort:

039E    $bf$9027071367$8<Obvz>: Korrespondenzblatt für die Philologenvereine Deutschlands 
039E    $bs$9027061086$8<Obvz>: Deutsches Philologen-Blatt

bf = Vorgänger "f"rüher

bs = Nachfolger "s"päter

Bei SRU
<datafield tag="780" ind1="0" ind2="0">
<subfield code="i">Vorg.:</subfield>
<subfield code="t">Korrespondenzblatt für die Philologenvereine Deutschlands</subfield>
<subfield code="w">(DE-600)2177061-X</subfield>
<subfield code="w">(DE-101)027071367</subfield>
</datafield>
[…]
<datafield tag="785" ind1="0" ind2="0">
<subfield code="i">Forts.:</subfield>
<subfield code="t">Deutsches Philologen-Blatt</subfield>
<subfield code="w">(DE-600)2176772-5</subfield>
<subfield code="w">(DE-101)027061086</subfield>
</datafield>
SRU Datensatz mit Beilage
<datafield tag="770" ind1="0" ind2="8">
<subfield code="i">Beil.:</subfield>
<subfield code="t">Blätter für Rechtsfragen des höheren Unterrichtswesens</subfield>
<subfield code="w">(DE-600)2105902-0</subfield>
<subfield code="w">(DE-101)024493015</subfield>
</datafield>

ZDB-Datensatz im PICA3-Format, Grundlage für Import in die Allegro-Datenbank.

Eingabe: 1996:07-02-05 Änderung: 9999:09-03-10 09:41:56 Status: 9001:26-05-05

0500 Obvz
0600 dm
1100 1912-1935
1101 cr
1500 /1ger
1700 /1XA-DXDE
2110 2176772-5
4000 Deutsches Philologen-Blatt [[Elektronische Ressource]] : Korrespondenz-Blatt für der akademisch gebildeten Lehrerstand
4025 20.1912 - 43.1935,6
4030 Leipzig
4060 Online-Ressource
4085 =u http://www.bbf.dipf.de/cgi-opac/catalog.pl?t_digishow=xÿ&zid=2a1081=x D=z LF
4085 =u http://www.bibliothek.uni-regensburg.de/ezeit/?2176772=x F
4242 !024493015!--Obvz--: Blätter für Rechtsfragen des höheren Unterrichtswesens
4243 Druckausg.!011207256!--Abvz--: Deutsches Philologen-Blatt
4244 f#!027046958!--Obvz--: Korrespondenzblatt für den akademisch gebildeten Lehrerstand
5080 370%280

8.7 Nachfrage vom 26.08.2011 Vorgänger und Nachfolger[Bearbeiten | Quelltext bearbeiten]

Lieber Steffen, erinnerst Du Dich, dass wir bei der OPAC-Abfrage von Goobi, also bei der Neuanlage eines Vorgangs eben dieses Einlesen von Daten für CatalogIDSuccessorPeriodical und CatalogIDPredecessorPeriodical automatisch machen wollten?

Wenn das machbar wäre, dann könne man sich die manuelle Arbeit sparen. Immerhin sind es über 2.000 Bände, die importiert werden.

Den Nachfolger kann man per Abfrage auch ermitteln. In der Zeitschrift sind Vorgänger und Nachfolger in dem Feld 039E vermerkt.

Beispiel: Zeitschrift der Gesellschaft für Erdkunde zu Berlin [Elektronische Ressource] : zugl. Organ d. Deutschen Geographischen Gesellschaft IDN:026265060

Vorgänger in 039E: 	$bf$9026265001$8<Obvz>: Zeitschrift für allgemeine Erdkunde
(Die IDN "026265001" liegt im Pica+ Feld 039E spezifischer Vortext $bf und dann $9026265001) 
Hinspringen im ZDB-OPAC: Eingabe: "IDN: 026265001" - voila!
Nachfolger in 039E: 	$bs$902589501X$8<Obvz>: [Die @Erde <Berlin>]
(Die IDN "02589501X " liegt im Pica+ Feld 039E spezifischer Vortext $bs und dann $902589501X) 
Hinspringen im ZDB-OPAC: Eingabe: "IDN: 02589501X" - voila!

siehe: http://www.zeitschriftendatenbank.de/erschliessung/arbeitsunterlagen/zeta/4244/

Kann man daraus was machen? siehe auch Intranda Vorgänger-Nachfolger-Stellungnahme

8.8 Abfrage der MARC XML Daten[Bearbeiten | Quelltext bearbeiten]

Am Ende die ZDB-IDN hinter "%3D" anfügen.

<datafield tag="780" ind1="0" ind2="0"><subfield code="i">Vorg.:</subfield><subfield code="t">Zeitschrift für allgemeine Erdkunde</subfield><subfield code="w">(DE-600)2155428-6</subfield><subfield code="w">(DE-101)026265001</subfield></datafield><datafield tag="785" ind1="0" ind2="0"><subfield code="i">Forts.:</subfield><subfield code="t">˜Dieœ Erde <Berlin></subfield><subfield code="w">(DE-600)2143291-0</subfield><subfield code="w">(DE-101)02589501X</subfield></datafield>

Zeitschriftendaten Mapping Pica3/MAB/MARC21 [| ZETA]

9 Praktische und zeitliche Abfolge bis Präsentation im Viewer[Bearbeiten | Quelltext bearbeiten]

siehe Ablaufplan Goobi-Projekt "Allegro"

10 Links[Bearbeiten | Quelltext bearbeiten]