Inhaltsverzeichnis

Search

  1. Vorwort
  2. Einführung in die Datenumwandlung
  3. Datenprozessor-Umwandlung
  4. Assistent für Eingabe- und Ausgabeformate
  5. Relationale Eingabe und Ausgabe
  6. Verwenden des IntelliScript-Editors
  7. XMap
  8. Bibliotheken
  9. Schema-Objekt
  10. Eingabeaufforderung
  11. Skripte
  12. Parser
  13. Skriptports
  14. Dokumentprozessoren
  15. Formate
  16. Datenbehälter
  17. Anker
  18. Transformer
  19. Aktionen
  20. Serializer
  21. Mapper
  22. Lokatoren, Schlüssel und Indexierung
  23. Streamer
  24. Validatoren, Benachrichtigungen und Fehlerbehandlung
  25. Validierungsregeln
  26. Benutzerdefinierte Skriptkomponenten

Benutzerhandbuch

Benutzerhandbuch

Parser

Parser

Ein Parser liest ein Quelldokument in jedem Format. Sie können untergeordnete Komponenten hinzufügen, um Umwandlungen der Daten vorzunehmen.
Definieren Sie Parser auf der globalen Ebene des Skripts. Legen Sie einen Haupt-Parser als Startkomponente fest. Rufen Sie einen sekundären Parser mit der Aktion
RunParser
auf. Weitere Informationen hierzu finden Sie unter Parser.
Die Eigenschaften des
Parser
erscheinen über der Zeile
contains
. Unter der Zeile können Sie untergeordnete Komponenten wie Anker und Aktionen einfügen.
Die nachstehende Tabelle beschreibt die Eigenschaften der Komponente
Parser
:
Eigenschaft
Beschreibung
example_source
Definiert ein Beispielquelldokument zur Verarbeitung des Entwicklungsumfelds.
Sie können eine der folgenden Optionen auswählen:
  • Leer. Das Developer-Tool fordert Sie zur Eingabe eines Quelldokuments auf, wenn Sie den Parser ausführen.
  • InputPort. Definiert einen Eingabeport.
  • LocalFile. Definiert eine Datei im lokalen Dateisystem
  • Text. Definiert einen String.
  • URL. Definiert eine URL.
Standardwert ist "Leer".
Wenn die Eigenschaft
sources_to_extract
eingestellt ist, wird die Eigenschaft
example_values
in der Entwurfsumgebung ignoriert.
example_values
Definiert simulierte Werte, die von einer anderen Umwandlung an den Parser übergeben werden könnten. Verwenden Sie diese Eigenschaft, um einen Parser zu bezeichnen, der von einem anderen Parser aufgerufen wird. Ein Parser verwendet die Eigenschaft
example_values
nur für die Verarbeitung der Beispielquelle. Beim Parsen eines Quelldokuments wird die Eigenschaft ignoriert.
In den geschachtelten
ExampleValue
-Komponenten geben Sie die Datenbehälter, die der aufrufende Parser an diesen Parser übergibt, sowie deren simulierte Werte an.
ExampleValue
Definiert einen Beispielwert unter der Eigenschaft
example_values
.
format
Definiert das Format des Quelldokuments. Sie können eine der folgenden Optionen auswählen:
  • BinaryFormat
  • CustomFormat
  • HtmlFormat
  • Rtf Format
  • TextFormat
  • XmlFormat
Standardwert ist CustomFormat. Weitere Informationen hierzu finden Sie unter Formatkomponenten: Referenz.
name
Eine beschreibende Kennzeichnung für die Komponente. Diese Kennzeichnung wird in der Protokolldatei sowie der
Ereignisansicht
angezeigt. Ermitteln Sie anhand der Eigenschaft
name
, welche Komponente das Ereignis verursacht hat.
no_initial_phase
Legt fest, ob das Skript nach geschachtelten Ankern in der Hauptphase sucht. Sie können eine der folgenden Optionen auswählen:
  • Gelöscht. Es erfolgt eine Suche nach geschachtelten Ankern entsprechend ihren individuellen Eigenschaften.
  • Ausgewählt. Es erfolgt eine Suche nach geschachtelten Ankern in der Hauptphase.
Die Standardoption lautet „Gelöscht“.
Benachrichtigungen
Definiert eine Liste von
NotificationHandler
-Komponenten, die der Parser mit Benachrichtigungen durchführt, die von geschachtelten Komponenten ausgelöst werden. Weitere Informationen hierzu finden Sie unter Benachrichtigungen.
on_fail
Die Aktion, die beim Ausfall der Komponente durchgeführt wird. Sie können eine der folgenden Optionen auswählen:
  • Gelöscht. Es wird keine Aktion ausgeführt.
  • CustomLog. Es wird in das Benutzerprotokoll geschrieben.
  • LogError. Eine Fehlermeldung wird in das Engine-Protokoll geschrieben.
  • LogInfo. Eine Informationsmeldung wird in das Engine-Protokoll geschrieben.
  • LogWarning. Eine Warnmeldung wird in das Engine-Protokoll geschrieben.
  • NotifyFailure. Eine Mitteilung wird gesendet.
Die Standardoption lautet „Gelöscht“. Weitere Informationen über die Behandlung von Komponentenfehlern finden Sie in Fehlerbehandlung.
reject_recurring_pages
Legt fest, wie oft der Parser dieselbe Seite parst. Sie können eine der folgenden Optionen auswählen:
  • Ausgewählt. Der Parser parst eine Seite nur einmal.
  • Gelöscht. Der Parser parst die Seite jedes Mal, wenn er einem Link zu der Seite folgt.
Verwenden Sie
reject_recurring_pages
, wenn eine Website viele Links zu derselben Seite enthält.
Die Aktion
ResetVisitedPages
setzt die Verlaufsliste zurück und ermöglicht es dem Parser, eine Seite erneut zu verarbeiten – auch dann, wenn
reject_recurring_pages
ausgewählt wurde.
remark
Ein benutzerdefinierter Kommentar, der den Zweck oder die Aktion der Komponente beschreibt.
Serialisierungsmodus
Diese Eigenschaft definiert, wie das Skript mit den Teilen der Beispielquelle umgehen soll, die vom Parser nicht in XML umgewandelt werden, wenn Sie einen Serializer aus einem Parser erstellen. Weitere Informationen hierzu finden Sie unter Steuern der Arbeitsweise des Befehls „Serializer erstellen“.
Sie können eine der folgenden Optionen auswählen:
  • Vollständig. Bewirkt, dass der Befehl
    Serializer erstellen
    den nicht in XML umgewandelten Text in die Konfiguration des Serializers kopiert.
  • Outline. Bewirkt, dass der Befehl
    Serializer erstellen
    nur die Delimiter des nicht in XML umgewandelten Texts in die Konfiguration des Serializers kopiert. Wenn
    Outline
    ausgewählt ist, können Sie die Eigenschaft
    use_markers
    einstellen.
source
Definiert eine Sequenz von Datenbehältern für die Eingabe in den Parser. Jeder Datenbehälter wird durch eine der folgenden Eigenschaften ausgewiesen:
  • Locator. Identifiziert einen Einzel- oder Mehrfachinstanz-Datenbehälter. Bei Mehrfachinstanz-Datenbehältern greift jede Iteration auf eine neue Instanz zu.
  • LocatorByKey. Identifiziert einen Einzelinstanz-Datenbehälter nach Schlüssel.
  • LocatorByOccurence. Identifiziert einen Mehrinstanz-Datenbehälter nach Sequenznummer.
Legen Sie in einem sekundären Parser
Parser
source
Locator
data_holder
mit dem Datenbehälter fest, der im zugehörigen
AdditionalInputPort
data_holder
definiert ist. Weitere Informationen hierzu finden Sie unter Eigenschaft „source“.
sources_to_extract
Definiert eine hartcodierte Liste von Quelldokumenten, die der Parser verarbeitet. Sie können eine der folgenden Optionen auswählen:
  • DocList. Definiert eine Liste von
    LocalFile
    -,
    Text
    - und
    URL
    -Komponenten.
  • Leer. Der Parser verarbeitet die Komponente
    example_source
    .
  • FileSearch. Definiert einen Ordner im lokalen Dateisystem und einem Datennamenfilter.
  • InputPort. Definiert einen Eingabeport. Verwenden Sie diese Option nicht.
  • LocalFile. Definiert eine Datei im lokalen Dateisystem
  • Text. Definiert einen String.
  • URL. Definiert eine URL.
Standardwert ist "Leer".
Verwenden Sie die Eigenschaft
sources_to_extract
nur in der Entwurfsumgebung.
target
Definiert eine Sequenz von Datenbehältern für die Ausgabe aus dem Parser. Wenn der Datenbehälter noch nicht vorhanden ist, wird er vom Parser erstellt. Jeder Datenbehälter wird durch eine der folgenden Eigenschaften ausgewiesen:
  • Locator. Identifiziert einen Einzel- oder Mehrfachinstanz-Datenbehälter. Bei Mehrfachinstanz-Datenbehältern erstellt jede Iteration eine neue Instanz.
  • LocatorByKey. Identifiziert einen Einzelinstanz-Datenbehälter nach Schlüssel.
  • LocatorByOccurence. Identifiziert einen Mehrinstanz-Datenbehälter nach Sequenznummer.
Verwenden Sie die Eigenschaft
target
, wenn die Ausgabe des Parsers von einer anderen Komponente benutzt wird. Weitere Informationen hierzu finden Sie unter Eigenschaft „target“.
use_markers
Legt fest, ob der Befehl
Create Serializer
den Inhalt der
Marker
-Anker kopiert, aber nur die Delimiter anderer Nicht-XML-Texte.
use_markers
ist eine Option unter der Eigenschaft
serialization_mode
, wenn
outline
ausgewählt ist. Standardwert ist "Ausgewählt".