Programmkonfiguration INetCollect INetCollect, URL, Spider, Finder, Suchers, Grabber, e-mail adresse, Useragent,Begriffe, E-Mail-Adressen suchen, Bilder suchen

Online-Hilfe für INetCollect

INetCollect Grabber für E-Mail-Adressen, Bilder und andere Dateien suchen, E-Mail-Adressen, Bilder, Dateien Spider/Sucher/Finder

Programmkonfiguration INetCollect

Die Änderung der Einstellungen ist nur möglich, wenn kein Scan-Vorgang läuft.

Einstellungen für die Suche

Suchen nach

Wählen Sie aus nach was INetCollect auf der angegebenen URL suchen soll.

Wählen Sie "Benutzerdefiniert" und klicken Sie auf "Optionen" um benutzerdefinierte Dateitypen anzugeben. Beachten Sie bei der Angabe der Dateitypen, dass diese ohne Punkt angegeben werden müssen z.B. zip und nicht .zip.

Für Bilder können Sie optional auf "Größe" klicken und angeben, das nur Bilder mit bestimmter Größe gesucht werden sollen.
Hinweis: Zur Bestimmung der Größe müssen die Bilder durch INetCollect einzeln heruntergeladen und analysiert werden, entsprechend verlängert sich die Suchzeit für die Dateien.

Optionen zum Suchen

Suchtiefe gibt an wie tief INetCollect die jeweilige URL und verlinkte Unterseiten der URL durchsuchen soll. Die maximale Suchtiefe beträgt 99.

Anzahl gleichzeitiger Downloads gibt an wie viele gefundene Seiten gleichzeitig geladen werden sollen. Je höher der Wert ist, um so mehr Seiten werden in kürzer Zeit durchsucht. Die Geschwindigkeit hängt aber ebenfalls von Ihrer Downloadrate, ist diese niedrig, dann bewirkt eine Erhöhung dieses Werts nichts, da die Downloadbandbreite nicht mehr zulässt. Der maximale Wert beträgt 99.

Allen gefundenen Links verfolgen: Es werden alle gefunden Links analysiert, dies kann zu einer Endlosschleife führen, da das Internet natürlich riesig ist. Bei Verwendung dieser Einstellung müssen Sie den Scan-Vorgang selbst abbrechen.

Links nur innerhalb der Domain folgen: Es werden nur Links verfolgt, die sich innerhalb der Domain bzw. angegebenen URL befinden. Bei großen Webseiten kann das Scannen der verlinkten Seiten eine gewissen Zeit in Anspruch nehmen, jedoch wird INetCollect den Scan-Vorgang beenden.

Links nur innerhalb der Quell-URL: Es werden nur Links verfolgt, die sich im Verzeichnis und Unterverzeichnis der Quell-URL befinden. Z.B. http(s)://www.meinseite.de/unterverzeichnis1 durchsucht http(s)://www.meinseite.de/unterverzeichnis1 jedoch nicht http(s)://www.meinseite.de/unterverzeichnis2

Sicherung des Scan-Ergebnisses

Zur Sicherung des Scan-Ergebnisses stehen 2 verschiedene Methoden zur Verfügung:

Scan-Ergebnis in Liste zeigen und Speicherung selbst durchführen

INetCollect schreibt beim Scannen der Seiten, die gefundenen Elemente in eine Liste. Sie können diese Liste nach Beendigung/Abbrechen des Scanvorgangs selbständig speichern. Beim Speichern können Sie etwaige Duplikate entfernen lassen. Für Bilder besteht die Möglichkeit eine HTML-Seite mit den Verlinkungen auf die Bilder erstellen zu lassen, so dass eine Voransicht möglich ist.

Hinweis: Werde zu viele Elemente gefunden bzw. der Speicher ist aufgebraucht, dann kann INetCollect keine weiteren Elemente in die Liste speichern.

Scan-Ergebnis direkt in Text-Datei speichern

Geben Sie einen Dateinamen an, in den INetCollect die gefunden Elemente sofort speichern soll. Etwaige Duplikate können dabei nicht entfernt werden.

Hinweis: Sollte der Speicherplatz auf dem Laufwerk aufgebraucht sein, dann kann keine weitere Speicherung erfolgen.

Filter

Worte, die in der URL vorkommen müssen	Aktivieren Sie diese Einstellung und fügen Sie Begriffe zur Liste hinzu, die in der URL vorkommen müssen. URLs, die diese Begriffe nicht enthalten, werden bei der Suche ignoriert.
Worte, die in der URL NICHT vorkommen dürfen	Aktivieren Sie diese Einstellung und fügen Sie Begriffe zur Liste hinzu, die in der URL NICHT vorkommen dürfen. URLs, die diese Begriffe enthalten, werden bei der Suche ignoriert.

Erweiterte Einstellungen

Max. Queue-Größe für HTML-Dateien	Geben Sie an, wie viele HTML-Dateien vorgehalten werden sollen. Wird dieser Wert beim Scan-Vorgang überschritten, dann werde diese HTML-Dateien weggelassen. Der Standard-Wert beträgt 5000 Dateien. Ist die Anzahl zu groß, kann es zu Speichermangel bzw. zum Absturz des Programms führen. Beachten Sie durch das Scannen der Seiten werden immer wieder neue Dateien gefunden, da das Internet "unendlich" ist.
Timeout	Geben Sie an wie lange INetCollect auf das Empfangen einer Webseite warten soll. Reagiert der Webserver in der angegebenen Zeit nicht auf die Anforderung, dann wird ein neuer Versuch gestartet. Der Standardwert ist 300 Sekunden.
Anzahl Wdhls.versuche	Die Wiederholungsversuche geben an, wie oft INetCollect versuchen soll nach Überschreitung des Wertes Timeout die Seite nochmals zu erreichen. Der Standardwert ist 3.
Useragent	Sie können einen Useragenten (Browsernamen) aus der Liste wählen oder selbst einen eingegeben. Mit der Angabe Useragent greift INetCollect auf die Webseite beim Durchsuchen der Inhalte zu.
Proxy-Server	Die Angabe des Proxy-Servers ist normalerweise nur in Firmennetzwerken notwendig. Wählen Sie "Keinen verwenden (Direktverbindung zum Internet)", um prinzipiell keinen Proxy-Server zu verwenden "Einstellungen vom Windows-System (Systemsteuerung - Internetoptionen) übernehmen", um INetCollect anzuweisen die Standard-Windows-Einstellungen zu verwenden "Diese Einstellungen verwenden" und geben Sie die notwendigen Daten Proxy-Server, Proxy-Port an. Die Angabe des Benutzernamens und Passworts ist meistens nicht notwendig.