-
Notifications
You must be signed in to change notification settings - Fork 1
Expand file tree
/
Copy pathmove_files_from_crawldir.sh
More file actions
executable file
·53 lines (53 loc) · 2 KB
/
move_files_from_crawldir.sh
File metadata and controls
executable file
·53 lines (53 loc) · 2 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
#!/bin/bash
# Dieses Skript verschiebt Dateien aus dem wpull-Arbeitsverzeichnis in das wpull-Outputverzeichnis.
# Das Verschieben wird nur durchgeführt, wenn im Arbeitsverzeichnis keine WARC-Datei mehr liegt.
# Dass im Arbeitsverzeichnis keine WARC-Datei mehr liegt bedeutet, dass der Crawl beendet ist.
# Grundsätzlich werden alle Dateien aus dem Arbeitsverzeichnis verschoben. Das Arbeitsverzeichnis wird anschließend gelöscht.
# Typische Dateien, die von der Verschiebung betroffen sind, sind Log-Dateien (cdncrawl.log, cdnparse.log, cdn.txt, crawl.log) und die DB-Dateien (*.db).
# Autor : I. Kuss
# Datum : 05.03.2020
echo "*************************************************************"
echo "BEGINN move files from crawldir " `date`
echo "*************************************************************"
jobDir=/opt/toscience/wpull-data-crawldir
outDir=/opt/toscience/wpull-data
cd $jobDir
for crawldir in *:*/20*/; do
if [ ! -e "$crawldir" ]; then
echo "Leeres Crawldir, nichts zu tun."
echo
exit 0
fi
break
done
for crawldir in `ls -d *:*/20*/`; do
echo "crawldir=$crawldir"
cd $jobDir/$crawldir
for warcfile in $outDir/${crawldir}*.warc.gz; do
if [ -e "$warcfile" ]; then
# WARC-Datei existiert in outDir => verschieben
echo "WARC-Datei $warcfile existiert."
# Dateien verschieben
echo "Crawl wurde abgeschlossen. Dateien werden verschoben."
mv * $outDir/$crawldir
aktdirname=`basename $PWD`
cd ..
rmdir $aktdirname
echo "Verzeichnis $PWD/$aktdirname wurde gelöscht."
if [ -z "$(ls -A $PWD)" ]; then
# aktuelles Verzeichnis ist leer
aktdirname=`basename $PWD`
cd ..
rmdir $aktdirname
echo "Verzeichnis $PWD/$aktdirname wurde gelöscht."
fi
else
echo "Crawl läuft, wurde abgebrochen oder ist fehlgeschlagen."
fi
# wir wollten nur wissen, ob es eine WARC-Datei im Zielverzeichnis schon gibt; keine Iteration
break
done
done
echo "ENDE move files from crawldir " `date`
echo
exit 0