Datenimport < Mathematica < Mathe-Software < Mathe < Vorhilfe
|
Status: |
(Frage) überfällig | Datum: | 17:01 So 16.12.2012 | Autor: | belle |
Aufgabe | Es soll aus einer externen Datei ein Ausschnitt in
Mathematica zur Verfügung gestellt werden.
Die externe Datei ist eine zweidimensionale table mit
sehr, sehr vielen Records. |
Hallo, guten Tag,
Es gibt eine externe Datendatei, eine Text-Datei.
Sie enthält Datensätze (Records) mit Feldern (Words).
Es soll aus dieser externen Datei ein Ausschnitt in
Mathematica zur Verfügung gestellt werden.
Die externe Datei ist eine zweidimensionale table mit
sehr, sehr vielen Records.
Hier ist ein Beispiel der Struktur der externen Datei, wie
sie ein Editor einliest.
3118;Dark Red;47:50:54;4307805
844;Turquoise;41:17:05;0184381
2653;Moccasin;12:41:45;9794530
1620;Pale Golden Rod;21:55:28;5318409
551;Light Blue;33:18:10;3043935
5311;Rosy Brown;38:35:01;5191061
9823;Peach Puff;43:34:03;5282118
8522;Cyan;18:10:36;0715607
6931;Dark Orange;42:11:27;8638750
1339;Silver;47:32:29;1131182
Daraus sollen Ausschnitte gebildet werden.
Hier Beispiele wie ein Ausschnitt fertig sein muß.
1620;Pale Golden Rod
551;Light Blue
5311;Rosy Brown
9823;Peach Puff
(das sind die Worte 1 bis 2 der Reihen 4 bis 7)
oder
Pale Golden Rod;21:55:28
Light Blue;33:18:10
Rosy Brown;38:35:01
Peach Puff;43:34:03
(das sind die Worte 2 bis 3 der Reihen 4 bis 7)
und auch
21:55:28;5318409
33:18:10;3043935
38:35:01;5191061
43:34:03;5282118
(das sind die Worte 3 bis 4 der Reihen 4 bis 7)
Jetzt habe ich was realisiert, ist aber nicht besonders
effizient und sicher auch nicht elegant. Wer weiß es besser?
Zunächst mit Skip bis zur ersten gewünschten Zeile.
Timing[Skip[instr, "Record", abrec, NullWords -> True]]
Danach die nicht gebrauchten vorderen Worte skippen. Die gewünschten
mit der Schleife einlesen. Die nicht gebrauchten am Ende des Records
wieder skippen. Das Ganze in der Schleife für die Anzahl der
gewünschten Reihen.
Timing[
extract = {};
Do[Skip[instr, Word, abw, WordSeparators -> delim];
Do[extract =
extract <> Read[instr, Word, NullWords -> True,
WordSeparators -> delim] <> deli, {i, azw}];
extract = StringTrim[extract, delim] <> [mm] "\n";
[/mm]
Skip[instr, Word, rest, WordSeparators -> delim], {j,azr}];
]
Wie gesagt ist die reale Datei groß. sie hat 1000 Millionen Records.
Es werden z.B. aus 1.000.000 Reihen die Spalten 5 bis 10 von 20 Spalten, ab der Zeile 10.000.000 gebraucht.
Geht es eleganter? Weil es zuviel Zeit verbraucht. Zu meiner
Ehrenrettung ist zu sagen, das ich kein Experte bin. Sondern
Künstler und brauche das für ein Kunstprojekt.
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 17:20 Sa 22.12.2012 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|