M. Pritsch
Grünschnabel
Hallo alle zusammen,
weis nicht ob ich im richtigen Forum bin, frag aber trotzdem mal:
Und zwar hab ich die Aufgabe mein Speicherverfahren von Zeitreihen
(-> http://de.wikipedia.org/wiki/Zeitreihen)
in Postgresql/Unix neu zu überdenken. Ein Zeitreihenglied besteht in der Regel aus einem Zeit- und einem Meßwert, sowie möglicherweise mehreren Zusatzinformationen. Man kann sie als Zeit-Funktion mit x-y-Werten auffassen bzw. wenn man sie in Blöcke zerlegt, als Vektoren in einem n-dimensionalen Raum.
In meiner Datenbank liegen schon an die 50 millionen Einträge und steigern sich täglich um ca. 25 000 weitere. Das bisherige Speicherverfahren beschränkte sich auf triviales Einfügen aller Daten in eine Tabelle. Dabei Stand sequentielles Durchsuchen/Sortieren nach Datum im Vordergrund. Leider dauert dieses mit der Zeit immer länger. Auch das interne Indizierungsverfahren mit B-Trees stellt nicht die Verbesserung dar, die gewünscht wäre. Am meisten bemerkbar machen sich aber die ganzen Joins.
Ist hier jemanden bekannt welche Techniken oder Indexe (z.B. Skyline Index) sich bewehrt haben bzw. ob vielleicht ein Hybridverfahren mit Auslagerung in Blockdateien (z.B. in C geschrieben - vorallem unter welcher lib-benutzung) den Datenzugriff beschleunigen könnten. Hier würde ich mich sehr über Tipps zu einschläger Literatur freuen.
Desweiteren würde mich das Quadermodell interessieren, mit dem das destatis arbeitet (hab leider keine Publikationen im Netz gefunden).
Vielleicht kann mir ja jemand mit ein bischen Erfahrung auf diesem Gebiet einschlägige Ratschläge geben. Würde mir sehr weiterhelfen. Danke.
weis nicht ob ich im richtigen Forum bin, frag aber trotzdem mal:
Und zwar hab ich die Aufgabe mein Speicherverfahren von Zeitreihen
(-> http://de.wikipedia.org/wiki/Zeitreihen)
in Postgresql/Unix neu zu überdenken. Ein Zeitreihenglied besteht in der Regel aus einem Zeit- und einem Meßwert, sowie möglicherweise mehreren Zusatzinformationen. Man kann sie als Zeit-Funktion mit x-y-Werten auffassen bzw. wenn man sie in Blöcke zerlegt, als Vektoren in einem n-dimensionalen Raum.
In meiner Datenbank liegen schon an die 50 millionen Einträge und steigern sich täglich um ca. 25 000 weitere. Das bisherige Speicherverfahren beschränkte sich auf triviales Einfügen aller Daten in eine Tabelle. Dabei Stand sequentielles Durchsuchen/Sortieren nach Datum im Vordergrund. Leider dauert dieses mit der Zeit immer länger. Auch das interne Indizierungsverfahren mit B-Trees stellt nicht die Verbesserung dar, die gewünscht wäre. Am meisten bemerkbar machen sich aber die ganzen Joins.
Ist hier jemanden bekannt welche Techniken oder Indexe (z.B. Skyline Index) sich bewehrt haben bzw. ob vielleicht ein Hybridverfahren mit Auslagerung in Blockdateien (z.B. in C geschrieben - vorallem unter welcher lib-benutzung) den Datenzugriff beschleunigen könnten. Hier würde ich mich sehr über Tipps zu einschläger Literatur freuen.
Desweiteren würde mich das Quadermodell interessieren, mit dem das destatis arbeitet (hab leider keine Publikationen im Netz gefunden).
Vielleicht kann mir ja jemand mit ein bischen Erfahrung auf diesem Gebiet einschlägige Ratschläge geben. Würde mir sehr weiterhelfen. Danke.