From 111b08164d8dccad65940bbe19516a9ea848320e Mon Sep 17 00:00:00 2001 From: Benjamin Franzke Date: Fri, 18 May 2012 09:58:16 +0200 Subject: document: s/ue/ü/ MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- doc/document.asciidoc | 72 +++++++++++++++++++++++++-------------------------- 1 file changed, 36 insertions(+), 36 deletions(-) (limited to 'doc') diff --git a/doc/document.asciidoc b/doc/document.asciidoc index 571b49e..5f3d1e7 100644 --- a/doc/document.asciidoc +++ b/doc/document.asciidoc @@ -11,8 +11,8 @@ Vorbetrachung der Daten Bei der Datenvorbetrachung konnten weitere Informationen herrausextrahiert werden. -Die Summer aller Quantitäten abgetragen in einem Graphen ueber die Zeit ergab -eine deutliche periodische Schwankung ueber sieben Tage. +Die Summer aller Quantitäten abgetragen in einem Graphen über die Zeit ergab +eine deutliche periodische Schwankung über sieben Tage. Aus dieser Erkenntniss herraus wurde das Sevenday-Verfahren(siehe unten) entwickelt. @@ -33,54 +33,54 @@ image::image/opt_pred_pie.svg[Anteil der Verfahren an der Gesammtlösung] Mittelwert ~~~~~~~~~~ -Beim Mittelwertverfahren wird fuer jedes Produkte ueber die Trainingsmenge -der Mittelwert gebildet und fuer den unbekannten Zeitraum Vorhergesagt. +Beim Mittelwertverfahren wird für jedes Produkte über die Trainingsmenge +der Mittelwert gebildet und für den unbekannten Zeitraum Vorhergesagt. Dabei wurde eine Fehlerpunktzahl von 489 erreicht. Sevenday-Verfahren ~~~~~~~~~~~~~~~~~~ -Wenn man die Summe ueber dem Absatz alle Produkte fuer alle 42 Tage in einem +Wenn man die Summe über dem Absatz alle Produkte für alle 42 Tage in einem Diagram abträgt, sieht man eine sehr deutliche periodische Schwankung der Werte. image::image/q_sum.svg[Quantitätssumme] Diese Schwanken in einem Sieben-Tage-Rhythmus. Unter der Anahme, das dieses Verhalten jedem oder zumindest in den meisten Produkte zu grunde liegt, wurde das Sevenday-Verfahren entwickelt. -Der Ansazt geht davon aus, dass der Absatz im mittel ueber eine Woche immer -gleich ist und sich nur ueber Absatzstarke und -schwache Tage verteilt. +Der Ansazt geht davon aus, dass der Absatz im mittel über eine Woche immer +gleich ist und sich nur über Absatzstarke und -schwache Tage verteilt. -Beim Sevenday-Verfahren wird fuer jeden Wochentag ein Mittelwert gebildet und +Beim Sevenday-Verfahren wird für jeden Wochentag ein Mittelwert gebildet und Vorhergesagt. -In der Summer versucht man also ueber sieben Tage einen mittlere Schwingung -der Sieben-Tage-Schankung zu erzeugen und dieses dann fuer den unbekannten +In der Summer versucht man also über sieben Tage einen mittlere Schwingung +der Sieben-Tage-Schankung zu erzeugen und dieses dann für den unbekannten Zeitraum vorherzusagen. image::image/sevenday_pred.svg[Quantitätssumme mit Sevenday-Vorhersage] In diesem Diagramm ist die mittlere kurve in den Vorhersagezeitraum abgetragen worden. Das Ergebniss sieht optisch gut aus, aber enttäuscht in der Fehlerzahl von 484 Punken. -Wenn fuer eine Produkt an einem Tage ein zu hoher Wert vorhergesagt wird und -fuer ein anderes Produkt ein zu niedriger im Vergleich zu den Realwerten, +Wenn für eine Produkt an einem Tage ein zu hoher Wert vorhergesagt wird und +für ein anderes Produkt ein zu niedriger im Vergleich zu den Realwerten, dann gleichen sich die Negativen- und Positvenabstände in der Summer wieder aus. Daher kann das Verhalten der Siebentagesschwankung nicht alleine Auschlaggebend -fuer den Absatz eines Produktes sein. +für den Absatz eines Produktes sein. Lineare-Approximation Zeit -> Quantität ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Bei der Approximation der Quantitätskurve zu einer geraden, wird versucht einen allgemein steigenden oder fallenden Trend eines Produktes zu erkennen. -Hierbei wird davon ausgegangen, dass sich ein Produkt ueber eine grosseren +Hierbei wird davon ausgegangen, dass sich ein Produkt über eine grosseren Zeitraum im mittelveränder. Anders als beim Mittelwertverfahren, welches von einer immer gleichbleibenden Grundabsatzmenge ausgeht, wird hier ein Trend mit bedacht. -Der Verlauft der Quantität ueber die Trainingsdaten wird linear angenähert und -fuer den die Vorhersage benutzt. +Der Verlauft der Quantität über die Trainingsdaten wird linear angenähert und +für den die Vorhersage benutzt. -Das Ergebniss dieses Verfahrens lieferte fuer einige Produkte z. B. dem Ersten +Das Ergebniss dieses Verfahrens lieferte für einige Produkte z. B. dem Ersten eine etwas besseres Ergebniss als der Reine Mittelwert. -Fuer andere allerdings einen viel zu steilen Anstieg, der ziemlich grosse +Für andere allerdings einen viel zu steilen Anstieg, der ziemlich grosse Fehlerwerte verussachte. TODO: Fehlerwerte noch mal bestimmen! @@ -94,21 +94,21 @@ Mit diesem Verfahren wird versucht beide Einflussgrössen bei der Vorhersage zu beachten. Dabei wurde zunächte eine Fourie-Analyse der Kurve der Absatzsumme alle -Produkte ueber die 42 Tage der Vorhersagemenge durchfuehrt, um die Frequenzen +Produkte über die 42 Tage der Vorhersagemenge durchführt, um die Freqünzen der Siebentagesschwankung empirisch zu bestimmen. -Es wurde jeweil einzelne Frequenzen entfernt und bei der Ruecktransformation +Es wurde jeweil einzelne Freqünzen entfernt und bei der Rücktransformation ein Digramm erwartet, welches dem mittelwert ähnelt. ... -Die so ermittelten Frequenzen wurden dann nach der normalen Preis -> Quantitäts +Die so ermittelten Freqünzen wurden dann nach der normalen Preis -> Quantitäts approxiamtion wieder hinzu genommen. Grundidee: -- herrausrechnen der 7-Tage-Einbruche aus den Trainingsdaten fuer die Regression - und eine Approximation fuer reinen Preis->Quantitäts-Zusammenhang. -- 7-Tage-Einbrueche hinein rechnen. +- herrausrechnen der 7-Tage-Einbruche aus den Trainingsdaten für die Regression + und eine Approximation für reinen Preis->Quantitäts-Zusammenhang. +- 7-Tage-Einbrüche hinein rechnen. Der Absatz eines Produktes setzt sich aus verschiedenen Einflussfaktoren zusammen. @@ -120,9 +120,9 @@ Dieses Verfahren wurde entwickelt um Plausibität der anderen Verfahren zu Testen und um der Vermutung nach zu gehen, das es Produkte gibt, welche gar nicht vorhersagbar sind. -Bei dieses Verfahren wurde fuer jedes Product der Mittelwert und die +Bei dieses Verfahren wurde für jedes Product der Mittelwert und die Standardabweichung ermittelt. -Mit dieses Parametern konnten fuer jedes Product 14 Werte zufällig fuer die +Mit dieses Parametern konnten für jedes Product 14 Werte zufällig für die Vorhersage bestimmt werden. Zur Zufallsbestimmung wurden Octave-interen Zufallsfunktionen mit Normal- und mit Chi-Verteilung benutzt. @@ -137,35 +137,35 @@ Circa 7% der Podukte liessen sich mit Zufall besser vorhersagen, als duch die Zuvor beschriebenen Verfahren. Es stellte sich aber herraus, dass es bei jedem duchlauf andere Produkte waren, welche mit dem Vergleich zu den Realendaten besser vorhergesagt wurden. -Somit war dieses Verfahren keine Option fuer eine seriöse Vorhersage fuer +Somit war dieses Verfahren keine Option für eine seriöse Vorhersage für unbekannten Datensätze. Optimierungsverfahren ~~~~~~~~~~~~~~~~~~~~~ Das Optmierungsverfahren ist Post-Clustering und wurde im Script 'opt_pred.m' implementiert. -Dieses Meta-Verfahren bestimmt fuer jedes Produkt eines der oben genannten -Verfahren, welches den geringsten Fehlerwert bei der Vorhersage ueber der +Dieses Meta-Verfahren bestimmt für jedes Produkt eines der oben genannten +Verfahren, welches den geringsten Fehlerwert bei der Vorhersage über der Trainingsmenge ergab. -Dabei werden die Vorhersage-Matrizen der Verfahren mit den Real-Daten ueber die +Dabei werden die Vorhersage-Matrizen der Verfahren mit den Real-Daten über die Manhatten-Distanz verglichen. Als Ergebnis erhält man nun einen Vektor, welches die Indizes der jeweils besten Verfahren enthält. -Die Position des Indizes spiegelt dabei das Produkt wieder, fuer die dieses +Die Position des Indizes spiegelt dabei das Produkt wieder, für die dieses Verfahren am besten geeignet ist. -Mit diesem Vektor können nun die Vorhersagen der einzelnen Produkte fuer den +Mit diesem Vektor können nun die Vorhersagen der einzelnen Produkte für den unbekannten Zeitraum zusammen gelegt werden. image::image/opt_pred_pie.svg[OptimizePie] -Dieses Verfahren wuerde sich auch gut zur Bestimmung des Abgabe-Datensatzes fuer +Dieses Verfahren würde sich auch gut zur Bestimmung des Abgabe-Datensatzes für den Daten-Mining-Cup eignen. -Dabei könnten alle Teams fuer ihre Verfahren einmal ihre Vorhersage fuer die -Tage 29 bis 42 in Form der "train.txt" und ihre Vorhersagen fuer den unbekannten +Dabei könnten alle Teams für ihre Verfahren einmal ihre Vorhersage für die +Tage 29 bis 42 in Form der "train.txt" und ihre Vorhersagen für den unbekannten Zeitraum abgeben. Anhand der verschiedenen Fehler der Vorhersagen pro Produkt könnte wie oben beschrieben ebenfalls ein Vektor mit den Indizes der Verschiedenen Einreichungen -erstellt werden und damit auch der Datensatz fuer die Einreichung im Wettbewerb. +erstellt werden und damit auch der Datensatz für die Einreichung im Wettbewerb. // vim: set syntax=asciidoc: -- cgit