Sunday 5 March 2017

Moving Average Ausreißer

Sagen Sie, ich habe eine Postgresql-Tabelle mit den folgenden Werten. Wenn ich postgresql verwenden, um den Durchschnitt zu berechnen, gibt es mir durchschnittlich 24 8, weil der hohe Wert von 100 hat großen Einfluss auf die Berechnung Während in der Tat würde ich gerne einen Durchschnitt zu finden Irgendwo um 6 und beseitige die extreme sI bin auf der Suche nach einem Weg, um Extreme zu beseitigen und wollen dies statistisch korrekt machen Die extreme s kann nicht behoben werden Ich kann nicht sagen Wenn ein Wert über X ist, muss es beseitigt werden. Ich habe mich gebeugt Kopf auf die postgresql aggregate Funktionen, aber kann nicht meinen Finger auf, was ist richtig für mich zu verwenden Any suggestions. asked Mai 29 10 bei 8 41.Postgresql kann auch die Standardabweichung zu berechnen. Sie können nur die Datenpunkte, die im Durchschnitt sind - 2 stddev, die in etwa den 90 datapoints entsprechen würde, die dem Durchschnitt am nächsten sind. Natürlich 2 kann auch 3 95 oder 6 99 995 sein, aber nicht auf die Zahlen aufgehängt werden, weil in Gegenwart einer Sammlungsausreißer Sie nicht mehr handeln Mit einer normalen Verteilung. Be sehr vorsichtig und validieren, dass es wie erwartet funktioniert. Mind mit der ntile Fenster Funktion Es erlaubt Ihnen, extrem extreme Werte aus der Ergebnismenge zu isolieren. Stellen Sie sagen, Sie möchten 10 von beiden Seiten der Ergebnismenge schneiden Dann geben Sie den Wert von 10 zu ntile und suchen nach Werten zwischen 2 und 9 würde Ihnen das gewünschte Ergebnis Halten Sie auch im Hinterkopf, dass, wenn Sie weniger als 10 Datensätze haben, könnten Sie versehentlich mehr als 20 schneiden, also seien Sie sicher, die Summe zu überprüfen Anzahl der Datensätze als auch. Erweiterte Jun 29 16 bei 14 28. Ihre Antwort.2017 Stack Exchange, Inc. Wir haben einen Dämon, der in Daten von einigen Sensoren liest, und unter den Dingen, die es berechnet, einfach nur die Berichterstattung der Staat ist der Durchschnitt Zeit dauert es, bis die Sensoren von einem Wert zum anderen wechseln. Es hält einen laufenden Durchschnitt von 64 Datenpunkten und geht davon aus, dass die Laufzeit ziemlich konstant ist. Leider ist, wie durch das folgende Diagramm gezeigt, die Eingabedaten nicht die meisten unberührten. Jede Zeile repräsentiert einen anderen Satz von Daten, die die x-Achse eigentlich nichts als eine vage historische Zeitachse bedeutet. Meine offensichtliche Lösung für den Umgang damit wäre es, ein Histogramm der Daten zu erstellen und dann den Modus zu wählen. Allerdings habe ich mich gefragt Wenn es andere Methoden gäbe, die eine bessere Leistung erzielen würden oder für den Betrieb mit einem laufenden Durchschnitt besser geeignet wäre. Einige schnelle Wikipedia-Suchvorschläge schlagen Algorithmen für die Erkennung von Ausreißern vor, die auch geeignet sind. Einfachheit ist ein Plus, da der Dämon in C. Edit geschrieben ist Out Wikipedia und kam mit diesen verschiedenen Techniken. Chauvenet s Kriterium mit dem Mittelwert und Standardabweichung, berechnen die Wahrscheinlichkeit ein bestimmter Datenpunkt würde passieren, und dann ausschließen, wenn die Wahrscheinlichkeit ist eigentlich so schlimm ist weniger als 50 Während dies scheint gut zu sein Geeignet für die Korrektur eines laufenden Durchschnittes auf der Fliege, ich bin nicht ganz überzeugt von seiner Wirksamkeit scheint es mit großen Datensätzen, die es nicht wollen, um datapoints verwerfen. Grubbs-Test Eine andere Methode, die Unterschied von der Mittelwert bis zur Standardabweichung verwendet und hat einige Ausdruck, wenn die Hypothese von kein Ausreißer abgelehnt wird. Cook s Abstand misst den Einfluss ein Datenpunkt hat auf einer kleinsten Quadrate Regression unsere Anwendung würde wahrscheinlich ablehnen, wenn es überschritten 1.Truncated mean Verwerfen Sie das Low-End und das High-End, und dann nehmen Der Mittelwert als normal. Anyone haben irgendeine spezifische Erfahrung und kann auf diesen statistischen Techniken kommentieren. Auch einige Anmerkungen über die körperliche Situation, die wir die durchschnittliche Zeit bis zum Abschluss einer mechanischen Waschmaschine messen, also sollte seine Laufzeit ziemlich konstant sein I m nicht Sicher, wenn es tatsächlich eine normale distribution. Edit 2 Eine weitere interessante Frage, wenn der Dämon bootstrapping ist, wie in, doesn t haben keine vorherigen Daten zu analysieren, wie sollte es mit eingehenden Daten zu tun Einfach nicht irgendwelche Ausreißer beschneiden. Edit 3 Eine weitere Ding, wenn die Hardware sich so ändert, dass die Laufzeiten anders werden, lohnt es sich, den Algorithmus genügend robust zu machen, so dass es gewann, dass ich diese neuen Laufzeiten verwerfe, ich sollte mich nur daran erinnern, den Cache zu spülen, wenn das passiert 09 at 7 24. Tawani - sie sind nicht alle fehlen den Punkt Was Sie sagen, muss mit generischen Begriffen definiert werden Sie können nicht mit einem einzigen Beispiel ohne allgemeine Definitionen gehen, wenn 400 ist 30 ist es immer noch ein Ausreißer Und wenn es 14 Und 9 Wo hörst du auf, du brauchst stddev s, reihen, quartiles, um das zu tun Daniel Daranas 2. Februar 09 um 17 05. Beschneiden Sie don t entfernen Ausreißer Sie nur don t enthalten sie in die Berechnung Entfernen könnte darauf hindeuten, dass Punkte nicht mehr sind In der dataset Und Sie don t entfernen oder ignorieren sie, weil sie Ausreißer sind das Kriterium ist in der Regel nur, dass sie in einigen extremen Bruchteil der Daten Ein Wert nicht in einem getrimmten Mittel enthalten ist oft nur etwas mehr oder weniger als der höchste niedrigste Wert Enthalten Nick Cox Dec 3 14 bei 16 48. Ich weiß nicht, ob es einen Namen hat, aber man konnte ganz einfach mit einer Reihe von Algorithmen, um Ausreißer ablehnen. Finden Sie alle Zahlen zwischen dem 10. und 90. Perzentile tun dies durch Sortierung dann Ablehnung Die ersten N 10 und die letzten N 10 Zahlen und nehmen den Mittelwert der verbleibenden Werte an. Sortierwerte, Ablehnung von hohen und niedrigen Werten, solange dadurch die mittlere Standardabweichung mehr als X. Sortwerte, ablehnen hoch und niedrig ist Werte, solange dies zu tun ist, sind die Werte in Frage mehr als K Standardabweichungen vom Mittelwert. Die gängigste Art, ein robustes übliches Wort zu haben, das für ein schlechtes Daten-Durchschnitt gilt, ist, den Median zu verwenden. Dies ist nur der Mittelwert In der sortierten Liste von halbem Weg zwischen den mittleren zwei Werten, also für dein Beispiel wäre es 90 5 auf halbem Weg zwischen 90 und 91.Wenn du wirklich in robuste Statistiken wie robuste Schätzungen der Standardabweichung usw. bekommen würdest, würde ich ein empfehlen Verloren von dem Code bei der AGORAS-Gruppe, aber dies kann zu fortgeschritten für Ihre Zwecke. answered Feb 13 09 bei 9 22.Wenn alles, was Sie haben, ist eine Variable, wie Sie implizieren Ich denke, einige der Befragten oben sind überkritisch über Ihren Ansatz Sicherlich andere Methoden, die Dinge wie Hebelwirkung betrachten, sind eher statistisch gesund, aber das bedeutet, dass du eine Modellierung irgendwelche Art machst. Wenn du nur zum Beispiel bei einem Test oder Alter von älteren Bürgern plausible Fälle deines Beispiels hast, denke ich, dass es praktisch und vernünftig ist Um verdächtig zu sein, dass der Ausreißer dich mitbringt Du könntest den gesamten Mittelwert und den getrimmten Mittel betrachten und sehen, wie viel es sich ändert, aber das wird eine Funktion deiner Stichprobengröße und die Abweichung vom Mittelwert für deine Ausreißer sein. Mit ungeheuerlichen Ausreißern So würde man sicherlich in den Datenerzeugungsprozess schauen wollen, um herauszufinden, warum das der Fall ist. Ist es eine Dateneingabe oder Verwaltungsflanke Wenn ja und es ist wahrscheinlich ohne Bezug auf den tatsächlichen wahren Wert, der unbeobachtet ist, scheint es mir ganz gut Zu trimmen Wenn es ein wahrer Wert ist, so weit wie Sie sagen können, können Sie nicht in der Lage zu entfernen, es sei denn, Sie sind explizit in Ihrer Analyse über it. answered Dec 3 14 bei 13 58. Meine Statistik Lehrbuch bezieht sich auf diese als Beispiel Mittelwert als Im Gegensatz zu einer Population Mean Sample impliziert, dass es eine Beschränkung auf den vollständigen Datensatz angewendet wurde, obwohl keine Modifikationsentfernung auf den Datensatz gemacht wurde. answered Mar 26 16 at 3 13.0 Willkommen auf der Seite 1 Welches Buch Bitte geben Sie eine Referenz 2 Beispiel Mittel nicht Typischerweise beziehen sich auf einen Mittel, der nach dem Entfernen von Ausreißern erhalten wird. Juho Kokkala Mar 26 16 um 8 06.It kann der Median sein Nicht immer, aber manchmal habe ich keine Ahnung, was es bei anderen Gelegenheiten genannt wird Hoffe das half zumindest ein wenig.


No comments:

Post a Comment