banner

Blog

Dec 01, 2023

Ein Deep-Learning-Ansatz zur Erkennung von Bohrerausfällen anhand eines kleinen Schalldatensatzes

Wissenschaftliche Berichte Band 12, Artikelnummer: 9623 (2022) Diesen Artikel zitieren

1905 Zugriffe

4 Zitate

3 Altmetrisch

Details zu den Metriken

Die Überwachung des Zustands von Maschinen ist in der Fertigungsindustrie von entscheidender Bedeutung. Durch die frühzeitige Erkennung fehlerhafter Komponenten in Maschinen zum Anhalten und Reparieren der ausgefallenen Komponenten kann die Ausfallzeit der Maschine minimiert werden. In diesem Artikel stellen wir eine Methode zur Erkennung von Fehlern in Bohrmaschinen mithilfe von Bohrgeräuschen bei Valmet AB vor, einem Unternehmen in Sundsvall, Schweden, das Geräte und Prozesse für die Produktion von Zellstoff, Papier und Biokraftstoffen liefert. Der Bohrdatensatz umfasst zwei Klassen: anomale Geräusche und normale Geräusche. Die effektive Erkennung von Bohrerausfällen bleibt aus folgenden Gründen eine Herausforderung. Die Wellenform des Bohrgeräuschs ist komplex und für die Erkennung kurz. Darüber hinaus existieren in realistischen Klanglandschaften sowohl Geräusche als auch Geräusche gleichzeitig. Außerdem ist der ausgewogene Datensatz klein, um modernste Deep-Learning-Techniken anzuwenden. Aufgrund dieser oben genannten Schwierigkeiten wurden Methoden zur Klangvergrößerung angewendet, um die Anzahl der Geräusche im Datensatz zu erhöhen. In dieser Studie wurde ein Faltungs-Neuronales Netzwerk (CNN) mit einem Langzeit-Kurzzeitgedächtnis (LSTM) kombiniert, um Merkmale aus Log-Mel-Spektrogrammen zu extrahieren und globale Darstellungen von zwei Klassen zu lernen. Als Aktivierungsfunktion für das vorgeschlagene CNN wurde anstelle der ReLU eine undichte gleichgerichtete lineare Einheit (Leaky ReLU) verwendet. Darüber hinaus wurde auf Frame-Ebene nach der LSTM-Schicht ein Aufmerksamkeitsmechanismus eingesetzt, um auf Anomalien in den Tönen zu achten. Infolgedessen erreichte die vorgeschlagene Methode eine Gesamtgenauigkeit von 92,62 % zur Klassifizierung zweier Klassen von Maschinengeräuschen im Valmet-Datensatz. Darüber hinaus ergab ein umfangreiches Experiment mit einem anderen Bohrdatensatz mit kurzen Geräuschen eine Genauigkeit von 97,47 %. Bei mehreren Klassen und lang anhaltenden Klängen erreicht ein Experiment unter Verwendung des öffentlich verfügbaren UrbanSound8K-Datensatzes 91,45 %. Umfangreiche Experimente mit unserem Datensatz sowie öffentlich verfügbaren Datensätzen bestätigen die Wirksamkeit und Robustheit unserer vorgeschlagenen Methode. Zur Reproduktion und Bereitstellung des vorgeschlagenen Systems ist ein Open-Source-Repository unter https://github.com/thanhtran1965/DrillFailureDetection_SciRep2022 öffentlich verfügbar.

Bohrfehlererkennungssysteme werden in Fabriken häufig eingesetzt, um Maschinenausfälle zu verhindern. Die Bohrmaschine ist mit 90 oder 120 Bohrern ausgestattet, um tausende kleine Löcher in die Metalloberfläche zu bohren1. Wenn Bohrer brechen, ist ein manuelles Bohren und eine Nachbearbeitung erforderlich, was ressourcenintensiv und insgesamt kostspielig für das Unternehmen ist. Der Wartungstechniker stoppt die Maschine alle 10 Minuten, um defekte Bohrer zu identifizieren und diese auszutauschen, bevor er die Bohrmaschine wieder in Betrieb nimmt. Daher ist ein Fehlererkennungssystem für die Bohrmaschine von entscheidender Bedeutung, um die Ausfallzeiten der Maschine sowie die Wartungskosten zu minimieren.

Im letzten Jahrzehnt wurden viele Studien zur Erkennung und Diagnose von Bohrerausfällen durchgeführt. Choi et al.2 schlugen eine Methode zur Merkmalsextraktion im Zeit- und Frequenzbereich vor, die als charakteristische Parameter des Bohrversagens (CPDF) bezeichnet wird. Im zweiten Schritt wurde ein mehrschichtiges Perzeptron (MLP) verwendet, um Bohrausfälle auf der Grundlage des Schwellenwerts für den Bohrzustandsindex vorherzusagen. Dies würde die Fehlerquote senken. Um die Genauigkeit der Diagnose von Bohrerversagen zu verbessern, schlugen Skalle et al.3 eine Methode vor, die auf der Symptomerkennung basiert (z. B. weiche Formation, Schnittansammlung, lokales Hundebein). Kumar et al.4 nutzten Vibrationssignale, um Bohrausfälle mithilfe von drei verschiedenen Klassifikationsschemata zu erkennen und zu klassifizieren: künstliche neuronale Netze (ANN), Support Vector Machines (SVM) und Bayes'sche Klassifikatoren. Da vibrationsbasierte Signale oft Rauschen enthalten, waren mehrere Techniken erforderlich, um Rauschen zu entfernen und die Quellen zu trennen, um die Fehlererkennungsgenauigkeit zu verbessern.

Forscher haben in den letzten Jahren Schall- und Vibrationsanalysen eingesetzt, um Fehler zu erkennen und zu klassifizieren5. Als Ergebnis der Entwicklung des Deep Learning wurden Convolutional Neural Networks (CNNs) zur automatischen Extraktion von Merkmalen zur Diagnose und Klassifizierung von Fehlern an Maschinen, insbesondere Bohrmaschinen, eingesetzt. Aufgrund des Vorteils der akustischen Analyse gegenüber Vibrationen schlug Glowacz6 eine akustisch basierte Fehlererkennungsmethode für elektrische Schlagbohrmaschinen und Kaffeemühlen vor. Diese akustischen Merkmale, einschließlich des quadratischen Mittelwerts (RMS) und einer Methodenauswahl der Amplitude mithilfe eines mehrfach erweiterten Filters (MSAF-17-MULTIEXPANDED-FILTER-14), wurden zur Klassifizierung des Fehlerstatus durch den Klassifikator für den nächsten Nachbarn verwendet. Um den Fehler bei elektrischen Schlagbohrmaschinen zu erkennen, ist es außerdem notwendig, den Fehler der Getriebevorrichtung der Bohrmaschine zu ermitteln, da die Zahnräder den Hauptbestandteil der Kraftübertragung darstellen. Jing et al.7 schlugen eine Methode zur Erkennung von Ausfällen elektrischer Schlagbohrmaschinen vor, indem sie eine logistische Regression aus zeitlich variierenden Lautstärken und akustischen Signalen nutzt.

In jüngster Zeit wurden eine Reihe von Techniken im Bereich der Fehlererkennung und Maschinenzustandsüberwachung untersucht. Hou et al.8 nutzten Wavelet-Paketenergie, um Merkmale aus akustischen Signalen zu extrahieren, und wandten dann eine Merkmalsauswahlmethode basierend auf dem Pearson-Korrelationskoeffizienten an, um Merkmale auszuwählen. Die ausgewählten Merkmale wurden zur Klassifizierung des Fehlerstatus mit einem neuronalen Netzwerkklassifikator verwendet. Neben Synchronhydraulikmotoren lässt sich dieser Ansatz auch auf andere rotierende Maschinen übertragen. In einem anderen Ansatz schlugen Wang et al.9 eine multimodale Methode zur Erkennung von Lagerfehlern durch die Fusion von akustischen und Vibrationssignalen vor, die vom Beschleunigungsmesser und vom Mikrofon mithilfe des eindimensionalen CNN gesammelt wurden.

In den letzten Jahren hat Deep Learning große Erfolge bei der Erkennung und Diagnose mechanischer Fehler mithilfe von Vibrations- und Akustiksignalen erzielt10,11,12,13,14,15,16. Darüber hinaus haben aktuelle Studien gezeigt, dass Bilddarstellungen von Tonsignalen verwendet werden können, um die Deep-Learning-Architektur für Klangklassifizierungsaufgaben zu trainieren. Forscher haben viele Bilddarstellungen für Töne vorgeschlagen, wie z. B. Mel-Frequenz-Cepstralkoeffizienten (MFCCs)17,18, Spektrogramm19, Mel-Spektrogramm20. Darüber hinaus wurden viele hochmoderne Deep-Learning-Modelle zur Klangklassifizierung verwendet. Boddapati et al.19 verglichen die Klassifizierungsgenauigkeit von AlexNet und GoogleLNet anhand von drei verschiedenen Merkmalsdarstellungen von Schall (Spektrogramm, MFCC und Kreuzrekurrenzdiagramm). Eine Variante bedingter neuronaler Netze, das sogenannte maskierte bedingte neuronale Netz (MCLNN), wurde von Medhat et al.21 zur Klassifizierung von Geräuschen vorgeschlagen. Forscher haben erweiterte CNNs mit erweiterten Filtern und undichten ReLU-Aktivierungsfunktionen verwendet17,22. Die Auswirkung der Modulation der Dilatationsrate in dilatiertem CNN auf die Klangklassifizierung wurde in Chen et al.22 verglichen. Aktuelle Studien haben gezeigt, dass rekurrente neuronale Netze (RNN) hervorragende Ergebnisse für Tonsequenzen variabler Länge liefern. Wang et al.23 schlugen eine CNN-Architektur mit einem parallelen zeitlich-spektralen Aufmerksamkeitsmechanismus vor, um bestimmte Frames zu erfassen, in denen Schallereignisse auftreten, und auf unterschiedliche Frequenzbänder zu achten. Zhang et al.24 schlugen eine CNN-Architektur zum Erlernen spektro-zeitlicher Merkmale und eine bidirektionale Gated Recurrent Unit (Bi-GRU) mit einem Aufmerksamkeitsmechanismus auf Frame-Ebene für die Klangklassifizierung vor. Darüber hinaus wird die Bohrgeräuschanalyse bei orthopädischen chirurgischen Eingriffen eingesetzt, z. B. beim manuellen Bohren von Knochen. Torun und Pazarci25 schlugen beispielsweise ein KNN-basiertes Klassifikationsschema vor, um mithilfe der parametrischen Schätzung der spektralen Leistungsdichte zu klassifizieren, ob ein Durchbruch oder kein Durchbruch stattgefunden hat. Seibold et al.26 speisten Log-Mel-Spektrogramme von Bohrgeräuschen in ResNet-18 ein, um Bohrdurchbruchereignisse zu erkennen und das Potenzial der auf Deep Learning basierenden akustischen Erfassung zur Vermeidung chirurgischer Fehler zu demonstrieren.

In unserem Artikel wurde ein Ansatz zur Erkennung von Bohrmaschinenausfällen basierend auf Bohrgeräuschen von Valmet AB vorgeschlagen. Dies ist ein Unternehmen in Sundsvall, das Prozesse und Ausrüstung für die Produktion von Biokraftstoffen bereitstellt. Valmet AB betreibt derzeit mehrere Bohrmaschinen zum Bohren von Löchern in Metallmaterialien. Die meisten Studien zur Erkennung von Bohrfehlern verwendeten jedoch einen großen, ausgewogenen Datensatz. Abgebrochene Bohrer kommen nicht sehr häufig vor, daher macht das Geräusch gebrochener Bohrer nur einen kleinen Prozentsatz der Gesamtgeräusche aus. Es ist schwierig, fortgeschrittene Deep-Learning-Modelle auf kleinen Datensätzen in realen Anwendungen zu trainieren. Darüber hinaus reichen die extrahierten Merkmale aus rohen Schallsignalen nicht für die Klassifizierung aus, da die Abtastdauer für Geräusche im Datensatz etwa 20,83 ms und 41,67 ms beträgt. Dies macht es schwieriger, unsere Ergebnisse mit denen früherer Forschungen auf dem Gebiet der Klassifizierung von Bohrgeräuschen zu vergleichen. Daher steht ein End-to-End-Deep-Learning-System bei der Erkennung von Bohrfehlern vor vielen Herausforderungen. Um diese Schwierigkeiten zu überwinden, wurden Datenerweiterungsmethoden angewendet, um mehr Stichproben des Datensatzes zu generieren. Die Erweiterungsmethoden bestanden darin, den Ton um 5 ms zu verschieben und die Lautstärke um 2 zu erhöhen. Diese Geräusche im erweiterten Datensatz wurden in Log-Mel-Spektrogramme umgewandelt. Darüber hinaus wurde ein CNN in Kombination mit einem aufmerksamkeitsbasierten LSTM zur Klassifizierung von Bohrgeräuschen vorgeschlagen. Mithilfe von CNN wurden Feature-Maps aus den Log-Mel-Spektrogrammen extrahiert, und anschließend wurde eine LSTM-Schicht verwendet, um aus den extrahierten Features eine globale Feature-Darstellung auf hoher Ebene zu lernen. In CNN wurde Leaky ReLU anstelle von ReLU verwendet, um das potenzielle Problem zu lindern, dass CNN nicht mehr lernt, wenn die ReLU einen Wert kleiner als Null hat. Leaky ReLU hilft CNN dabei, weiter zu lernen, wenn die Eingabewerte negativ sind. Um sich auf die wichtigen Teile der Bohrgeräusche zu konzentrieren und die unnötigen Teile zu verwerfen, wurde nach dem LSTM eine Aufmerksamkeitsebene hinzugefügt.

Die vorgeschlagene Architektur wird wie in Abb. 1 beschrieben beschrieben. Ursprünglich wurden Methoden zur Audioerweiterung auf Originaltöne angewendet, um die Anzahl der Samples im Datensatz zu erhöhen. Im nächsten Schritt wurde eine kleine CNN-Architektur vorgeschlagen, die fünf Schichten umfasst, um Merkmale aus den Mel-Spektrogrammen von Geräuschen zu generieren. Schließlich wurden diese Merkmale als Eingabe des LSTM mit dem Aufmerksamkeitsmechanismus verwendet, um die Darstellung von Merkmalen auf hoher Ebene zu erlernen. Die Details der Schichten in unserem vorgeschlagenen Modell sind in Tabelle 1 beschrieben, wobei nC die Anzahl der Klassen und \((S=1)\) der Schritt von 1 für die Faltungsschicht ist.

Die vorgeschlagene Methodik.

Valmet AB bohrt mit mehreren Maschinen kleine Löcher in Metallplatten. In einer Fabrik gibt es zwei Arten von Bohrmaschinen: 90- und 120-Bit-Bohrmaschinen. Abbildung 2 zeigt einen gesunden Bohrer und einen gebrochenen Bohrer1. In diesem Datensatz wurde der Ton einer Bohrmaschine in Sundsvall, Schweden, mit vier AudioBox iTwo Studio-Mikrofonen aufgenommen. Für die Aufnahme von Bohrgeräuschen wurde eine Abtastrate von 96 kHz verwendet. Der Datensatz enthält 134 Geräusche mit Längen von 20,83 ms und 41,67 ms in zwei Klassen (normal und anomal).

Ein gesunder Bohrer (auf der linken Seite) und ein gebrochener Bohrer (auf der rechten Seite)1.

Obwohl die Hyperparameter des Modells fein abgestimmt wurden, um sich an die Aufgabe der Bohrerfehlererkennung anzupassen, ist das Fehlen von Geräuschen beim Zerbrechen der Bohrer immer noch eine große Herausforderung. Um dieser Herausforderung zu begegnen, wurden Methoden zur Datenerweiterung auf die Originaltöne angewendet. Dadurch erhöhte sich die Anzahl der Geräusche im Datensatz. Darüber hinaus trägt die Datenerweiterung dazu bei, die Generalisierungsfähigkeit des vorgeschlagenen Modells zu verbessern. Es gibt viele Methoden zur Audioerweiterung, wie z. B. Time-Stretching, Pitch-Shifting, Lautstärkeregelung, Rauschaddition usw. Es ist nicht angebracht, einige Erweiterungsmethoden auf die Klänge im Datensatz anzuwenden, da diese mit nur 20,83 ms bzw. 20,83 ms sehr kurz sind 41,67 ms. Experimente ergaben, dass nur zeitversetzte und volumengesteuerte Datenerweiterungsmethoden für den Datensatz wirksam sind.

In diesem Artikel wurden Zeitverschiebung und Lautstärkeregelung angewendet, um syntaktische Klänge zu erzeugen. Wir haben dem Ton kein Rauschen als Verstärkungsmethode hinzugefügt, da der Ton in unserem Datensatz sehr kurz ist. Lärm erschwert die Klassifizierung von Geräuschen. MATLAB bietet eine einfache Funktion, audioDataAugmenter, um den Klang zu verbessern. Es wäre ratsam, andere Erweiterungsmethoden zu untersuchen, wenn die vorgeschlagene Methode auf andere Datensätze angewendet wird.

Eine Zeitverschiebung ist der Vorgang, bei dem der Ton zufällig nach hinten oder vorne verschoben wird. Der Anfangspunkt des Tons wurde um 5 ms nach rechts verschoben und dann auf die ursprüngliche Länge zurückgesetzt. Abbildung 3a zeigt die zeitliche Darstellung des ursprünglichen Fehlertons und des erweiterten Tons mittels Zeitverschiebung.

Die Zeitdarstellung des ursprünglichen Fehlertons und des erweiterten Tons.

Die Lautstärke wurde durch Multiplizieren des Audiosignals mit einem zufälligen Amplitudenfaktor erhöht. Die Lautstärkeverstärkung wurde auf 2 dB eingestellt. Mit dieser Technik können wir eine gewisse Invarianz hinsichtlich der Audioeingangsverstärkung erzielen. Die zeitliche Darstellung des ursprünglichen Fehlertons und des verstärkten Tons mithilfe der Lautstärkeregelung ist in Abb. 3b dargestellt.

Jüngste Fortschritte auf dem Gebiet der Bildklassifizierung mithilfe von CNN für mehrere Klassen mit hoher Genauigkeit haben uns dazu motiviert, die Fähigkeit der Bilddarstellung von Geräuschen zur Erkennung von Bohrfehlern zu untersuchen. In diesem Artikel wurden Bohrgeräusche in Log-Mel-Spektrogramme umgewandelt, um sie in das vorgeschlagene CNN einzuspeisen. Das Log-Mel-Spektrogramm wurde wie folgt erstellt. Anhand eines rohen Bohrgeräuschs wurde das Mel-Spektrogramm unter Verwendung der Kurzzeit-Fourier-Transformation (STFT) mit Hamming-Fenstern von 100 ms und einer Sprunglänge von 50 ms berechnet. Die Länge der FFT betrug 2048, die Abtastrate betrug 96 kHz Die Anzahl der Mel-Filterbänke betrug 96. Da die Autoren in27 herausfanden, dass das logarithmisch skalierte Mel-Spektrogramm die Klassifizierungsgenauigkeit im Vergleich zum Mel-Spektrogramm verbessert. Daher wurde der Logarithmus des Mel-Spektrogramms als Eingabe für die vorgeschlagene CNN-Architektur verwendet. Abbildung 4 zeigt Log-Mel-Spektrogramme eines ursprünglichen anomalen Klangs und seines verstärkten Klangs unter Verwendung von Lautstärkeregelung und Zeitverschiebung.

Log-Mel-Spektrogramme eines ursprünglichen anomalen Klangs, die mit Zeitverschiebung und Lautstärkeregelung erweiterten Klänge.

Zum Extrahieren von Merkmalen aus Log-Mel-Spektrogrammen wurde eine CNN-Architektur vorgeschlagen. Daher wurde die dritte Faltungsschicht zum Extrahieren von Merkmalen verwendet, anstatt am Ende eine dichte Schicht hinzuzufügen. Zusätzlich wurde Leaky ReLU als Aktivierungsfunktion verwendet. Die Versuchsergebnisse zeigen, dass die Verwendung von Leaky ReLU die Klassifizierungsgenauigkeit des Datensatzes verbessern kann. Um die globale Merkmalsdarstellung auf hoher Ebene zu erlernen, wurden die extrahierten Merkmale mit einem Aufmerksamkeitsmechanismus in LSTM eingespeist.

Die vorgeschlagene CNN-Architektur bestand aus drei Faltungsschichten und zwei Max-Pooling-Schichten sowie sechs Batch-Normalisierungsschichten mit den Leaky ReLU-Aktivierungsfunktionen. Log-Mel-Spektrogramme wurden in das vorgeschlagene CNN eingespeist, um übergeordnete Merkmale für die Klassifizierungsaufgabe zu extrahieren. Zunächst wurden drei Faltungsschichten mit 3 × 3 Filterkerngrößen verwendet. Drei Faltungsschichten verfügen über 128, 128 bzw. 256 Feature-Maps. Zweitens wurde nach den ersten beiden Faltungsschichten eine Max-Pooling-Schicht mit 2 × 4 Filterkerngrößen hinzugefügt. Vor und nach den Faltungsschichten wurde ein Paar Batch-Normalisierungsschichten (BN) mit Leaky ReLU hinzugefügt, um die Merkmale zu normalisieren und eine Überanpassung zu reduzieren.

Die Gleichung für ReLU lautet \( f(x) = max(0,x)\). Wenn die Eingabe der Ebene negativ ist, ist die ReLU gleich Null. Folglich erreichen Gradientenabfälle den Wert Null und können nicht zum lokalen Minimum konvergieren. Bei Leaky ReLU gibt es immer eine kleine Steigung, um die Gewichtsaktualisierung des akkumulierten Gradienten zu ermöglichen. Obwohl ReLU schneller rechnen kann, wurde Leaky ReLU anstelle von ReLU verwendet, damit die Schichten nicht aufhören zu lernen, wenn die Steigung von ReLU Null ist. Die Leaky ReLU-Aktivierungsfunktion28 wird durch die Gleichung beschrieben. (1):

wobei \(\alpha \) in dieser Untersuchung auf 0,3 gesetzt wurde.

In diesem Artikel wurde LSTM29 verwendet, um sequentielle Feature-Maps zu lernen, die aus dem vorgeschlagenen CNN extrahiert werden. Die LSTM-Einheit kann wie in den Gleichungen aktualisiert werden. (2)–(7):

wobei \(X_{t}\) die Mini-Batch-Eingabe ist; \(i_{t}\) ist das Eingabegatter; \(f_{t}\) ist das Vergessenstor; \(o_{t}\) ist das Ausgangsgatter; \(\tilde{c}_{t}\) ist die Eingabezelle; \(c_{t}\) ist der Zellzustand; \(h_{t}\) ist der verborgene Zustand; \(\sigma \) ist die Sigmoidfunktion; \(\tau \) ist die Tanh-Funktion; W, U sind die Gewichtsmatrizen; b ist der Bias-Parameter; t ist der Zeitschritt.

Da unterschiedliche Merkmale auf Frame-Ebene ungleich zur Klassifizierung von Ereignisklangklassen beitragen, wurde im Sequenz-zu-Sequenz-Modell häufig ein Aufmerksamkeitsmechanismus30 verwendet. In diesem Artikel wurde bei der Berechnung der Ausgabe nach LSTM eine Feed-Forward-Aufmerksamkeitsschicht31 zu bestimmten Punkten in einer Sequenz hinzugefügt. Darüber hinaus ändert sich beim Übergang vom Normalzustand des Bohrers in den gebrochenen Zustand die Tonhöhe des Tons. Daher weisen die aus dem Log-Mel-Spektrogramm extrahierten Merkmale genau in dem Moment, in dem der Bohrer bricht, eine Anomalie auf. Der Zweck der Aufmerksamkeitsschicht besteht darin, sich auf diese Anomalie zu konzentrieren. Für das LSTM kann die Ausgabe von Attention Att wie folgt definiert werden:

wobei \(h_{t}\) die \(t_{th}\) versteckte Ausgabe des LSTM zum Zeitschritt t bezeichnet, T die Gesamtzahl der Zeitschritte in der Eingabesequenz darstellt und \(\alpha _{ t}\) ist das Aufmerksamkeitsgewicht, das wie folgt berechnet werden kann:

Die vorgeschlagene Methode wurde anhand unseres Valmet-Datensatzes bewertet. Darüber hinaus wurde unsere vorgeschlagene Methode auch anhand eines Bohrdatensatzes im Jahr 26 namens Seibolds Datensatz und eines Benchmark-Datensatzes namens UrbanSound8K32 verifiziert.

Der Bohrdatensatz von Valmet umfasst 134 Geräusche, unterteilt in zwei Kategorien: Anomaliegeräusche und normale Geräusche. Nach der Anwendung von Methoden zur Zeitverschiebung und Lautstärkeregelung auf 134 Originalsounds aus zwei Kategorien umfasst der erweiterte Datensatz 402 Sounds. Diese Geräusche im erweiterten Datensatz wurden in Log-Mel-Spektrogramme umgewandelt, um ein End-to-End-Modell zu trainieren. Etwa 70 % des Datensatzes (280 Log-Mel-Spektrogramme) bzw. 30 % (122 Log-Mel-Spektrogramme) wurden für Training und Tests verwendet. Beim Training des Modells auf dem Trainingssatz wurden 280 Geräusche im Verhältnis 70/30 für Trainings- und Validierungssätze geteilt.

Unsere vorgeschlagene Methode wird auch anhand des Bohrdatensatzes in26 bewertet. Es besteht aus zwei Klassen: kortikal und Durchbruch. In diesem Datensatz wurden Samples mit einer Samplerate von 44,1 kHz und einer Bittiefe von 24 Bit aufgezeichnet. Die Geräusche in diesem Datensatz sind kurz, genau wie die in unserem Valmet-Datensatz. Es gibt 126 Geräusche in der kortikalen Kategorie und 136 Geräusche in der Durchbruchskategorie. Im Datensatz sind die Geräusche unterschiedlich lang, im Allgemeinen jedoch kürzer als eine Sekunde. Die Durchbruchereignisse dauern zwischen 100 und 250 ms und sind damit kürzer als Geräusche in der kortikalen Kategorie. Unser vorgeschlagener Datenerweiterungsansatz wurde auf diesen Datensatz nicht angewendet. Der Datensatz ist in 70 % (88 kortikale Geräusche und 95 Durchbruchsgeräusche) für das Training und 30 % (38 kortikale Geräusche und 41 Durchbruchsgeräusche) für Tests unterteilt. Alle anderen Versuchsaufbauten sind die gleichen wie die, die wir mit dem Datensatz von Valmet durchgeführt haben.

UrbanSound8K32 wurde verwendet, um die Wirksamkeit der vorgeschlagenen Methode bei der Klassifizierung mehrerer Klassen mit längeren Tönen (weniger als oder gleich 4 Sekunden) zu testen. Dieser Datensatz enthält 8732 Geräusche, die städtische Geräusche aus 10 Klassen repräsentieren: Klimaanlage, Autohupe, spielende Kinder, Hundebellen, Bohren, Motor im Leerlauf, Schuss, Presslufthammer, Sirene und Straßenmusik. Dieselben Versuchsaufbauten wurden verwendet, um 6111 Geräusche (70 % des Datensatzes) zu trainieren und 2621 Geräusche (30 %) zu testen. Auf diesen Datensatz wurden keine Datenerweiterungsmethoden angewendet.

Das vorgeschlagene Deep-Learning-Modell wurde auf Intel CORE i5 der 8. Generation mit NVIDIA-Grafikkarte 1050Ti trainiert. Zur Implementierung und Bereitstellung der vorgeschlagenen Methode wurden die Keras-Bibliothek33 mit dem TensorFlow-Toolkit34 verwendet, bei denen es sich um beliebte Deep-Learning-Frameworks handelt. Darüber hinaus wurde die Librosa-Bibliothek35 verwendet, um Log-Mel-Spektrogramme aus Original-Bohrgeräuschen zu generieren.

Für die Optimierung der Hyperparameter wurde der Adam-Optimierer36 mit einer Lernrate von 0,001, einer Stapelgröße von 4, einem Impuls von 0,9 und 100 Epochen verwendet. Während des Trainings wurde die kategoriale Kreuzentropie als Verlustfunktion \(L_{f}\) verwendet, um die Netzwerkgewichte zu aktualisieren. Es ist wie folgt definiert:

Dabei ist nC die Anzahl der Klassen, \(y_{n}\) die Grundwahrheit und \(\hat{y}_{n}\) die vorhergesagten Klassenwahrscheinlichkeiten für die \(n_{th}\) Element von Modellvorhersagen. Um eine Überanpassung zu vermeiden und das verallgemeinerte Modell zu verbessern, wurde außerdem ein früher Stopp angewendet, um das Netzwerk mit der Geduld von 5 zu trainieren.

Tabelle 2 zeigt die Ergebnisse unserer Methode für den Valmet-Datensatz und die oben genannten Datensätze. Unsere vorgeschlagene Methode erreichte eine Genauigkeit von 92,62 % bzw. 97,47 % für den Datensatz von Valmet und den Datensatz von Seibold. Die vorgeschlagene Methode funktioniert nicht nur gut bei kleinen Datensätzen mit kurzen Tönen (Valmets und Seibolds Datensätze), sondern erzielt auch eine hohe Genauigkeit bei dem Zehn-Klassen-UrbanSound8K-Datensatz mit längeren Tönen. Aus der letzten Spalte von Tabelle 2 können wir ersehen, dass unser Modell auf dem UrbanSound8K im Vergleich zu modernsten Methoden die beste Leistung erbringt. Die Leistung unserer vorgeschlagenen Methode erreichte 91,45 % und war damit etwas höher als bei anderen Methoden.

Wie in Tabelle 3 gezeigt, betrug die Gesamtgenauigkeit der vorgeschlagenen Methode, CNN unter Verwendung der Leaky ReLU-Aktivierungsfunktion in Kombination mit aufmerksamkeitsbasiertem LSTM (CNN-LSTM-Attention-Leaky ReLU), 92,62 %. Die Verwirrungsmatrix für die vorgeschlagene Methode ist in Abb. 5 dargestellt. Tabelle 3 zeigt den F1-Score, die Präzision und den Rückruf für jede Klasse im erweiterten Datensatz.

Die Verwirrungsmatrix für das vorgeschlagene Modell (CNN-LSTM-Attention-Leaky ReLU) für den erweiterten Datensatz.

Die Rolle der verschiedenen Module wird durch Ablationsexperimente mit unserer vorgeschlagenen Methode untersucht. Wie bereits erwähnt, besteht unser Modell aus vier Schlüsselkomponenten: dem CNN-Modul, der LSTM-Schicht, dem Aufmerksamkeitsmechanismus und der Leaky ReLU-Aktivierungsfunktion. Wir analysieren die Rolle jeder Komponente, indem wir in unseren Ablationsexperimenten Module nacheinander eliminieren oder die Aktivierungsfunktion ändern. Die mittlere Genauigkeit aller Experimente ist zum Vergleich in Tabelle 4 aufgeführt. Durch die Verwendung von CNN mit der Leaky ReLU-Aktivierungsfunktion in Verbindung mit aufmerksamkeitsbasiertem LSTM wird die höchste Genauigkeit von 92,62 % erreicht. Dieses Ergebnis zeigt, dass Leaky ReLU und der Aufmerksamkeitsmechanismus in Kombination mit CNN und LSTM die Gesamtgenauigkeit der vorgeschlagenen Methode beeinflussen können. Die folgenden Experimente wurden durchgeführt, um die Wirksamkeit unserer vorgeschlagenen Methode zu validieren:

In der CNN-Architektur führen wir Experimente mit der Leaky ReLU-Aktivierungsfunktion durch. Die Versuchsparameter waren identisch mit der CNN-Architektur in der vorgeschlagenen Methode. Allerdings haben wir am Ende von CNN zwei vollständig verbundene Schichten zur Klassifizierung verwendet. Laut Tabelle 4 betrug die Gesamtgenauigkeit dieser Methode nur 86,89 %, was niedriger ist als die Genauigkeit unserer vorgeschlagenen Methode (92,62 %). Abbildung 6a zeigt die Verwirrungsmatrix für diese Methode. Tabelle 5 zeigt Präzision, Rückruf und F1-Score für jede Klasse.

Vergleich verschiedener Methoden.

Dieser mit CNN experimentierte Teil verwendet die Leaky ReLU-Aktivierungsfunktion in Verbindung mit LSTM. Dieses Experiment testet, ob die Integration einer Aufmerksamkeitsebene in das Modell effektiv ist. Bei dieser Methode wurde eine Genauigkeit von 90,16 % erreicht, was weniger ist als bei unserer vorgeschlagenen Methode (Genauigkeit von 92,62 %). Es ist klar, dass die Genauigkeit des Modells durch die Einbeziehung der Aufmerksamkeitsschicht verbessert wurde. Theoretisch soll der LSTM mit der Aufmerksamkeitsschicht mehr Rechenleistung in diesen kleinen, aber wichtigen Teil der Eingabe investieren, sodass das Netzwerk diese Teile verstärkt und den Rest ausblendet. Die Verwirrungsmatrix für diese Methode ist in Abb. 6b dargestellt. Tabelle 6 zeigt Präzision, Rückruf und F1-Score für jede Klasse.

Dieser Teil experimentiert mit der CNN-Architektur und verwendet die ReLU-Aktivierungsfunktion in Verbindung mit aufmerksamkeitsbasiertem LSTM. Die Verwirrungsmatrix für diese Methode ist in Abb. 6c dargestellt. In diesem Experiment wurde das Modell mit ReLU-Aktivierung ausgeführt, um zu beweisen, dass es in unserem Datensatz weniger effektiv ist als die Leaky-ReLU-Aktivierung. Bei Verwendung der ReLU-Aktivierungsfunktion betrug die Genauigkeit 91,80 %, bei Verwendung von Leaky ReLU war die Genauigkeit höher (92,62 %). Da Leaky ReLU eine Steigung von 0,3 statt 0 hat, kann CNN schneller trainieren und das Problem des „aussterbenden ReLU“ in unserem Datensatz vermeiden. Tabelle 7 zeigt Präzision, Rückruf und F1-Score für jede Klasse.

Um die Effizienz des Datenerweiterungsprozesses zu testen, wurde das in Abschnitt 2 vorgeschlagene Modell sowohl auf dem ursprünglichen als auch auf dem erweiterten Datensatz ausgeführt. Tabelle 8 zeigt Präzision, Rückruf und F1-Score für jede Klasse. Die Genauigkeit des erweiterten Datensatzes erreichte 92,62 %, während die Genauigkeit des ursprünglichen Datensatzes nur 88,10 % erreichte (Tabelle 9). Die Genauigkeit unserer vorgeschlagenen Methode ist beim erweiterten Datensatz (402 Geräusche) deutlich höher als beim Originaldatensatz (201 Geräusche). Die Verwirrungsmatrix für unsere vorgeschlagene Methode für den Originaldatensatz ist in Abb. 6d dargestellt.

Der Ton ist zu kurz und der ausgeglichene Datensatz enthält zu wenige Samples. Dies sind die beiden größten Herausforderungen bei der Entwicklung eines Systems zur Erkennung von Maschinenfehlern für Valmet AB. Zunächst einmal ist es schwierig, Methoden zur Datenerweiterung auf kurze Töne anzuwenden. Einige moderne Strategien zur Datenerweiterung, beispielsweise die Synthese neuer Daten mithilfe generativer Modelle, haben in letzter Zeit das Interesse von Forschern geweckt. GAN ist beispielsweise ein gängiges generatives Modell, das zur Synthese neuer Daten aus einem kleinen Datensatz in der Bildverarbeitung und Computer Vision verwendet wird. Die Bohrgeräusche im Valmet-Datensatz sind hingegen viel zu kurz, um mit modernstem GAN verwendet zu werden. Darüber hinaus passt ein Modell mit zu vielen Parametern möglicherweise nicht zu einem begrenzten Trainingsdatensatz. Wenn Deep-Learning-Modelle die zugrunde liegenden Datentrends nicht erfassen können, wird dies als Unteranpassung bezeichnet. Infolgedessen wird das Modell zahlreiche ungenaue Vorhersagen treffen. Um eine Unteranpassung zu vermeiden, ist es erforderlich, einen größeren Datensatz mit längeren Tönen zu verwenden. Aufgrund der hohen Kosten und des arbeitsintensiven Charakters der Erfassung und Identifizierung von Geräuschen in Fabriken ist es jedoch nicht möglich, große und ausgewogene Datensätze zu sammeln. Für einen begrenzten Datensatz kann unsere vorgeschlagene Methode zur Entwicklung eines Klassifizierungsmodells verwendet werden. Bohrgeräusche können mit diesem Klassifizierungsmodell bereits im Werk erfasst und identifiziert werden. Ein erfahrener Techniker kann die Genauigkeit der von diesem Modell identifizierten aufgezeichneten Geräusche bestätigen. Diese neuen Geräusche werden dann einem größeren Datensatz hinzugefügt. Wenn ein Deep-Learning-Modell auf einem größeren Datensatz trainiert wird, kann es bessere Ergebnisse erzielen.

Unsere vorgeschlagene Methode wird anhand des Datensatzes von Seibold validiert, um ihre Wirksamkeit zu demonstrieren und um Verzerrungen im angegebenen Datensatz von Valmet AB zu vermeiden. Die Ergebnisse des Experiments zeigen, dass die vorgeschlagene Methode eine höhere Genauigkeit erreicht als das Basissystem mit ResNet-1840 in der vorherigen Studie26 für denselben Datensatz. Wie in Tabelle 2 gezeigt, erreichte die durchschnittliche Genauigkeit unserer vorgeschlagenen Methode für diesen Datensatz 97,47 %, während Seibold et al.26 eine Genauigkeit von 91,90 % erreichten. Abbildung 7 zeigt die Verwirrungsmatrix unter Verwendung des Seibold-Datensatzes mit unserer vorgeschlagenen Methode, während die Präzision, der Rückruf und der F1-Score für jede Klasse in Tabelle 10 dargestellt sind. Gemäß diesen Ergebnissen ist unsere vorgeschlagene Methode in der Lage, kurze und kleine Geräusche effizient zu verarbeiten Datensätze wie die Datensätze von Valmet und Seibold.

Die Verwirrungsmatrix für das vorgeschlagene Modell (CNN-LSTM-Attention-Leaky ReLU) im Seibold-Datensatz.

Abbildung 8 zeigt die Verwirrungsmatrix der vorgeschlagenen Methode für den UrbandSound8K-Benchmark-Datensatz. In Tabelle 11 werden Präzision, Rückruf und F1-Score für jede Klasse im UrbandSound8K dargestellt. Wie in Tabelle 2 gezeigt, erreicht unsere vorgeschlagene Methode eine bessere Genauigkeit als die aktuellen und neuesten Methoden für den UrbandSound8K-Datensatz. Die mittlere Genauigkeit unserer vorgeschlagenen Methode beträgt 91,45 %, während sie für Stride-Ds-2437, 1D CNN38 und AudioCLIP39 jeweils 70,90 %, 89,00 % und 90,07 % beträgt. Diese Ergebnisse legen nahe, dass unsere Methode moderne Techniken bei Datensätzen mit mehreren Klassen und längeren Tönen übertrifft. Darüber hinaus bestätigt es die Verallgemeinerung unserer vorgeschlagenen Methode, die nicht nur bei kleinen und kurzen Sounddatensätzen, sondern auch bei großen Datensätzen mit vielen Klassen und langen Sounds gut funktioniert.

Die Verwirrungsmatrix für das vorgeschlagene Modell (CNN-LSTM-Attention-Leaky ReLU) im UrbanSound8K-Datensatz.

In diesem Artikel wurde ein Deep-Learning-Modell für ein Bohrfehlererkennungssystem vorgeschlagen. Darüber hinaus wurden Methoden zur Zeitverschiebung und Lautstärkeregelung angewendet, um die Anzahl der Geräusche in dem kleinen Datensatz zu erhöhen. Die Geräusche im erweiterten Datensatz wurden in Log-Mel-Spektrogramme umgewandelt und zum Trainieren der vorgeschlagenen CNN-Architektur mit der Leaky ReLU-Aktivierungsfunktion in Verbindung mit aufmerksamkeitsbasiertem LSTM zur Erkennung von Bohrfehlern verwendet. Es wurde festgestellt, dass die Gesamtgenauigkeit unseres vorgeschlagenen Systems in unserem Valmet-Datensatz 92,62 % erreichte. Im Hinblick auf die Identifizierung gebrochener Bohrer ist die Genauigkeit der vorgeschlagenen Methode akzeptabel. Diese Methode hat ein großes Potenzial für die Diagnose von Fehlern in Industriemaschinen. Es handelt sich um eine nicht-invasive Methode zur Diagnose von Maschinenausfällen anhand kurzer Töne oder kleiner Datensätze. Darüber hinaus wurden in diesem Artikel sowohl ein privater Datensatz mit kleinen und kurzen Tönen, nämlich der Seibold-Datensatz, als auch ein Benchmark-UrbanSound8K-Datensatz verwendet, um die Wirksamkeit und Verallgemeinerung der vorgeschlagenen Methode zu validieren. Studien zeigen, dass unsere vorgeschlagene Methode für beide Datensätze genauer ist als der Stand der Technik und die neuesten Methoden. Bei den Seibold- und UrbandSound8K-Datensätzen erreicht unsere vorgeschlagene Methode eine Genauigkeit von 97,47 % bzw. 91,45 %. Wir erwägen, Ton und Bild zu kombinieren, um Bohrfehler zu erkennen und die Ergebnisse der Bohrfehlererkennung in Zukunft zu verbessern. Es werden auch Aspekte untersucht, die dazu führen, dass sich im selben Klang viele Ereignisse befinden, wie z. B. polyphone Klänge, die sowohl anomale Bohrgeräusche als auch andere vermischen.

Die während der aktuellen Studie generierten und/oder analysierten Datensätze sind auf begründete Anfrage beim jeweiligen Autor erhältlich.

Tran, T. & Lundgren, J. Bohrfehlerdiagnose basierend auf dem Skalogramm und MEL-Spektrogramm von Schallsignalen unter Verwendung künstlicher Intelligenz. IEEE Access 8, 203655–203666. https://doi.org/10.1109/ACCESS.2020.3036769 (2020).

Artikel Google Scholar

Choi, YJ, Park, MS & Chu, CN Vorhersage von Bohrfehlern mithilfe der Merkmalsextraktion im Zeit- und Frequenzbereich des Vorschubmotorstroms. Int. J. Mach. Werkzeughersteller 48, 29–39 (2008).

Artikel Google Scholar

Skalle, P., Aamodt, A. & Gundersen, OE Erkennung von Symptomen zur Aufdeckung von Ursachen, die zu Bohrfehlern führen. SPE-Bohrer. Komplett. 28, 182–193 (2013).

Artikel Google Scholar

Kumar, A., Ramkumar, J., Verma, NK & Dixit, S. Erkennung und Klassifizierung von Fehlern im Bohrprozess mithilfe der Vibrationsanalyse. Im Jahr 2014 International Conference on Prognostics and Health Management, 1–6 (IEEE, 2014).

Henriquez, P., Alonso, JB, Ferrer, MA & Travieso, CM Überblick über automatische Fehlerdiagnosesysteme unter Verwendung von Audio- und Vibrationssignalen. IEEE Trans. Syst. Mann. Cybern. Syst. 44, 642–652. https://doi.org/10.1109/TSMCC.2013.2257752 (2014).

Artikel Google Scholar

Glowacz, A. Fehlererkennung von elektrischen Schlagbohrmaschinen und Kaffeemühlen mittels akustischer Signale. Sensoren 19, 269 (2019).

Artikel ADS Google Scholar

Jing, Y., Su, H., Wang, S., Gui, W. & Guo, Q. Fehlerdiagnose von elektrischen Schlagbohrmaschinen basierend auf zeitlich variierender Lautstärke und logistischer Regression. Schock-Vibration. 2021 (2021).

Hou, J., Sun, H., Xu, A., Gong, Y. & Ning, D. Fehlerdiagnose von Synchronhydraulikmotoren basierend auf akustischen Signalen. Adv. Mech. Ing. 12, 1687814020916107 (2020).

Google Scholar

Wang, X., Mao, D. & Li, X. Lagerfehlerdiagnose basierend auf vibroakustischer Datenfusion und 1D-CNN-Netzwerk. Messung 173, 108518 (2021).

Artikel Google Scholar

Polat, K. Die Fehlerdiagnose basiert auf einem tiefen Langzeit-Kurzzeitgedächtnismodell aus den Vibrationssignalen in computergesteuerten Maschinen. J. Inst. Elektron. Berechnen. 2, 72–92 (2020).

Artikel Google Scholar

González-Muñiz, A., Díaz, I. & Cuadrado, AA DCNN für Zustandsüberwachung und Fehlererkennung in rotierenden Maschinen und ihr Beitrag zum Verständnis der Maschinennatur. Heliyon 6, e03395 (2020).

Artikel Google Scholar

Verstraete, D., Ferrada, A., Droguett, EL, Meruane, V. & Modarres, M. Deep Learning ermöglichte die Fehlerdiagnose mithilfe der Zeit-Frequenz-Bildanalyse von Wälzlagern. Schock-Vibration. 2017 (2017).

Zhang, S., Zhang, S., Wang, B. & Habetler, TG Deep-Learning-Algorithmen für die Lagerfehlerdiagnose – Eine umfassende Übersicht. IEEE Access 8, 29857–29881 (2020).

Artikel Google Scholar

Chen, Z., Chen, X., Li, C., Sanchez, R.-V. & Qin, H. Vibrationsbasierte Getriebefehlerdiagnose mithilfe tiefer neuronaler Netze. J. Vibroeng. 19, 2475–2496 (2017).

Artikel Google Scholar

Islam, MM & Kim, J.-M. Diagnose von Motorlagerfehlern mithilfe tiefer Faltungs-Neuronalnetze mit 2D-Analyse des Vibrationssignals. In Canadian Conference on Artificial Intelligence, 144–155 (Springer, 2018).

Xueyi, L., Jialin, L., Yongzhi, Q. & David, H. Halbüberwachte Getriebefehlerdiagnose unter Verwendung von Rohvibrationssignalen basierend auf Deep Learning. Kinn. J. Aeronaut. 33, 418–426 (2020).

Artikel Google Scholar

Zhang, X., Zou, Y. & Shi, W. Erweitertes neuronales Faltungsnetzwerk mit LeakyReLU zur Klassifizierung von Umgebungsgeräuschen. In International Conference on Digital Signal Processing, DSP 2017-Augus, https://doi.org/10.1109/ICDSP.2017.8096153 (2017).

Davis, N. & Suresh, K. Klassifizierung von Umweltgeräuschen mithilfe tiefer Faltungs-Neuronalnetze und Datenerweiterung. Im Jahr 2018 IEEE Recent Advances in Intelligent Computational Systems (RAICS), 41–45, https://doi.org/10.1109/RAICS.2018.8635051 (2018).

Boddapati, V., Petef, A., Rasmusson, J. & Lundberg, L. Klassifizierung von Umgebungsgeräuschen mithilfe von Bilderkennungsnetzwerken. Procedia Comput. Wissenschaft. 112, 2048–2056. https://doi.org/10.1016/j.procs.2017.08.250 (2017).

Artikel Google Scholar

Mushtaq, Z., Su, SF & Tran, QV Auf Spektralbildern basierende Klassifizierung von Umgebungsgeräuschen mithilfe von CNN mit sinnvoller Datenerweiterung. Appl. Akustisch. 172, 107581. https://doi.org/10.1016/j.apacoust.2020.107581 (2021).

Artikel Google Scholar

Medhat, F., Chesmore, D. & Robinson, J. Maskierte bedingte neuronale Netze zur Klassifizierung von Umgebungsgeräuschen. In Artificial Intelligence XXXIV – 37. SGAI International Conference on Artificial Intelligence, AI 2017, Cambridge, UK, 12.–14. Dezember 2017, Proceedings, Bd. 10630 von Lecture Notes in Computer Science, (Hrsg. Bramer, M. & Petridis, M.) 21–33, https://doi.org/10.1007/978-3-319-71078-5_2 (Springer, 2017).

Chen, Y., Guo, Q., Liang, X., Wang, J. & Qian, Y. Klassifizierung von Umweltgeräuschen mit erweiterten Windungen. Appl. Akustisch. 148, 123–132. https://doi.org/10.1016/j.apacoust.2018.12.019 (2019).

Artikel Google Scholar

Wang, H., Zou, Y., Chong, D. & Wang, W. Klassifizierung von Umweltgeräuschen mit paralleler zeitlich-spektraler Aufmerksamkeit. In Interspeech 2020, 21. Jahreskonferenz der International Speech Communication Association, virtuelle Veranstaltung, Shanghai, China, 25.–29. Oktober 2020, (Hrsg. Meng, H. et al.) 821–825, https://doi.org/10.21437 /Interspeech.2020-1219 (ISCA, 2020).

Zhang, Z., Neurocomputinghttps://doi.org/10.1016/j.neucom.2020.08.069 (2020).

Artikel PubMed PubMed Central Google Scholar

Torun, Y. & Pazarci, Ö. Auf der Schätzung der parametrischen Leistungsspektraldichte basierende Durchbrucherkennung für orthopädische Knochenbohrungen mit akustischer Emissionssignalanalyse. Akustisch. Aust. 48, 221–231 (2020).

Artikel Google Scholar

Seibold, M. et al. Akustische Echtzeitsensorik und künstliche Intelligenz zur Fehlervermeidung in der orthopädischen Chirurgie. Wissenschaft. Rep. 11, 1–11 (2021).

Artikel ADS Google Scholar

Choi, K., Fazekas, G., Sandler, M. & Cho, K. Ein Vergleich von Audiosignal-Vorverarbeitungsmethoden für tiefe neuronale Netze beim Musik-Tagging. Im Jahr 2018 26. Europäische Signalverarbeitungskonferenz (EUSIPCO), 1870–1874 (IEEE, 2018).

Maas, AL, Hannun, AY & Ng, AY Gleichrichter-Nichtlinearitäten verbessern akustische Modelle neuronaler Netze. im ICML-Workshop zu Deep Learning für Audio-, Sprach- und Sprachverarbeitung, Bd. 28, (2013).

Hochreiter, S. & Schmidhuber, J. Langes Kurzzeitgedächtnis. Neuronale Berechnung. 9, 1735–1780 (1997).

Artikel CAS Google Scholar

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. In Advances in Neural Information Processing Systems, 5998–6008 (2017).

Raffel, C. & Ellis, DPW Feed-Forward-Netzwerke mit Aufmerksamkeit können einige Probleme des Langzeitgedächtnisses lösen. AdRR (2015). arXiv:1512.08756.

Salamon, J., Jacoby, C. & Bello, JP Ein Datensatz und eine Taxonomie für die Stadtklangforschung. In 22. ACM International Conference on Multimedia (ACM-MM'14), 1041–1044 (2014).

Chollet, F. et al. Keras. https://github.com/fchollet/keras (2015).

Abadi, M. et al. TensorFlow: Groß angelegtes maschinelles Lernen auf heterogenen Systemen (2015). Software verfügbar von tensorflow.org.

McFee, B. et al. librosa/librosa: 0.8.1rc2, https://doi.org/10.5281/zenodo.4792298 (2021).

Kingma, DP & Ba, J. Adam: Eine Methode zur stochastischen Optimierung. In der 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, 7.–9. Mai 2015, Conference Track Proceedings (Hrsg. Bengio, Y. & LeCun, Y.) (2015).

Nordby, JO Klassifizierung von Umweltgeräuschen auf Mikrocontrollern mithilfe von Convolutional Neural Networks. Masterarbeit, Norwegische Universität für Biowissenschaften, Ås (2019).

Abdoli, S., Cardinal, P. & Koerich, AL End-to-End-Klassifizierung von Umgebungsgeräuschen mithilfe eines 1D-Faltungs-Neuronalen Netzwerks. Expertensystem. Appl. 136, 252–263 (2019).

Artikel Google Scholar

Guzhov, A., Raue, F., Hees, J. & Dengel, A. Audioclip: Erweiterung des Clips um Bild, Text und Audio. arXiv-Vorabdruck arXiv:2106.13043 (2021).

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770–778 (2016).

Referenzen herunterladen

Diese Forschung wurde vom EU-Regionalfonds, dem MiLo-Projekt (Nr. 20201888) und dem Projekt „Akustisches Sensorset für KI-Überwachungssysteme“ (AISound) unterstützt. Die Autoren möchten Valmet AB für die Bereitstellung des Bohrgeräuschdatensatzes danken. Die Autoren danken Matthias Seibold von der Technischen Universität München für die Bereitstellung ihres Datensatzes.

Open-Access-Finanzierung durch die Mid Sweden University.

Abteilung für Elektronikdesign, Mid Sweden University, Sundsvall, Schweden

Thanh Tran & Jan Lundgren

Abteilung für Computational Mechatronics, Institut für Computational Science, Ton Duc Thang University, Ho-Chi-Minh-Stadt, Vietnam

Nhat Truong Pham

Fakultät für Elektrotechnik und Elektronik, Ton Duc Thang Universität, Ho-Chi-Minh-Stadt, Vietnam

Nhat Truong Pham

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Konzeptualisierung: TT; Methodik: TT; Software: TT und NTP; Datenkuration: TT; Schreiben – Originalentwurf: TT und NTP; Schreiben – Rezension und Bearbeitung: JL; Betreuung: JL; Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Thanh Tran.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Tran, T., Pham, NT & Lundgren, J. Ein Deep-Learning-Ansatz zur Erkennung von Bohrerausfällen anhand eines kleinen Schalldatensatzes. Sci Rep 12, 9623 (2022). https://doi.org/10.1038/s41598-022-13237-7

Zitat herunterladen

Eingegangen: 01. Januar 2022

Angenommen: 23. Mai 2022

Veröffentlicht: 10. Juni 2022

DOI: https://doi.org/10.1038/s41598-022-13237-7

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE