Keras CNN Sound Classify #2

Keras CNN で音の分類 #2。

ディープラーニングで音声分類　のサンプルが出ていたので、試してみました。

Keras CNN Sound Classify
で、学習済データが出来上がったので、

アプリケーションとして、
Window10 の MIC から音を取り込んで、
上記分類器にかけるプログラムを作ってみました。

環境
Windows10
マイク
USB カメラ / ロジクールウェブカメラ C270n
↓
XIAOKOA PCマイク USBマイク

プログラムは下記になります。

sound-predict3.py
''' Created on 2020/01/19 sound-predict3.py https://qiita.com/__Attsun__/items/e033d689c336315435b3 https://musicinformationretrieval.com/ipython_audio.html @author: nishi ''' import keras from keras.models import Model from keras.layers import Input, Dense, Dropout, Activation from keras.layers import Conv2D, GlobalAveragePooling2D from keras.layers import BatchNormalization, Add from keras.callbacks import TensorBoard, EarlyStopping, ModelCheckpoint import matplotlib.pyplot as plt import librosa import librosa.display import numpy as np #import matplotlib as mpl import pyaudio #import os test_id=3 class_indx={ 0: 'dog', 1: 'rooster', 2: 'pig', 3: 'cow', 4: 'frog', 5: 'cat', 6: 'hen', 7: 'insects', 8: 'sheep', 9: 'crow', 10: 'rain', 11: 'sea_waves', 12: 'crackling_fire', 13: 'crickets', 14: 'chirping_birds', 15: 'water_drops', 16: 'wind', 17: 'pouring_water', 18: 'toilet_flush', 18: 'toilet_flush', 19: 'thunderstorm', 20: 'crying_baby', 21: 'sneezing', 22: 'clapping', 23: 'breathing', 24: 'coughing', 25: 'footsteps', 26: 'laughing', 27: 'brushing_teeth', 28: 'snoring', 29: 'drinking_sipping', 30: 'door_wood_knock', 31: 'mouse_click', 32: 'keyboard_typing', 33: 'door_wood_creaks', 34: 'can_opening', 35: 'washing_machine', 36: 'vacuum_cleaner', 37: 'clock_alarm', 38: 'clock_tick', 39: 'glass_breaking', 40: 'helicopter', 41: 'chainsaw', 42: 'siren', 43: 'car_horn', 44: 'engine', 45: 'train', 46: 'church_bells', 47: 'airplane', 48: 'fireworks', 49: 'hand_saw' } # load a wave data def load_wave_data(audio_dir, file_name): file_path = os.path.join(audio_dir, file_name) x, fs = librosa.load(file_path, sr=44100) return x,fs # change wave data to mel-stft def calculate_melsp(x, n_fft=1024, hop_length=128): stft = np.abs(librosa.stft(x, n_fft=n_fft, hop_length=hop_length))**2 log_stft = librosa.power_to_db(stft) melsp = librosa.feature.melspectrogram(S=log_stft,n_mels=128) return melsp def load_melsp(dx,test=3): dx=dx[np.newaxis,:,:] #print(dx.shape) #print(dx.dtype) #x = x.astype('float32') # data type convert float63 -> float32 #x = x.astype('float32') dx_shape = dx.shape # reshape # (-1,128,1723) -> (-1,128,1723,1) dx = np.reshape(dx, (-1,dx_shape[1],dx_shape[2],1)) #print(dx.shape) # normalize if test == 2: dx_max=dx.max() dx_min=dx.min() print('>dx_max=',dx_max,', dx_min=',dx_min) if dx_min < 0.0 : dx_min *= -1.0 dx += dx_min dx_max += dx_min #dx /= dx_max dx /= 6.5 #if dx_max > 4.0: print('>dx_max=',dx_max) if test==3: dx /= 4.1 #dx /= 3.7 dx_max=dx.max() dx_min=dx.min() print('>dx_max=',dx_max) print('>dx_min=',dx_min) if test ==4: dx_max=dx.max() dx_min=dx.min() print('>dx_max=',dx_max) print('>dx_min=',dx_min) return dx classes = 50 def cba(inputs, filters, kernel_size, strides): x = Conv2D(filters, kernel_size=kernel_size, strides=strides, padding='same')(inputs) x = BatchNormalization()(x) x = Activation("relu")(x) return x #x_train.shape= (1500, 128, 1723, 1) #inputs = Input(shape=(x_test.shape[1:])) inputs = Input(shape=(128,1723,1)) x_1 = cba(inputs, filters=32, kernel_size=(1,8), strides=(1,2)) x_1 = cba(x_1, filters=32, kernel_size=(8,1), strides=(2,1)) x_1 = cba(x_1, filters=64, kernel_size=(1,8), strides=(1,2)) x_1 = cba(x_1, filters=64, kernel_size=(8,1), strides=(2,1)) x_2 = cba(inputs, filters=32, kernel_size=(1,16), strides=(1,2)) x_2 = cba(x_2, filters=32, kernel_size=(16,1), strides=(2,1)) x_2 = cba(x_2, filters=64, kernel_size=(1,16), strides=(1,2)) x_2 = cba(x_2, filters=64, kernel_size=(16,1), strides=(2,1)) x_3 = cba(inputs, filters=32, kernel_size=(1,32), strides=(1,2)) x_3 = cba(x_3, filters=32, kernel_size=(32,1), strides=(2,1)) x_3 = cba(x_3, filters=64, kernel_size=(1,32), strides=(1,2)) x_3 = cba(x_3, filters=64, kernel_size=(32,1), strides=(2,1)) x_4 = cba(inputs, filters=32, kernel_size=(1,64), strides=(1,2)) x_4 = cba(x_4, filters=32, kernel_size=(64,1), strides=(2,1)) x_4 = cba(x_4, filters=64, kernel_size=(1,64), strides=(1,2)) x_4 = cba(x_4, filters=64, kernel_size=(64,1), strides=(2,1)) x = Add()([x_1, x_2, x_3, x_4]) x = cba(x, filters=128, kernel_size=(1,16), strides=(1,2)) x = cba(x, filters=128, kernel_size=(16,1), strides=(2,1)) x = GlobalAveragePooling2D()(x) x = Dense(classes)(x) x = Activation("softmax")(x) model = Model(inputs, x) weights_load_path = 'save/sound_trained_weights-test3-5_3.h5' model.load_weights(weights_load_path, by_name=True) #CHUNK=1024 #CHUNK=44100 #CHUNK=2**11 # 4096 RATE=44100 # Sampling Rate CHUNK=int(RATE/5) # 0.2 [sec] CHUNK #CHUNK=int(RATE/2) # 0.5 [sec] CHUNK #CHUNK=int(RATE/1) # 1.0 [sec] CHUNK predict_dt = 5*5 # predict data length -> 5 [sec] #predict_dt = 2*5 # predict data length -> 5 [sec] #predict_dt = 1*5 # predict data length -> 5 [sec] #level_th=1000.0 # predict start Sound Level level_th=2300.0 # predict start Sound Level p=pyaudio.PyAudio() stream=p.open(format = pyaudio.paInt16, channels = 1, rate = RATE, frames_per_buffer = CHUNK, input = True, output = False) # inputとoutputを同時にTrueにする smaple_f=0 while stream.is_active(): input = stream.read(CHUNK) #output = stream.write(input) if smaple_f==0: #print(len(input)) dx = np.frombuffer(input, dtype='int16').astype('float32') #print(dx.shape) #print(dx.dtype) level_max = dx.max() #print('level=',level_max) if level_max < level_th: continue print('level=',level_max) smaple_f=1 data = [] dcnt=0 data.append(input) dcnt+=1 if dcnt >= predict_dt: #print('.',end='') data = b''.join(data) dx = np.frombuffer(data,dtype="int16").astype('float32')/2**15 stream.stop_stream() melsp = calculate_melsp(dx) dt=load_melsp(melsp,test=test_id) v = model.predict(dt) i=v.argmax() pred=v.max() s=class_indx[i] print('>',i,':',s,' ',pred) if False: #plt.figure(figsize=(14, 5)) #plt.figure(figsize=(11, 5)) librosa.display.waveplot(dx, sr=RATE) plt.show() if False: X = librosa.stft(dx) Xdb = librosa.amplitude_to_db(abs(X)) #plt.figure(figsize=(14, 5)) librosa.display.specshow(Xdb, sr=RATE, x_axis='time', y_axis='hz') plt.show() smaple_f=0 data=None stream.start_stream() stream.stop_stream() stream.close() p.terminate()

Windows10 に繋がった USB カメラのマイクから音を拾って、
当初、HeadPhone から音をモニターしながらテストできる仕様でしたが、sound-player.py でテストする事にしたので止めました。

性能は、今は、ほどほどですが、後述のマイク入力後の高音域の減衰が改善できれば、もっと
良くなりそうです。
後述の、MobileNet v1 もそれなりに、判定できます。

マイクは、USB カメラのマイクでは無くて、出来るだけ性能の良い物を使った方が良いと思います。
MEMSマイクロフォン IM69D130 を使ってみたいですが、これは、どうやって使うのか?
https://www.macnica.co.jp/business/semiconductor/articles/infineon/129257/
市販の完成品は無いのかな?

使ってみて気が付いたこと。
変更1.
MICからの入力データを、2**15(32768) で一律割るように改めました。 2010.1.27
dx = np.frombuffer(data,dtype="int16").astype('float32')/2**15

変更2.
メルスペクトグラムデータの正規は、train.py に倣って、+- のまま、一律 4.1 で割ります。 2010.1.30

変更3.
テストには、下記の、sound-player.py　からスピーカに音を出して、それをマイクで拾って、
試験する方法に改めました。2010.2.5

オリジナルのWAVの波形と、マイクで拾った波形を、どちらも、
matplotlib.pyplot で表示してみると、どうしてもマイクで拾った音が短くなるみたいです。
これが改善できれば、もう少し判定結果が良くなるかもしれません。

変更4.
上記点に関して、sound-player.py にバグがありました。 2010.2.6
#output = stream.write(j)
output = stream.write(j,j.shape[0]) <- データ長の指定が必要です。

WAV データと、マイク入力されたデータのメルスペクトグラムを見比べて気が付いたのですが、
マイク入力データでは、高音域の減衰が大きい様です。
これが、どこで生じているのか、スピーカの特性か、マイクの特性かはまだ分かりません。
ここが改善されれば、もっと良くなる気がします。

この点に関して、スピーカーが、ダイソーで買った300円の物なので、仕方がない。
但し、Windows10 の Sound の設定で、イコライザーが使えれば、高音域を補整して試して
みます。

ESC-50 の WAVデターを直接渡してのテストでは、正解率 0.95 程出ているので、
スピーカー > マイク経由でも、同じESC-50 の WAVデターを使ったら、理屈上は、正解率 0.95
程は、出るはずなので、後は、プログラムの実装上の問題になるのか? (2010.2.7 by おんちゃん)

Realteck HD オーディオマネージャで、高音をブーストすれば、結構よくなりました。2010.2.7

sound-player.py
''' Created on 2020/01/19 sound-player.py https://qiita.com/__Attsun__/items/e033d689c336315435b3 https://musicinformationretrieval.com/ipython_audio.html @author: nishi ''' import matplotlib.pyplot as plt import librosa import librosa.display #import matplotlib.pyplot as plt import numpy as np import pandas as pd import matplotlib as mpl import pyaudio import os import glob import time #base_dir='F:/tmp/ESC-50/ESC-50-master/audio/' base_dir='F:/tmp/ESC-50/' esc_dir = os.path.join(base_dir, "ESC-50-master") meta_file = os.path.join(esc_dir, "meta/esc50.csv") audio_dir = os.path.join(esc_dir, "audio/") test_id=3 check_id=3 class_indx={ 0: 'dog', 1: 'rooster', 2: 'pig', 3: 'cow', 4: 'frog', 5: 'cat', 6: 'hen', 7: 'insects', 8: 'sheep', 9: 'crow', 10: 'rain', 11: 'sea_waves', 12: 'crackling_fire', 13: 'crickets', 14: 'chirping_birds', 15: 'water_drops', 16: 'wind', 17: 'pouring_water', 18: 'toilet_flush', 18: 'toilet_flush', 19: 'thunderstorm', 20: 'crying_baby', 21: 'sneezing', 22: 'clapping', 23: 'breathing', 24: 'coughing', 25: 'footsteps', 26: 'laughing', 27: 'brushing_teeth', 28: 'snoring', 29: 'drinking_sipping', 30: 'door_wood_knock', 31: 'mouse_click', 32: 'keyboard_typing', 33: 'door_wood_creaks', 34: 'can_opening', 35: 'washing_machine', 36: 'vacuum_cleaner', 37: 'clock_alarm', 38: 'clock_tick', 39: 'glass_breaking', 40: 'helicopter', 41: 'chainsaw', 42: 'siren', 43: 'car_horn', 44: 'engine', 45: 'train', 46: 'church_bells', 47: 'airplane', 48: 'fireworks', 49: 'hand_saw' } if check_id==1: f_list=['1-137-A-32.wav','1-13572-A-46.wav','1-50455-A-44.wav','1-208757-D-2.wav','4-182041-A-30.wav'] if check_id==2: f_list2 = glob.glob(audio_dir+'*') if check_id==3: # load metadata meta_data = pd.read_csv(meta_file) # get data size data_size = meta_data.shape print(data_size) #print(meta_data.keys()) #Index(['filename', 'fold', 'target', 'category', 'esc10', 'src_file', 'take'], dtype='object') print(meta_data.loc[1,"filename"]) #class_dict = {} #for i in range(data_size[0]): # if meta_data.loc[i,"target"] not in class_dict.keys(): # class_dict[meta_data.loc[i,"target"]] = meta_data.loc[i,"category"] # load a wave data def load_wave_data(audio_dir, file_name): file_path = os.path.join(audio_dir, file_name) x, fs = librosa.load(file_path, sr=44100) return x,fs # change wave data to mel-stft def calculate_melsp(x, n_fft=1024, hop_length=128): stft = np.abs(librosa.stft(x, n_fft=n_fft, hop_length=hop_length))**2 log_stft = librosa.power_to_db(stft) melsp = librosa.feature.melspectrogram(S=log_stft,n_mels=128) return melsp def load_melsp(dx,test=3): dx=dx[np.newaxis,:,:] print(dx.shape) print(dx.dtype) #x = x.astype('float32') # data type convert float63 -> float32 #x = x.astype('float32') dx_shape = dx.shape # reshape # (-1,128,1723) -> (-1,128,1723,1) dx = np.reshape(dx, (-1,dx_shape[1],dx_shape[2],1)) #print(dx.shape) # normalize if test == 2: dx_max=dx.max() dx_min=dx.min() print('>dx_max=',dx_max,', dx_min=',dx_min) if dx_min < 0.0 : dx_min *= -1.0 dx += dx_min dx_max += dx_min #dx /= dx_max dx /= 6.5 #if dx_max > 4.0: print('>dx_max=',dx_max) if test==3: dx /= 4.1 dx_max=dx.max() dx_min=dx.min() print('>dx_max=',dx_max) print('>dx_min=',dx_min) if test ==4: dx_max=dx.max() dx_min=dx.min() print('>dx_max=',dx_max) print('>dx_min=',dx_min) return dx #CHUNK=1024 CHUNK=2**11 RATE=44100 p=pyaudio.PyAudio() stream=p.open(format = pyaudio.paInt16, channels = 1, rate = RATE, frames_per_buffer = CHUNK, input = False, output = True) # input縺ｨoutput繧貞酔譎ゅ↓True縺ｫ縺吶ｋ while stream.is_active(): #input = stream.read(CHUNK) #output = stream.write(input) #for f in f_list: # dx, sr = librosa.load(audio_dir+f,sr=44100) # #dx, sr = load_wave_data(audio_dir, f) core_cnt=0; for h in range(data_size[0]): dx, sr = load_wave_data(audio_dir, meta_data.loc[h,"filename"]) act_category = meta_data.loc[h,"category"] act_target = meta_data.loc[h,"target"] #print(dx.shape) #(220500,) #print(dx.dtype) #print(sr) dx_max=dx.max() dx_min=dx.min() print('dx_max=',dx_max) print('dx_min=',dx_min) #j=dx*256.0*25.0 j=dx*2**15 j=j.astype('int16') #output = stream.write(j) output = stream.write(j,j.shape[0]) #melsp = calculate_melsp(dx) #dt=load_melsp(melsp,test=test_id) #ss="%d/%d acc=%f" % (core_cnt,h+1,acc) #print('>',i,':',s,' ',v.max(),',act=',act_category,ss) print('>',h,':',act_category) if False: #plt.figure(figsize=(14, 5)) #plt.figure(figsize=(11, 5)) librosa.display.waveplot(dx, sr=sr) plt.title("sound-player") plt.show() if False: X = librosa.stft(dx) Xdb = librosa.amplitude_to_db(abs(X)) #plt.figure(figsize=(14, 5)) librosa.display.specshow(Xdb, sr=sr, x_axis='time', y_axis='hz') plt.title("sound-player") plt.show() time.sleep(5) break stream.stop_stream() stream.close() p.terminate()

カテゴリ:

検索

このブログ記事について

カテゴリ

月別アーカイブ

ウェブページ

サイトナビ