Transformers Object detection - detr の転移学習とONNX変換と実行。#2

Transformers Object detection - detr の転移学習とONNX変換と実行。#2

Transformers Object detection - detr の転移学習とONNX変換と実行。の続きです。

ONNX -> rknn に変換して、 Orange pi 5 armbian(22.04) で、NPU で動かしてみました。
USB Camera -> predict -> Open cv 表示
rate: 10[fps] 前後みたいです。
model 単体ベンチマーク: 0.1[sec] 前後
cpu 負荷は、all core 23[%] 前後みたい。 c++ で行えばもっと、良いかも。
体感は、なんとかつかそう。ただ、実際のアプリでは、Open CV で表示などせずに、
プログラムの中で使うのであれば、もっと早いかも?
orange pi 5 x 1 で、同時に、ROS2 で、ロボットを動かせるかも?
でも、2 台構成が無難かもしれない。

開発環境:
Ubuntu 24.04 PC and GTX 1070
torch 2.6.0+cu126
torchaudio 2.6.0+cu126
torchvision 0.21.0+cu126

実機環境:
Orange pi 5 armbian(22.04)
注) armbian(22.04) でないと、NPU ドライバーが入っていないので、注意!!
最新の armbian(24.04 以降) だと、自分でドライバーをソースbuild して追加しないと、できましぇん!!
python 3.10
RKNNLite
USB カメラ

実機環境2:
Joshua Piek ubuntu 24.04
こちらが、今は良いみたい。
USB Camera -> predict -> open cv 表示
fps: 12 - 13 [Hz] みたいです。
検出精度、良好!! by nishi 2026.3.29

1. 転移学習
雑草 3class(実際は、4 class になった) の転移学習を行う。
今までは、学習データを、アスペクト比を無視して、480x480 にリサイズしていましたが、
今回は、画像のアスペクト比を維持して、480x480 にリサイズして、余白は、黒埋めします。
実際の学習用コードは、github に公開しました。
github@tosa-no-onchan/transform_object_detection
zasou_train_3class.ipynb

学習は、2回にわけて行いました。
1 回め
165 エポック
7800 0.304700
2 回め。続きから。
46 エポック
で、 train loss 0.19 になりました。
多分、huging face にアップロードされているでは? tosa-no-onchan/detr-resnet-50_finetuned_zasou

おんちゃんの Tips.
image_processor に、size={"shortest_edge": 480,...
を渡して、入力サイズを、480x480 にすると良いみたい。
from transformers import AutoImageProcessor img_checkpoint = "facebook/detr-resnet-50" # 短い辺を480にする設定（アスペクト比維持） # 読み込み時にサイズを上書き可能 image_processor = AutoImageProcessor.from_pretrained( img_checkpoint, size={"shortest_edge": 480, "longest_edge": 1333} )
これだけで、 rknn での実行速度が改善されるみたいじゃ。--> 実際は、変わらない!!

おんちゃんの Tips.2
画像のアスペクト比を維持して、余白を黒埋めにするには。
transform = albumentations.Compose(...)
を変更する。
import albumentations import numpy as np import torch USE_ASPECT_FIX=True if USE_ASPECT_FIX: # アスペクト比を維持させる transform = albumentations.Compose( [ # 1. アスペクト比を維持し、長い方の辺を480ピクセルに合わせる albumentations.LongestMaxSize(max_size=480), # 2. 足りない部分を黒（0）で埋めて 480x480 に固定する albumentations.PadIfNeeded( min_height=480, min_width=480, border_mode=0, # 定数（黒）で埋める #value=(0, 0, 0) fill=0 # 'value' を 'fill' に変更（黒にする場合は 0 または [0, 0, 0]） ), # 3. その他のデータ拡張 albumentations.HorizontalFlip(p=0.5), ], # bboxもパディングに合わせて自動で座標調整されます bbox_params=albumentations.BboxParams(format="coco", label_fields=["category"]), )

おんちゃんの Tips.3
transform_aug_ann(examples) にバグがあるみたい。
dataset の img は、 pillow で読み込んだ object で、rgb 形式だと思う。
だけど、更に、transform_aug_ann(examples) で、 bgr -> rgb 変換をしているみたい。
下記のように、修正する。
# transforming a batch def transform_aug_ann(examples): image_ids = examples["image_id"] images, bboxes, area, categories = [], [], [], [] for image, objects in zip(examples["image"], examples["objects"]): #image = np.array(image.convert("RGB"))[:, :, ::-1] # NG # 1. RGBのままNumPy化（[::-1] は削除！） image_np = np.array(image.convert("RGB")) # 2. Albumentations実行 (480x480にパディング) out = transform(image=image_np, bboxes=objects["bbox"], category=objects["category"]) area.append(objects["area"]) images.append(out["image"]) # リストに追加 bboxes.append(out["bboxes"]) categories.append(out["category"]) targets = [ {"image_id": id_, "annotations": formatted_anns(id_, cat_, ar_, box_)} for id_, cat_, ar_, box_ in zip(image_ids, categories, area, bboxes) ] # 3. images(リスト)を渡し、size指定は定義時のものが使われるため省略可 return image_processor(images=images, annotations=targets, return_tensors="pt")

雑草用、学習データは、やはり google のダウンロードではNG で、
自分で、カメラをもってあちこち行って撮影しました。
コツは、 ROS2 草刈りロボットカーのカメラ目線になって、30[cm] - 40[cm] の高さで、前方を、水平に撮影します。
草刈りにの邪魔になりそうな雑草の壁みたいなのを、メインに撮し、一緒に、木とかも撮影しました。
木の撮影も、 1.5[M] -3[M] 手前から撮影します。
アノテーションは、あまり遠い(1.5[M] - 3[M] 以外)、草、木、鉢植えは、使いません。
あくまでも、本来、ロボットが草刈りしなければ行けない所なのに、ROS2 の Depth Camera で、 local cost map に障害物と判定される雑草に限定します。

この目的は、localcost map で、障害物だと出ても、それが雑草群であれば、その場所をあえて通過させる事ぞね!!

ただし、実際の predict 結果を見ていると、草刈りに邪魔になる雑草以外の物(人、動物、物、木、etc) を検出させて、それらが検出されなければ、
localcost map に障害物が出ていても、草刈りロボットを進める方が簡単な気がしてきたぞね!!

また、学習画像には、対象を含まない画像や、オリジナル model の学習時に使った画像を、annotationナシ(class id ナシ) として、10[%] ほど加えます。

2. ONNX に変換。
順序がバラバラですが、
転移学習した、雑草 hugging face dtr モデル (detr-resnet-50_finetuned_zasou_ex/final_model) を、 onnx に変換します。
zasou_dtr2onnx.py
''' zasou_dtr2onnx.py DETRをONNXへエクスポートする際、「入力サイズを480x480に固定」し、かつ「後処理（Post-processing）を切り離す」ことが、その後のRKNN変換を成功させる鍵になります。以下のコードで、RKNNに最適化されたONNXファイルを出力できます。注1) opset_version=13 で、OK です!! 1. saved model の ONNX へ変換 $ python zasou_dtr2onnx.py 1.1 CLI で変換(使わなくても、OK) $ optimum-cli export onnx --model detr-resnet-50_finetuned_zasou_ex/final_model --task object-detection onnx/ 2. 書き出し後の重要ステップ（ONNX Simplifier） DETRのONNXグラフは非常に複雑で、そのままではRKNN変換でエラーが出やすいです。必ず onnxsim を使ってグラフを簡略化してください。 # ターミナルで実行 $ pip install onnxsim $ onnxsim detr_zasou_480.onnx detr_zasou_480_sim.onnx 入力サイズの固定化が必要!! $ onnxsim detr_zasou_480.onnx detr_zasou_480_sim.onnx --overwrite-input-shape pixel_values:1,3,480,480 $ onnxsim onnx/model.onnx detr_zasou_480_sim.onnx --overwrite-input-shape pixel_values:1,3,480,480 3. onnx -> rknn (rknn_env310) で、行うこと $ python convert_dtr_onnx2rknn.py ''' import torch from transformers import AutoModelForObjectDetection # 1. 学習済みモデルのロード model_path = "./detr-resnet-50_finetuned_zasou_ex/final_model" model = AutoModelForObjectDetection.from_pretrained(model_path) model.eval() # 2. ダミー入力の作成 (バッチサイズ1, 3チャンネル, 480x480) # RKNN用にサイズを固定します pixel_values = torch.randn(1, 3, 480, 480) # 全域が画像であることを示すマスク（全て1） pixel_mask = torch.ones(1, 480, 480, dtype=torch.long) # 3. エクスポート実行 onnx_model_path = "detr_zasou_480.onnx" USE_ORG=True USE_SDP=False USE_pixel_mask=False # 下記で、OK です。 by nishi 2026.3.15 if USE_ORG: torch.onnx.export( model, #(pixel_values, pixel_mask), # 入力タプル (pixel_values), # pixel_mask を渡さない onnx_model_path, export_params=True, # 重みをファイルに書き込む opset_version=13, # DETRの演算をサポートするバージョン do_constant_folding=True, # 定数畳み込みでグラフを最適化 input_names=['pixel_values'], output_names=['logits', 'pred_boxes'], # クラススコアと座標の出力名 # dynamic_axes はあえて指定せず、サイズを 480x480 に固定します（RKNN向け） ) # 下記も、 OK です。 if USE_SDP: import torch.nn.functional as F # 1. SDPA（問題の演算）を無効化し、旧来の計算方式を強制する with torch.backends.cuda.sdp_kernel(enable_flash=False, enable_math=True, enable_mem_efficient=False): # このコンテキストの中でエクスポートを実行 torch.onnx.export( model, #(pixel_values, pixel_mask), (pixel_values), onnx_model_path, export_params=True, opset_version=13, # エラーの指示通り14に上げます do_constant_folding=True, #input_names=['pixel_values', 'pixel_mask'], input_names=['pixel_values'], output_names=['logits', 'pred_boxes'], ) # こいつは、NG みたい!! if USE_pixel_mask: torch.onnx.export( model, (pixel_values, pixel_mask), # 入力タプル onnx_model_path, export_params=True, # 重みをファイルに書き込む opset_version=13, # DETRの演算をサポートするバージョン do_constant_folding=True, # 定数畳み込みでグラフを最適化 input_names=['pixel_values', 'pixel_mask'], output_names=['logits', 'pred_boxes'], # クラススコアと座標の出力名 # dynamic_axes はあえて指定せず、サイズを 480x480 に固定します（RKNN向け） ) print(f"ONNX model saved to {onnx_model_path}")

$ python zasou_dtr2onnx.py
で、
detr_zasou_480.onnx
が作成される。

2.1 スリム化と入力サイズの固定化をする。

$ python -m pip install onnxsim
$ onnxsim detr_zasou_480.onnx detr_zasou_480_sim.onnx --overwrite-input-shape pixel_values:1,3,480,480
上記で、
detr_zasou_480_sim.onnx
が作成される。

3. onnx -> rknn への変換を行う。

''' convert_dtr_onnx2rknn.py この前に 1. saved model -> ONNX へ変換と slim 化は、下記に記述しました。 zasou_dtr2onnx.py 2. onnx -> rknn 変換 (rknn_env310) $ python convert_dtr_onnx2rknn.py ''' from rknn.api import RKNN import os USE_3class_ex=True USE_pixel_mask=False #ONNX_MODEL = 'torch_model.onnx' # zasou_train_3class_ex.ipynb で作った model だと、 #注) ターミナルから、下記 cli を行う。 # $ optimum-cli export onnx --model detr-resnet-50_finetuned_zasou_ex/final_model --task object-detection onnx/ # $ pip install onnxsim # $ onnxsim detr_zasou_480.onnx detr_zasou_480_sim.onnx # 入力サイズの固定化が必要かも!! # $ onnxsim detr_zasou_480.onnx detr_zasou_480_sim.onnx --overwrite-input-shape pixel_values:1,3,480,480 if USE_3class_ex: ONNX_MODEL = 'detr_zasou_480_sim.onnx' RKNN_MODEL = 'detr_zasou_480_sim.rknn' else: ONNX_MODEL = 'model.onnx' RKNN_MODEL = 'torch_model.rknn' USE_CONTIZE=True rknn = RKNN(verbose=True) # 全て npu にまかせる --> こちらで、good! # dtr_rknn_test.py で、 # USE_ALL_RKNN_Leave=True に、する事 if True: # v2.3.2 での推奨設定 if USE_CONTIZE: rknn.config( target_platform='rk3588', # DETR (ImageNet基準) の正規化設定をそのまま残す mean_values=[[123.675, 116.28, 103.53]], # RGB平均値 (255倍した値) std_values=[[58.395, 57.12, 57.375]], # (255倍した値) optimization_level=3, # quantized_dtype は指定しなくてOK（do_quantization=Falseなら無視されます） quantized_dtype='asymmetric_quantized-8', # Transformerは非対称量子化が精度的に有利な場合が多い ) else: rknn.config( target_platform='rk3588', # DETR (ImageNet基準) の正規化設定をそのまま残す mean_values=[[123.675, 116.28, 103.53]], std_values=[[58.395, 57.12, 57.375]], optimization_level=3, # quantized_dtype は指定しなくてOK（do_quantization=Falseなら無視されます） ) # こちらが、 onnx 版の入力処理のエミューレート版を使う場合 # 自分で、 input を加工する場合は、こちら。ただし、今は、精度が落ちるので、上記を使うこと # USE_ALL_RKNN_Leave=False に、する事 else: if USE_CONTIZE: rknn.config( target_platform='rk3588', optimization_level=3, # mean_values, std_values, reorder_channel は書かない # これにより、入力された値（0.0〜1.0）がそのままモデルに渡されます quantized_dtype='asymmetric_quantized-8', # Transformerは非対称量子化が精度的に有利な場合が多い # quantized_algorithm='normal', ) else: rknn.config( target_platform='rk3588', optimization_level=3, # mean_values, std_values, reorder_channel は書かない # これにより、入力された値（0.0〜1.0）がそのままモデルに渡されます ) # 2. ONNXロード #ret = rknn.load_onnx(model=ONNX_MODEL) if USE_pixel_mask: # もしONNXにpixel_maskが含まれている場合 --> いまは、NG ret = rknn.load_onnx( model=ONNX_MODEL, inputs=['pixel_values', 'pixel_mask'], input_size_list=[[1, 3, 480, 480], [1, 480, 480]] ) else: ret = rknn.load_onnx( model=ONNX_MODEL, inputs=['pixel_values'], #input_size_list=[[1, 3, 224, 224]] # モデルの想定サイズ（例: 224x224）に合わせる input_size_list=[[1, 3, 480, 480]] # モデルの想定サイズ（例: 480x480）に合わせる ) if ret != 0: print('Load ONNX failed!') exit(ret) #量子化の場合 if USE_CONTIZE: #image_dir = './calibration_images' # zasou_train_3class_ex.ipynb で作った、onnx だと、 # 480x480 にリサイズして、余白を、黒で埋めた、test用画像が必要 #IMG_PATH ="../transform_object_detection/datasets/train/zasou" IMG_PATH ="/home/your_id/Documents/VisualStudio-TF/annotation/data-backup/雑草" is_file = os.path.isfile('dataset.txt') if not is_file: print("make dataset.txt") with open('dataset.txt', 'w') as f: for img_name in os.listdir(IMG_PATH): if img_name.endswith(('.jpg', '.png', '.jpeg')): f.write(os.path.join(IMG_PATH, img_name) + '\n') print("done!") if USE_CONTIZE: # 量化を有効にしてビルド ret = rknn.build( do_quantization=True, dataset='./dataset.txt' # ここでファイルパスを指定 ) else: # 3. build（量子化なし） ret = rknn.build(do_quantization=False) if ret != 0: print('Build failed!') exit(ret) # 4. RKNN出力 ret = rknn.export_rknn(RKNN_MODEL) if ret != 0: print('Export rknn failed!') exit(ret) print('Done') rknn.release()

(rknn_env310) $ python convert_dtr_onnx2rknn.py
で、
detr_zasou_480_sim.rknn
が作成される。

注) convert_dtr_onnx2rknn.py を実行するには、
python 3.10 で、下記環境が必要
setuptools==68.2.2
onnx==1.14.1
rknn-toolkit2

ubuntu 24.04 に、python 3.10.20 をインストールします。
python 3.10 で、rknn 用、virtualenv を作成します。
$ python3 -m virtualenv -p python3.10 rknn310
$ source rknn310/bin/activate
(rknn_env310) $
(rknn_env310) $ pip install --upgrade pip
(rknn_env310) $ pip install setuptools==68.2.2
(rknn_env310) $ pip install onnx==1.14.1
(rknn_env310) $ pip install rknn-toolkit2

注) 必ず、上記バージョンを使います!!
念の為、 python -m pip freeze の結果を上げておきます。
coloredlogs==15.0.1 fast-histogram==0.14 filelock==3.24.3 flatbuffers==25.12.19 fsspec==2026.2.0 humanfriendly==10.0 Jinja2==3.1.6 MarkupSafe==3.0.3 ml_dtypes==0.5.4 mpmath==1.3.0 networkx==3.4.2 numpy==1.26.4 nvidia-cublas-cu12==12.1.3.1 nvidia-cuda-cupti-cu12==12.1.105 nvidia-cuda-nvrtc-cu12==12.1.105 nvidia-cuda-runtime-cu12==12.1.105 nvidia-cudnn-cu12==9.1.0.70 nvidia-cufft-cu12==11.0.2.54 nvidia-curand-cu12==10.3.2.106 nvidia-cusolver-cu12==11.4.5.107 nvidia-cusparse-cu12==12.1.0.106 nvidia-nccl-cu12==2.20.5 nvidia-nvjitlink-cu12==12.9.86 nvidia-nvtx-cu12==12.1.105 onnx==1.14.1 onnxruntime==1.23.2 opencv-python==4.11.0.86 packaging==26.0 pillow==12.1.1 protobuf==4.25.4 psutil==7.2.2 rknn-toolkit2==2.3.2 ruamel.yaml==0.19.1 scipy==1.15.3 sympy==1.14.0 torch==2.4.0 tqdm==4.67.3 triton==3.0.0 typing_extensions==4.15.0
注)
setuptools 68.2.2

後は、detr_zasou_480_sim.rknn を、Orange pi 5 armbian(22.04) へ持って行って、実行させるだけじゃ!!

4. Orange pi 5 armbian(22.04) で、実行。
入力画像は、アスペクト比を維持して、480x480 リサイズ、余白を、黒(0,0,0) 埋めにして渡します。

$ python detr_rknn_3class_ex_test.py

4.1 RKNNLite 環境の作成。
armbian 22.04 で行います。
$ sudo uname -a
Linux orangepi5 5.10.110-rockchip-rk3588 #23.02.2 SMP Fri Feb 17 23:59:20 UTC 2023 aarch64 aarch64 aarch64 GNU/Linux

$ python --version
Python 3.10.12

virtualenv で、rknn_env を作成。
$ python3 -m virtualenv rknn_env
$ source rknn_env/bin/activate
(rknn_env) $
(rknn_env) $ python -m pip install numpy

https://github.com/airockchip/rknn-toolkit2/ のダウンロード、
(rknn_env) $ cd ~/local/git-download/
(rknn_env) $ git clone https://github.com/airockchip/rknn-toolkit2.git
(rknn_env) $ cd rknn-toolkit2/rknn-toolkit-lite2/packages
(rknn_env) $ python -m pip install rknn_toolkit_lite2-2.3.2-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

あと、ライブラリーのシンボリックリンクをする。
$ ls /home/your-id/local/git-download/rknn-toolkit2/rknpu2/runtime/Linux/librknn_api/aarch64 librknnrt.so $ sudo ln -s /home/your-id/local/git-download/rknn-toolkit2/rknpu2/runtime/Linux/librknn_api/aarch64/librknnrt.so /usr/lib/librknnrt.so $ sudo ldconfig $ ls -l /usr/lib/librknnrt.so lrwxrwxrwx 1 root root 98 2月 24 14:12 /usr/lib/librknnrt.so -> /home/your-id/local/git-download/rknn-toolkit2/rknpu2/runtime/Linux/librknn_api/aarch64/librknnrt.so
これで、実行できると思う。
あと、/dev/video0 が使えるように、
グループ登録をします。

5. 雑草、木、鉢植え、雑草群の画像を、カメラで撮影する。(順番が、違いますが、ここが一番始め)

6. 画像サイズの適正化
resize2dtr_size.py
を使って、 LabelImg でアノテーションする前に、画像を、 480x480 サイズに小さくしておくことをおすすめします。

7. LabelImg で、アノテーションファイルを作成します。
classes.txt
zasou
tree
potted-plant
zasou_cluster

アノテーションファイルの中身。
2.jpeg に対応する、アノテーションファイルの例。
2.txt
0 0.505208 0.503125 0.814583 0.602083
先頭が、class id
class_id x y width height

8. LabelImg で作成した、YOLO アノテーションファイルと画像パスを使って、metadata.jsonl を作成する。

$ python yolo2huggingface_metadata_3class.py

datasets/train/metadata.jsonl
が作成されます。
最後に、下記、サブディレクトリーに、アノテーションで使った画像ファイルをコピーする。
datasets/train/
zasou/
tree/
potted_plant/

ここまでくれば、あとは学習をするだけ。

9. ROS2 での利用。
いま考えているのは、雑草群を検出した、バウンディングボックスを、 ros2 topic で出して、
depth camera で取り込んだ、 depth データに、このバウンディングボックスをマスクとして使う。
depth データのバウンディングボックスのマスク部分は、データを、all 0 にして、距離ナシにする。
これを、pointcloud2 作成ノード -> localcost map の作成ノードへと渡す。
じゃが!!

10. 最後に!!
一応、 Hugging face detr を、転移学習して Orange pi 5 NPU で動かせる事が、確認できたぞね!!
detr の検出性能は、やはり良いとおもう!!
ターゲットの距離、大きさがの許容範囲がおおきい、YOLO は、距離がずれると、まるっきり検出できない!!
これを使ったら、YOLO8 なぞ使う気がしないのは、おんちゃんだけ?

Transformers Object detection - detr の転移学習とONNX変換と実行。#2

カテゴリ:

検索

このブログ記事について

カテゴリ

月別アーカイブ

ウェブページ

サイトナビ

Transformers Object detection - detr の転移学習とONNX変換と実行。#2

カテゴリ:

検索

このブログ記事について

カテゴリ

月別 アーカイブ

ウェブページ

サイトナビ

月別アーカイブ