Jeonghun (James) Lee: AI-Edge

1. Edge Computing 의 개념

Edge Computing 이라는 말을 최근에 들은 것이 Coral 사의 TPU 때문인 것 같으며, 주로 Jetson 시리즈와 비교 때문에 이것을 찾아보게 되어진 것같다.

Edge Computing의 기본컨셉을 보면 IoT에서 자주사용되어지는 것으로 보이며, 아래를 봐도 Cloud에 부담을 줄이기 위해서
복잡한 AI의 계산 및 특정 계산을 이 곳에서 처리하는 방식을 말하는 것으로 보인다.
일종의 분산처리라고 생각이되며, 현재 개발 버전으로는 Coral 것이 가장 많이 사용되어지는 것으로 보이는 것 같다.

현재 보이는 것들은 거의 Machine Learning의 복잡한 Inference 기능을 대신 수행해주기 위해서 사용되어지는 Edge TPU가 될 것 같다.

이외에도 Jetson AGX Xavier에서 사용되어지고 있는 NVDLA(NVIDIA Deep Learning Accelerator)도 존재한다.
이를 FPGA or RISC-V에 연결하여 사용하려고도 하려는 것 같으며, 이미 Sifive or FPGA기반으로 연결하여 사용하는 것 같다.

Edge Computing
  https://en.wikipedia.org/wiki/Edge_computing

2. Google Coral 의 Edge TPU 들 과 Intel의 Edge

화자가 많이 되는 것이 Raspberry Pi 와 Coral USB Accelerator 의 조합과 Jetson Nano시리즈와 비교가 많이 되고 있으며, 성능을 봐도 괜찮아 보인다
하지만, 무조건 좋은것은 아니며, Jetson 과 비교하여 Google Coral은 모델을 많이 지원을 못해주고 있는 것이 좀 문제인 것 같지만,
이 부분은 점차적으로 개선이 되어질 거라고 생각하고 크게 생각하지 않고 본다.

더불어 최근에는 Corla Deve Board까지 출시되었는데, NXP의 i.MX 기반에 Edge TPU를 부착한 기능이다. (PCIe 연결)

Google Coral Edge TPU 시작
  https://coral.ai/docs/accelerator/get-started/#

Google Coral의 전체 제품군
  https://coral.ai/products/

USB Accelerator ( USB Edge TPU)

USB 3.0으로 USB Type-C로 지원을 해주는 Edge TPU이며 현재 Raspberry Pi와 많이 연결하여 사용하고 있다.

https://coral.ai/products/accelerator/
https://coral.ai/docs/accelerator/datasheet/

i.MX 8M 기반으로 Edge TPU Dev Board

i.MX 8M 과 Edge TPU는 PCIe 와 I2C/GPIO로 연결되어있다고 하며, 이 보드와 Jetson TX2와도 성능이 궁금하다
왜냐하면 i.MX8M의 경우 별도의 GPU도 존재하는데, 이부분과 같이 동작할지 의문이다.

https://coral.ai/products/dev-board/
https://coral.ai/docs/dev-board/datasheet/

최근을 보면 거의 SOM(System On Module) 잘 제공해주고 있어서 HW적으로 편하게 작업이 가능할 것이다. Jetson Nano 역시 SOM을 지원을 해주고 있다

Intel 사의 NCS2 (Neural compute Stick 2)

Intel 사의 Edge Device 로 Intel의 OpenVINO도 지원가능하며 주로 개발로 Raspberry Pi에 연결하여 사용하는 것으로 보인다.

  https://software.intel.com/en-us/neural-compute-stick
  https://software.intel.com/en-us/articles/intel-movidius-neural-compute-stick
  https://www.youtube.com/watch?v=sRYs0dZLXkw&feature=youtu.be

2.1 Jetson Nano 와 Coral Edge TPU Dev Board 의 비교

Jetson Nano 와 Croal Edge TPU Dev Board 비교

우선 가격적으로 보면 Jetson Nano가 싸지만, Coral Dev Board는 eMMC 이지만, Jetson Nano는 SD Card 만 지원한다.
Jetson Nano의 경우 WIFI 와 Bluetooth를 지원하지 못한다.

Jetson Nano / Raspberry Pi3 / Raspberry Pi3+Intel NCS2 / Edge TPU Dev Board

상위 보드들을 성능을 비교하기 위해 각각의 모델 마다 성능을 알수 있는지표이다.
아쉬운게 있다면, 이곳에 Coral USB와 조합도 있었으며, 딱 좋을 것 같은데 없으며, 대체적으로 보면 Intel의 NCS2 or Edge TPU의 경우 미지원되는 Model Network 이 많이 존재한다.

아래의 Model를 보면 영상처리 기반에서 많이 사용되는 Model로 비교하므로 이를 염두해두 보도록하자.
SSD Mobilenet-v2의 경우 Kernel Size가 300x300 을 보면 상대적으로 TPU Dev Board가 높지만,
이상하게 Inception v4의 경우는 상대적으로 낮은 수치를 보이는데, Tensorflow가 아니라서 그런지 아래의 데이터를 가지고는 정확한 성능비교는 불가능해 보인다.

https://devblogs.nvidia.com/jetson-nano-ai-computing/

자료출처
https://towardsdatascience.com/google-coral-edge-tpu-board-vs-nvidia-jetson-nano-dev-board-hardware-comparison-31660a8bda88

각 보드 성능비교 사이트

대체적으로 보면 각각의 모델마다 다른 성능을 보여주고 있는데, 이 부분은 정확도와 같이 봐야 성능비교가 될 것 같다.
왜냐하면, NVIDIA만 보더라도, Precision을 변경하여, 정확도는 좀 떨어지지만, 성능이 개선이되는 것을 보면 각각의 Model기준으로는 정확한 비교를 위해서는 정확도가 있어야 비교가 될 것 같다.

https://github.com/jolibrain/dd_performances

NVIDIA Jetson Nano/TX2/AGX Xavier 비교

NVIDIA의 TensorRT 에서 GoogleNet의 FP16 과 INT8 Mode의 성능비교이며, 역시 Xavier는 INT8의 성능이 대단하다

세부사항은 각 Model마다 각 Batch size와 Precision에 따라 비교하므로 아래참조
https://www.phoronix.com/scan.php?page=article&item=nvidia-jetson-nano&num=3

MobileNetV2 기준비교

내가 재미있게 본 것은 아래의 블로그이며, MobileNetV2 기준으로 성능 측정을 했으며 각각의 개별성능을 보여주고 Jetson Nano와 TPU와 조합 재미있다.

자료출처
https://blog.raccoons.be/coral-tpu-jetson-nano-performance

주의해야할 것은 Jetson 과 비교를 해봐도 모든 모델이 지원이 되지 않지만 점점 늘어가는 추세이다.

Edge TPU Benchmark

현재지원가능한 Network(Model) 들과 성능을 알수 있으며, Tensorflow lite 부분도 최근에 관심이 있는데, 이 부분 지원역시 재미있다.

https://coral.ai/docs/edgetpu/benchmarks/

개인적으로 Jetson Nano를 구입할 생각을 했으나, 지금 좀 더 지켜보고 각각의 기능을 좀 더 지켜보기로 했다.

3. Jetson AGX Xavier의 NVDLA(Deep Learning Accelerator)

상위 설명한 Edge 기능이 Jetson NVDLA 역시 동일한 것 같으며, 이를 어떻게 다른 CPU에 연결하는지가 궁금하다.
NVDLA 인 경우 ARM 이외에도 RISC-V와 연결되어 사용되어 질 것 같은데, 어떻게 될지 사용이 될지가 궁금하다.

참고로 제목에도 설명했듯이 DLA는 현재 Jetson AGX Xavier에서 제공되어지고 있으며, 마지막으로 Jetson Xavier에서 DLA 기능을 Deep Learning 사용시 연결해서 사용한다고 했지만,
내 기억으로는 그 때 초반이라 그런지 DLA의 성능을 전부 사용하지 못한 것 같다.

요즘 관심사가 Open Core인 RISC-V도 관심이 많으며, 관련부분도 계속 보려고 한다.

NVDLA의 구성의 경우 상위 Coral사의 차이를 보면 Interface가 차이가 날 것이며,

3.1 NVDLA 구성과 Interface

Interface는 아래와 같이 3가지로 기본으로 구성이 되며 기본적으로 생각하면, 구성은 간단하다.

CPU에서 Control해서 이를 Interrupt로 확인을 받고 Data는 공유메모리 방식으로 가지는 것이다.

CSB (Configuration Space Bus) Interface

32bit 동기적인 BUS로 low bandwith를 가진 BUS라고 한다.
CPU가 NVLDA를 Configuration 즉, Control을 할 때 사용되어지는 Bus 인 것이며, 연결은 CPU or FPGA 와 Memory Mapped IO 방식으로 연결될 것 같다.

IRQ (Interrupt ) Interface

1 bit Level Trigger 방식의 Interrupt라고 하는데, 사용을 유추하면, CPU에서 Control 하면, ACK로써 Complete or Error 체크로 보면 될 것 같다.
CPU에서는 이를 기반으로 ISR로 다시 CSB의 Register를 읽어 확인을 하면 될 것 이다.

DBB ( Data BackBone) Interface

동기적인인 High Bandwith Memory Bus 로 유사한것이 AMBA의 AXI라고 하는데, 목적은 Shared Memory 인 것 같다.
TI를 예를 들면, Davinci or OMAP에서 ARM 과 DSP 사의 Shared Memory Interface를 통한 빠른 Data 통신이 될 것이다.

세부구성 사항은 아래의 출처에서 보면 될 것 같다.

3.2 NVDLA와 CPU 연결방법

Small NVDLA 와 Large NVLDA 차이

성능향상을 위해 확장 SRAMIF도 존재하는데, 이를 사용여부가 될 것 이며, 그리고, 중간에 NVDLA를 Control을 하기위해서 Micom 사용여부가 될 것이다.
Small or Large를 Headless 와 Headded라고 부르는 것 같으며, 둘다 Edge로써 IoT로 ARM이면, Cortex-M에 적합할 것이며, RISC-V는 PicoRV32가 적합하다고 한다.
핵심기술은 공유메모리를 위한 MMU에 연결하는 것이 될 것이다.

Linux SW 입장에서 보면 UserMode 와 Kernel Mode로 구분이 되고 구현이된다.
세부사항은 아래의 링크에서 확인가능하다.

NVDLA 관련내용
  http://nvdla.org/
  http://nvdla.org/primer.html
  https://devblogs.nvidia.com/nvdla/

3.3 RISC-V or FPGA 와 NVDLA 연결

OpenCore의 Sifve의 RISC-V와 NVDLA의 기능형태

SiFive의 Risc-V 와 NVLDA 관련내용
  https://content.riscv.org/wp-content/uploads/2018/12/Nvidias-Deep-Learning-Accelerator-Meets-SiFives-Freedom-Platform-Frans-Sijstermans-and-Yunsup-Lee.pdf

FPGA 와 NVDLA 연결내용
  http://nvdla.org/_images/nvdla-vp-fpga.svg
  http://nvdla.org/vp_fpga.html

관련내용
  https://github.com/nvdla/hw
  https://github.com/nvdla/sw
  https://github.com/sifive/block-nvdla-sifive

피드 구독하기: 글 ( Atom )