'컴퓨터 비전' 태그의 글 목록

이전 블로그에서 카메라 렌즈 종류에 대해서 소개 했었는데, 그 렌즈 중에는 라인 스캔 카메라가 있었습니다. TDI (Time Delay Integration) 라인 스캔 카메라는 고속으로 이동한는 물체를 고해상도로 촬영하기 위해 설계된 특수한 라인 스캔 카메라로 볼 수 있습니다. 보통 한 라인을 이용하여 이미지를 만드는 경우 작은 영역에 한 번만 노출되기 때문에 감도가 낮고 노이즈에 취약할 수 있습니다.

TDI 라는 명칭에서 처럼 시간 지연을 통한 적분 기술을 이용하여 고감도 이미지를 만듭니다. TDI에서는 1 X N 라인을 이용하며, 이미지 센서에 여러 라인이 배열되어 있어 대상이 이동함에 따라 각 라인이 같은 위치를 순차적으로 촬영 및 누적합니다. 예를 들어 N = 64 라면 물체의 동일한 위치를 64번 촬영한다는 의미로 볼 수 있고, 신호는 64배 증가하고 노이즈는 8배 증가하므로 SNR(Signal to Noise Ratio)이 향상됩니다.

TDI 라인 스캔 카메라의 특징은 라인 수를 증가 시킬 수록 고감도 이미지를 얻을 수 있으며 노이즈 감소와 빠르게 이동하는 물체에 대해 고속 촬용이 가능합니다. 따라서 컨베이어 벨트에 제품을 이동시키면서 검사하는 산업 분야인 PCB 검사, 인쇄물 검사 등에 많이 활용됩니다. 그림에서 같이 라인 수에 따라 Single Line, Dual Line, TDI 형태로 구분 할 수도 있습니다.

TDI 활용 분야 중에는 반도체 검사가 있습니다. 웨이퍼에 이물질이나 결함 검사시에 이미지를 활용하는 경우가 많으며 수십 나노미터 또는 수 나노미터 크기의 노이즈 탐색 시 주요하게 활용됩니다. 일반적으로 반도체 분야에 사용되는 TDI는 256 라인 스캔이 활용되며, 컨베이어 벨트 예와 반대로 웨이퍼가 고정된 상태에서 라인 스캔이 이동함으로써 이미지를 구현합니다.

TDI의 이미지 합성은 1) N개 라인에 촬영된 이미지 배열을 같은 위치의 정보가 일치하도록 정렬하고, 2) 각 위치의 픽셀값을 전체 더하거나 평균값을 구합니다. 3) 마지막으로 출력할 이미지 Depth에 맞게 스케일링 될 수 있도록 정규화 합니다. 아래는 현 과정을 시뮬레이션 해 볼 수 있는 파이썬 예제 코드 입니다.

import cv2
import numpy as np
import matplotlib.pyplot as plt

# 가상으로 대상 이미지 생성
height, width = 100, 200
moving_obj = np.zeros((height, width), dtype=np.uint8)

# 대상 밝은 줄이 이동하는 효과
for i in range(height):
    moving_obj[i, 50 + (i % 50)] = 255  # 대각선 방향 밝기

# 일반 라인 스캔 (한 라인)
line_scan_img = np.zeros((height, width), dtype=np.uint8)
for i in range(height):
    line = moving_obj[i:i+1, :]  # 한 줄
    line_scan_img[i:i+1, :] = line

# TDI 라인 스캔 (8 라인 누적)
TDI_stage = 8
tdi_img = np.zeros((height - TDI_stage, width), dtype=np.uint16)
for i in range(height - TDI_stage):
    acc_line = np.zeros_like(line, dtype=np.uint16)
    for j in range(TDI_stage):
        acc_line += moving_obj[i + j:i + j + 1, :]
    tdi_img[i:i+1, :] = acc_line

# 정규화(스케일링)
tdi_img_norm = cv2.convertScaleAbs(tdi_img, alpha=255.0 / (TDI_stage * 255))

# 결과 보기
plt.figure(figsize=(12, 6))
plt.subplot(1, 3, 1)
plt.title("Original Moving Image")
plt.imshow(moving_obj, cmap='gray')

plt.subplot(1, 3, 2)
plt.title("Line Scan Image")
plt.imshow(line_scan_img, cmap='gray')

plt.subplot(1, 3, 3)
plt.title("TDI Result (8 stages)")
plt.imshow(tdi_img_norm, cmap='gray')

plt.tight_layout()
plt.show()

저작자표시 비영리 변경금지 (새창열림)

'영상처리 도구' 카테고리의 다른 글

머신 비전 Machine Vision을 위한 렌즈 특성과 용어의 이해 (0)	2025.07.06
머신 비전 Machine Vision을 위한 카메라 렌즈 종류와 선택(2) (0)	2025.07.02
머신 비전 Machine Vision을 위한 카메라 렌즈 종류와 선택(1) (0)	2025.06.29
OpenCV Mat 데이터 처리 기본을 알고 활용하기 (0)	2025.06.15
OpenCV 영상처리 외곽선 추출과 응용 findContours (0)	2025.06.08

앞에 블로그에서 설명한 것 처럼 푸리에 변환은 시간 영역의 신호를 주파수 영역으로 변환할 수 있는 이론입니다. 푸리에 변환 기본을 아래 블로그로 들어 가시면 참고 할 수 있습니다.

2025.06.01 - [영상처리 기술] - 영상처리 푸리에 변환 Fourier Transform 이해와 기본 (Python)

영상처리 영역에서는 이미지 평면을 주파수 평면으로 변환하여 분석할 수 있는 도구로 사용할 수 있습니다. 실무에서는 속도와 구현 이점 때문에 고속 푸리에 변환 FFT를 사용합니다. Python, C/C++, Matlab 등 모두에서 이미지 처리시 사용하는 함수 명칭이 “fft” 로 되어 있는 이유가 그 이점 때문에 그렇습니다. 푸리에 변환과 같은 이론들을 테스트 해 볼 수 있는 라이브러리들이 많아지고 있습니다만 단계별 처리 과정이 어떻게 되는지 이해를 하고 활용 또는 응용을 한다면 더 효과 적으로 사용할 수 있습니다.

2D Discrete Fourier Transform(DFT) 수식은 아래와 같습니다. F[k,l]은 주파수 영역, f[m,n]은 이미지 평면을 나타냅니다.

푸리에 변환을 통해 얻을 수 있는 값들은 스펙트럼 Spectrum과 페이즈 Phase 정보 입니다. 변환된 수식에서 F[k,l]의 크기를 Spectrum 또는 Magnitude를 의미하고, 각도를 Phase로 부릅니다. 일반적으로 이미지 처리에서 활용하는 정보는 Spectrun(Magnitude)입니다.

이미지를 활용하여 주파수 영역의 스펙트럼을 구하는 순서를 살펴 보면,

1) 이미지 Width와 Height가 각 2^N에 맞게 조정 후 Zero Padding

2) 이미지 X 방향 푸리에 변환하고 그 결과에 Y방향으로 푸리에 변환

3) 각 모서리에 집중되어 있는 저주파 영역 DC 정보를 중심으로 이동 시키기 위한 DC Shift

4) 주파수 영역은 그림에서 상단 두 번째 이미지 결과 형태

FFT에서는 2에 거듭제곱에 비례한 신호 또는 픽셀 수를 이용하여 짝수와 홀수로 나누어 변환을 수행합니다. 이를 Butterfly Operation이라고 하며, 처리 속도를 향상 시킬수 있고 하드웨어적인 구현에도 이점을 가질 수 있습니다. 따라서 이미지에 대해서도 2에 거듭제곱에 비례하게 크기를 조절 후 변환하게 됩니다. 예를 들어 500X500 크기를 갖는 이미지라면 2의 N 승배인 512X512로 크기 조절 및 Zero Padding 후 처리하게 됩니다.

그림에서 하단 첫번째 처럼 주파수 영역 중심 부분을 필터링하고 역변환하면 하단 두 번째 이미지 결과를 얻는데, 저주파 영역을 마스크 처리 했으니 고주파 특성의 에지영역들만 남길 수 있습니다. 이러한 처리를 Lowpass Filtering 하며, 여러 필터링 방법들을 이용하여 이미지 처리에 응용할 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'영상처리 기술' 카테고리의 다른 글

영상처리 푸리에 변환 Fourier Transform 이해와 기본 (Python) (0)	2025.06.01
이미지 처리 보간법 이론과 활용: Bilinear Interpolation (0)	2025.05.25
영상 처리의 기본 개념: 픽셀, 해상도, 채널, 포맷 (0)	2025.05.22
기하학적 이미지 변환 Affine Transform (0)	2025.04.27
칼라처리와 특징 Color Processing - RGB, CMY, HSI (0)	2023.12.03

이미지 처리에서 영역을 분할하는 방법들은 다양합니다. OpenCV에서 제공하는 기능 중 floodFill도 영역을 분할 하는 방법들 중에 하나 입니다. 응용에서는 물체 추적에 전처리나 배경 제거, 물체의 영역 채우기 등에 활용됩니다.

아래는 파이썬에서 활용하는 함수 형태와 C/C++에서 사용하는 함수 예 입니다. C/C++에서 활용하는 함수는 두 가지 형태인데 mask 유무가 차이 입니다.

(Python) retval, image, mask, rect = cv2.floodFill(image, mask, seedPoint, newVal,

loDiff=None, upDiff=None, flags=None)

(C/C++) int floodFill(InputOutputArray image, Point seedPoint, Scalar newVal,

Rect* rect = 0, Scalar loDiff = Scalar(), Scalar upDiff = Scalar(), int flags = 4);

(C/C++) int floodFill(InputOutputArray image, InputOutputArray mask, Point seedPoint,

Scalar newVal, Rect* rect = 0, Scalar loDiff = Scalar(), Scalar upDiff = Scalar(), int flags = 4);

파라미터 설명은 아래와 같으며 실무 적용에서는 mask 활용할 때와 아닐 때만 유의하면 됩니다.

1) image: 입력 이미지이자 처리 대상 이미지이며 그레이 이미지와 칼라 이미지 적용 가능합니다.

2) mask: 어떤 부분을 채울 때 채우기 작업을 제한하는 역할을 합니다. 예를 들어 영역의 에지를 추출한 Binary 이미지라면 “0”인 부분만 특정 값으로 채울 수 있습니다. 8-bit 그레이 이미지로 정의해야 하며, 원본 이미지보다 가로와 세로가 2 픽셀씩 커야 합니다. 추가로 마스크의 테두리는 “1”로 채우며, 동일한 마스크를 여러번 사용해도 채워진 영역이 겹치지 않도록 할 수 있습니다.

3) seedPoint: 값을 변경하는 시작 좌표(x, y) 입니다.

4) newVal: 변경할 픽셀값 또는 색상 입니다. 칼라라면 (255, 10, 10) 형태가 됩니다.

5) loDiff: 변경할 픽셀값의 하한값 입니다.

6) upDiff: 변경할 픽셀값의 상한값 입니다.

7) flag: 변경 처리 조건을 지정합니다.

flag에는 아래 두 가지가 있으며, 실제 적용 시에는 픽셀 연결 방식인 4방향 또는 8방향과 조합해서 사용할 수 있습니다.

(flag)

1) FLOODFILL_FIXED_RANGE: 정의된 상한 및 하한 픽셀값 비교

2) FLOODFILL_MASK_ONLY: 입력 이미지는 변화 없으며 mask를 업데이트

(connectivity) 상하좌우 4방향과 대각 포함한 8방향으로 비교

아래 예는 mask를 사용하지 않는 파이썬 및 C/C++ 코드 입니다. “flag” 부분을 살펴보면 “flags=4 | cv2.FLOODFILL_FIXED_RANGE”과 “4 | FLOODFILL_FIXED_RANGE”로 정의 되었으며, 4방향 + 정의된 상한 및 하한 픽셀값 비교 로 동일한 의미로 적용되었음을 알 수 있습니다.

import cv2
import numpy as np

# 이미지 로드 및 복사
img = cv2.imread('image.jpg')
im_floodfill = img.copy()

# 마스크 생성
h, w = img.shape[:2]
mask = np.zeros((h+2, w+2), np.uint8)

# 위치 및 변환값
seed_point = (125, 125)
new_val = (255, 0, 0)

cv2.floodFill(im_floodfill, mask, seed_point, new_val,
              loDiff=(5, 5, 5), upDiff=(5, 5, 5),
              flags=4 | cv2.FLOODFILL_FIXED_RANGE)

cv2.imshow("Filled Image", im_floodfill)
cv2.waitKey(0)
cv2.destroyAllWindows()

#include <opencv2/opencv.hpp>
using namespace cv;

int main() {
    
    // 이미지 로드
    Mat img = imread("image.jpg");
   
    // 마스크 생성
    Mat mask = Mat::zeros(img.rows + 2, img.cols + 2, CV_8UC1);

    // 위치 및 변환값
    Point seedPoint(125, 125);
    Scalar fillColor(255, 0, 0);  

   floodFill(img, mask, seedPoint, fillColor,
              0,              // rect 포인터 (필요 없으면 0)
              Scalar(5,5,5),  // loDiff
              Scalar(5,5,5),  // upDiff
              4 | FLOODFILL_FIXED_RANGE);  // flags

    // 결과 출력
    imshow("Flood Filled", img);
    waitKey(0);
    return 0;
}

저작자표시 비영리 변경금지 (새창열림)

'영상처리 도구' 카테고리의 다른 글

OpenCV Mat 데이터 처리 기본을 알고 활용하기 (0)	2025.06.15
OpenCV 영상처리 외곽선 추출과 응용 findContours (0)	2025.06.08
OpenCV 적응적 이진화 방법 Adaptive Thresholding (Python, C++) (0)	2025.05.28
딥러닝, 컴퓨터 비전, 영상처리 라이브러리 Image Processing Library (0)	2025.05.18
OpenCV 영상처리 기술 보간법 Interpolation (0)	2025.05.15

블로그에 글 항목들을 보니 컴퓨터 비전, 이미지 처리의 가장 기본적인 항목이 빠져 있어 이 참에 작성해 봅니다. 이미지라는 것은 현실 세계의 한 장면을 센서로 취득한 뒤 2차원 형태의 매트릭스 Matrix로 디지털화 한 데이터로 볼 수 있습니다. 이 매트릭스 하나의 셀 Cell을 픽셀 Pixel 이라고 합니다. 각 픽셀은 색상과 밝기를 수치로 저장 할 수 있습니다.

픽셀 Pixel (Picture Element)

이미지를 구성하는 가장 작은 단위 입니다. 디스플레이를 위한 각 픽셀은 정수 Unsigned Integer로 저장되며 이미지 처리 시 부동소수점 Floating Point 형태로 변환하여 계산할 수 있습니다. 예를 들어 보통 우리가 보는 흑백 이미지 Grayscale의 경우 픽셀 값의 범위는 0~255의 값을 갖습니다.

해상도 Resolution

해상도는 이미지의 크기를 의미합니다. 이미지의 "가로 Width X 세로 Height = 픽셀 수" 로 표현되고, 우리가 TV를 구매할 때 HD, Full HD, Ultra HD 용어가 해상도를 나타냅니다. 예를 들어 HD는 1280x720, Full HD는 1920x1080, Ultra HD는 3840x2160 크기로 정의되고, 계산해보면 Full HD는 207만 개 이상의 픽셀로 구성됨을 알 수 있습니다.

채널 Channel

이미지 처리에서 채널은 색상 성분을 나누어 표한 각각의 구성 요소를 의미합니다. 흑백 이미지 Grayscale의 경우 밝기 정보만 존재하므로 1-채널로 볼 수 있습니다. 칼라 이미지 RGB의 경우 색상 표현을 위한 빨강, 초록, 파랑의 3개의 채널로 구성 됩니다. 이미지 처리를 하다 보면 칼라 이미지인데 RGBA 형태도 볼 수 있으며, 마지막 A는 투명도 조절 역할을 하는 채널입니다. 예를 들어 A의 값이 낮아질 수록 빨강색은 연한 빨강색으로 표현됩니다.

깊이 Bit Depth

한 픽셀의 색 또는 밝기를 표현할 수 있는 단계의 범위 입니다. 우리가 생활에서 접할 수 있는 흑백 이미지 Grayscale의 경우 256단계의 범위를 가지며 8-bit 이미지라고도 합니다. 칼라 이미지는 RGB 각각 8-bit으로 구성되며 합쳐서 24-bit 이미지로 불립니다. (8-bit: 2의 8승 = 256) 세부적인 처리가 필요한 의료 분야 등에서는 10-bit (1,024 단계) 이상의 범위로 이미지를 저장하여 활용합니다.

포맷 Format (이미지 저장 형식)

일상에서 이미지는 메모리에 파일 형태로 저장되며, 그 파일 형태를 포맷이라고 합니다. 가장 익숙한 포맷은 BMP와 JPG가 있습니다. BMP는 마이크로소프트에서 개발된 디지털 이미지 포맷이며 무손실 이미지로 저장되므로 파일 크기가 큽니다. JPG는 ISO와 ITU-T에서 제정된 손실 압축 방법의 표준 이미지 포맷입니다. 손실 압축이므로 압축 비율에 따라 데이터 크기는 작아 질 수 있습니다. 이 외 TIFF가 있으며 앨더스사와 마이크로소프트가 공동 개발한 이미지 포맷이며 무손실 및 손실 압축이 가능하고 사용자가 고쳐서 사용할 수 있는 유연함이 특징입니다. 추가로 GIF, PNG, RAW 등의 포맷이 있습니다.

이미지 저장 공간

흑백 이미지 Grayscale의 경우 1-채널이므로 메모리에는 2차원 배열로 저장됩니다. 칼라 이미지 RGB는 3-채널이므로 3차원 배열로 저장됩니다. 아래는 Grayscale과 RGB의 각 픽셀값을 추출하는 파이썬 예제 코드 입니다. RGB 추출 시 순서는 B, G, R 이니 혼동하지 않도록 주의해야 합니다.

# Grayscale

gray = cv2.imread('image.jpg', cv2.IMREAD_GRAYSCALE) # 이미지 로드

pixel_value = gray[50, 100] # 픽셀 정보 출력, 좌표 (50, 100)

# RGB

img = cv2.imread('image.jpg') # 이미지 로드

(b, g, r) = img[50, 100] # 픽셀 정보 출력 (좌표 (50, 100)) → [B, G, R]

이상에서 같이 디지털 이미지는 2차원 매트릭스 구조로 볼 수 있으며, 2차원 이산 신호처리 2D Discrete Signal Processing을 적용 할 수 있습니다. 영상처리에 적용되는 이론들 대부분이 푸리에 변환 및 필터링 등과 같은 신호처리 개념입니다.

저작자표시 비영리 변경금지 (새창열림)

'영상처리 기술' 카테고리의 다른 글

영상처리 푸리에 변환 Fourier Transform 이해와 기본 (Python) (0)	2025.06.01
이미지 처리 보간법 이론과 활용: Bilinear Interpolation (0)	2025.05.25
기하학적 이미지 변환 Affine Transform (0)	2025.04.27
칼라처리와 특징 Color Processing - RGB, CMY, HSI (0)	2023.12.03
이미지 개선 Adaptive Image Enhancement (HE, CLAHE) (0)	2023.11.12

영상처리 기술은 이미지를 활용하는 다양한 산업분야에서 핵심적인 역할을 하고 있습니다. 현재 많은 분야에서 확장되고 있는 AI분야 머신러닝과 딥러닝에서도 부분적으로 영상기술 이론이 주요하게 사용되고 있습니다. 영상처리 기술을 활용하는 산업 분야를 간략히 요약하면 아래와 같습니다.

산업 자동화

제조 공정에서 불량품 검출, 로봇 비전 등에 활용되며, 고속 카메라와 영상분석을 통해 사람의 개입 없이 품질을 관리할 수 있습니다.

의료 영상

MRI, CT, X-ray 등에서 병변을 자동으로 식별하거나, 조직을 정량적으로 분석하며, 진단 정확도를 높여 줍니다.

보안 및 감시

CCTV 영상에서 이상행동 탐지, 얼굴 인식, 번호판 인식 등에 사용되며, 범죄 예방 및 수사에 핵심적인 역할을 합니다.

자율주행

카메라로 주변 물체를 인식하고, 차선, 신호, 보행자 등을 분석하며, 딥러닝을 활용한 실시간 처리에 핵심적인 역할을 합니다.

엔터테이먼트 및 미디어

영상 편집, 필터 적용, 실시간 합성, 가상현실(VR), 증강현실(AR) 등에서 쓰이며, 사용자 경험 UI/UX에도 활용됩니다.

몇 년 사이에 AI기술이 확장 및 확대 되면서 컴퓨터 비전과 영상처리 라이브러리들이 다양화 되었습니다. 특히 파이썬 Python 프로그래밍 활용이 확대 되면서 파이썬 관련 영상처리 라이브러리가 많아진 것을 볼 수 있습니다. 아래는 대표적인 라이브러 설명이며, OpenCV의 경우 참 오래된 라이브러이기도 하고 꾸준히 사용되 되었습니다. AI 성장과 함께 현재는 영상처리 활용에 핵심 라이브러리의 하나이기도 합니다.

1) OpenCV (Open Source Computer Vision)

가장 널리 사용되는 오픈소스 라이브러리. 영상 입출력, 필터, 물체 인식 등 광범위한 기능을 제공하며 C/C++과 파이썬에서 활용할 수 있습니다.

2) MATLAB

영상처리 전용 툴박스 제공, 연구 및 교육용으로 활용도 높으며 최근 실무에서도 활용도가 높아지고 있습니다. MATLAB 자체가 유료이므로 라이브러리도 유료로 사용할 수 있습니다.

3) Pillow(PIL)

파이썬 기반 영상 처리 라이브러리이며, 단순한 이미지 처리에 적합합니다.

4) Scikit Image

파이썬 과학 연산 라이브러리 기반 영상처리 라이브러리이며, 연구 및 분석 목적에 적합합니다.

5) PyTorch

파이썬 머신러닝, 딥러닝 기반 영상처리에 적합하며 분류, 객체탐지, 세크멘테이션에 활용 됩니다.

6) MediaPipe

구글에서 개발한 실시간 영상처리 프레임워크이며 얼굴, 손, 포즌 인식에 이용됩니다. C/C++ 및 파이썬을 통해 활용할 수 있습니다.

이미지 처리는 단순 필터 적용을 넘어서 AI와 융합되어 인공지능 기술의 시각지능의 핵심이 되고 있습니다. 특히 영상에서의 의미 있는 정보 추출과 자동화가 가능해져 다양한 기술 분야에 확대 적용되고 있습니다.

영상처리 라이브러리 중 MediaPipe에 대해 조금 더 알아 보겠습니다. MediaPipe는 머신러닝 기반의 멀티모달 파이프라인을 쉽게 만들고 실행할 수 있게 해주는 프레임워크입니다. 실시간 영상에서 정교한 분석을 저지연으로 처리할 수 있도록 설계되어, 모바일, 데스크탑, 웹 등 다양한 환경에서 실행 가능합니다.

MediaPipe의 주요 특징으로는 CPU에서도 실시간 처리가 가능할 정도로 경량화 된 모델 구조이며, 각 기능이 독립된 컴포넌트로 구성되어 있습니다. 크로스 플랫폼으로 사용 가능하며, 사전 학습된 모델도 제공 됩니다. 기능으로는 얼굴 감지 및 인식, 손 제스처 인식, 포즈 예측, 신체 모션 분석, 3D 객체 인식 등이 있습니다. 아래는 설치 방법 입니다.

설치 : pip install mediapipe opencv-python

파이썬 활용 시: import mediapipe as mp

추가로 OpenCV는 .NET 프레임워크 환경 C# 등에서도 활용 가능합니다. OpenCvSharp은 C++ OpenCV의 .NET 바인딩 라이브러리입니다. 쉽게 이야기 하면 C++ 코드의 함수를 C#에서 호출하는 방식으로 볼 수 있습니다. 아래 첫번째 예는 OpenCvSharp을 이용한 이미지 읽기이며, 두번째는 웹캠 영상 로드 예 입니다.

// 이미지 읽기
using OpenCvSharp;

Mat image = Cv2.ImRead("lena.jpg");
Cv2.ImShow("lena", image);
Cv2.WaitKey(0);

// 웹캠 이미지 로드
using OpenCvSharp;

using var capture = new VideoCapture(0);
using var window = new Window("WebCam");

var frame = new Mat();
while (true)
{
    capture.Read(frame);
    if (frame.Empty()) break;

    window.ShowImage(frame);
    if (Cv2.WaitKey(1) == 27) break; // esc 종료
}

저작자표시 비영리 변경금지 (새창열림)

'영상처리 도구' 카테고리의 다른 글

OpenCV 영상 처리 영역 분할 floodFill (0)	2025.06.04
OpenCV 적응적 이진화 방법 Adaptive Thresholding (Python, C++) (0)	2025.05.28
OpenCV 영상처리 기술 보간법 Interpolation (0)	2025.05.15
OpenCV 칼라 처리 및 변환 cvtColor (0)	2023.12.10
OpenCV 이미지 산술연산과 논리연산, 혼합 Image Blending (0)	2023.11.26

영상처리 기술에서 보간법은 이미지 확대나 회전, 좌표 변환 기술 Affine Transform 등 알고리즘 구현 시 빈번히 사용됩니다. 머신 러닝 Machine Learning 및 딥러닝 Deep Learning 등 특히 CNN 계열에 Coarse Map을 Dense Map으로 Up-Sampling시 활용되는 기술이기도 합니다. 이미지를 두 배로 확대할 때 보간법은 새로운 픽셀 Pixel 값을 그럴듯하게 예측하는 기술로 볼 수 있습니다. 이론적인 부분은 영상처리 기술에서 다루도록 하겠습니다.

기본적인 보간법 세가지는 아래와 같습니다.

1. 최근접 이웃 보간법 Nearest Neighbor Interpolation

- 소수점 좌표에서 가장 가까운 정수 좌표 픽셀 사용, 수행속도가 가장 빠르지만 계단 현상 및 깨짐 현상 발생

2. 양선형 보간법 Bilinear Interpolation

- 주변 4개 픽셀을 사용해 선형 평균을 이용, 최근접 보다 자연스러운 결과를 보이고 일반적으로 많이 활용되는 기술

3. 양큐빅 보간법 Bicubic Interpolation

- 주변 16개 픽셀을 활용하며 앞에 두 기술보다 자연스러우며, Super Resolution 기술들에서 비교 결과로 많이 사용, 고화질 이미지 편집에 사용되는 기술이며 처리속도는 느림

이미지 회전 시 보간법이 사용되는 이유는 회전은 수학적으로 기존 픽셀 좌표를 회전 행렬로 이동시키는 과정입니다. 회전 시 생성되는 좌표는 보통 소수점 좌표가 되며, 새로운 평면에 매칭 시 좌표는 소수점이 아닌 정수이기때문에 빈공간이 생기게 됩니다. 그 빈공간을 채워주기 위해 보간법이 활용됩니다. 예를 들어 좌표 (5, 5)를 30도 회전하면 (5.3, 3.9) 되므로 실제 좌표 매칭을 위해서는 주변 픽셀 (5, 3), (6, 3), (5, 4), (6, 4)를 이용하여 추정해야 합니다.

OpenCV에서 이미지 회전 및 확대 시 보간법을 지정할 수 있습니다. 아래는 파이썬 활용시 CV 상수 입니다. 첫번째 예제는 회전시 파이썬 코드이며, 이전 블로그에서 설명한 “cv2.warpAffine” 함수를 사용합니다. 두번째 예제는 “cv2.resize” 함수를 활용한 보간법 사용 예입니다.

1. 최근접 이웃 보간법 - cv2.INTER_NEAREST

2. 양선형 보간법 - cv2.INTER_LINEAR

3. 양큐빅 보간법 - cv2.INTER_CUBIC

4. Lanczos 보간법 - cv2.INTER_LANCZOS4

# 이미지 회전 예제
import cv2
import numpy as np

# 이미지 로드
img = cv2.imread('lena.jpg')

# 회전 중심, 각도, 스케일
center = (img.shape[1] // 2, img.shape[0] // 2)
angle = 50
scale = 1.0

# 회전 행렬 생성
M = cv2.getRotationMatrix2D(center, angle, scale)

# 양큐빅 보간법 사용예
rotated = cv2.warpAffine(img, M, (img.shape[1], img.shape[0]), flags=cv2.INTER_CUBIC)

# 결과 보기
cv2.imshow('Rotated Image', rotat_result)
cv2.waitKey(0)
cv2.destroyAllWindows()

# 이미지 확대 예제
img = cv2.imread('lena.jpg')

# 2배 확대, 선형 보간법
resized = cv2.resize(img, None, fx=2, fy=2, interpolation=cv2.INTER_LINEAR)

# 결과 보기
cv2.imshow('Resized Image', resiz_result)
cv2.waitKey(0)
cv2.destroyAllWindows()

저작자표시 비영리 변경금지 (새창열림)

'영상처리 도구' 카테고리의 다른 글

OpenCV 적응적 이진화 방법 Adaptive Thresholding (Python, C++) (0)	2025.05.28
딥러닝, 컴퓨터 비전, 영상처리 라이브러리 Image Processing Library (0)	2025.05.18
OpenCV 칼라 처리 및 변환 cvtColor (0)	2023.12.10
OpenCV 이미지 산술연산과 논리연산, 혼합 Image Blending (0)	2023.11.26
OpenCV 모폴로지 연산 Morphological Transformations (0)	2023.11.19

윤곽선 검출 Edge Detection은 물체에 경계선을 추출하기 위한 기술 입니다. 우리가 알고자 하는 물체의 모양, 크기, 위치 등 정보를 확인하고자 할 때 사용되는 기술로 알고리즘의 전처리 과정에서 이용됩니다. 요즘 기술개발이 활발히 진행되고 있는 Machine Learning의 한 분야인 딥러닝 Deep Learning에서 영상의 특징점 Feature 을 정의하는데도 사용되는 전처리 기술 입니다.

Edge Detection 기술이 사용 된지는 오래됐으며 현재까지도 폭넓게 사용되고 있고, 수학적 접근방식에 따라 다양한 방법들이 존재합니다. 현 이야기에서는 OpenCV에서 제공되는 윤곽선 검출 도구 중 Sobel Edge Detection과 Canny Edge Detection 기술 사용법에 대한 설명입니다. Edge Detection에 앞에 붙어 있는 Sobel과 Canny는 개발자에 이름이며 WIKIPEDIA에 의하면Sobel Filter는 1968년과 Canny Edge Detector는 1986년에 개발되었습니다. 정말 오래된 기술 입니다만 현재도 상당히 많이 사용되고 있고, 이러한 윤곽선 검출 기술에 기본 원리는 미분 연산자 Differentiation Operator에 의한 밝기 변화 탐색 입니다. 다시 말해, 물체의 가장자리에서 밝기 변화가 크므로 Pixel 값에 차이를 통해 윤곽선 유무를 판단할 수 있다는 의미이기도 합니다.

위에서처럼 OpenCV에서 제공되는 Edge Detection 함수인 Sobel과 Canny를 볼 수 있습니다. 먼저 cvSobel 함수를 살펴보면 앞에서 설명한 기본 함수들에서처럼 입력영상인 “src”와 결과영상을 담기위한 “dst”가 보입니다. “aperture_size”는 Sobel Mask의 크기를 나타내고 “3”이면 3X3을 의미합니다. “xorder”와 “yorder”는 Sobel Mask 연산 시 결과값의 위치를 나타내는데 3X3의 경우 중심인 xorder = 1과 yorder = 1 이 되며, Mask의 시작점은 (0, 0)이니 2가 아닌 1이 됩니다.

Sobel 사용 예)

cvSobel( Input_Image, Result_Image, 1, 1, 3)

cvConvertScaleAbs(Result_Image, Convert_Result_Image, 1, 0)

cvSobel 함수 사용은 위에 예처럼 사용하면 되는데 cvConvertScaleAbs()라는 함수가 더 있죠? cvSobel 함수 사용 시 주의할 점이 있습니다. 앞에서 언급했듯이 Edge Detection의 원리가 Pixel의 차이를 이용하기 때문에 결과에서는 마이너스 “-“ 값이 존재하고 Result_Image의 Depth는 보통 Input_Image의 Depth가 unsigned 8-bit 이니 signed 16-bit 으로 구성되어야 합니다. 따라서 최총 결과를 확인하기 위해서는 절대값을 이용하여 다시 unsigned 8-bit 으로 변환해 줘야 하고, 이때 사용되는 함수가 cvConvertScaleAbs() 입니다.

cvCanny 함수의 경우 입력영상인 “image”와 결과영상인 “edges”가 보이고 “apertureSize = 3”은 Sobel Mask 에 3X3을 의미합니다. 여기서 cvSobel 함수와 다르게 “threshold1”과 “threshold2”를 입력하게 되어 있는데, “threshold1” 이하는 외곽선이 아닌 영역으로 “threshold2” 이상은 외곽선인 영역, 그리고 “threshold1”과 “threshold2”의 사이는 Canny Procedure에 의해 외곽선 유무를 판단하게 됩니다.

Canny 사용 예)

cvCanny( Input_Image, Result_Image, 100, 200, 3 )

cvCanny 사용 예에서 threshold1과 threshold2의 100과 200은 0 ~ 255의 범위를 갖는 8-bit 영상 기준으로 설정된 값을 의미하고, Result_Image는 Input_Image와 동일한 속성으로 설정하면 됩니다. 앞에 설명과 그림 결과와 같이 8-bit Input_Image 기준으로 cvSobel 함수의 최종 Result_Image는 8-bit 그레이 Gray 영상이며, cvCanny 함수의 경우 8-bit 바이너리 Binary 영상이니 이것만 주의해서 활용하면 됩니다. Sobel 및 Canny의 수학적 또는 알고리즘 접근에 대해서는 영상처리기술에서 추가적으로 다뤄보도록 하겠습니다.

저작자표시 비영리 변경금지 (새창열림)

'영상처리 도구' 카테고리의 다른 글

OpenCV 이미지 평활화 Histogram Equalization (0)	2023.11.04
OpenCV 블러링 Blurring, 스무딩 Smoothing (0)	2018.06.14
OpenCV 패턴 정합 Pattern Matching ( Template Matching ) (0)	2017.10.28
OpenCV 타원 추정 Ellipse Fitting (0)	2017.09.12
OpenCV 기본 함수 사용 방법 Line, Rectangle, Circle, Ellipse (0)	2017.07.13

영상처리 기술, 그 이야기