banner
홈페이지 / 블로그 / Vision Transformers는 새로운 '패치로 과제를 극복했습니다.
블로그

Vision Transformers는 새로운 '패치로 과제를 극복했습니다.

Dec 17, 2023Dec 17, 2023

게시됨

~에

에 의해

인공 지능(AI) 기술, 특히 ViT(Vision Transformer)는 이미지에서 개체를 식별하고 분류하는 능력에 있어 엄청난 가능성을 보여주었습니다. 그러나 실제 적용은 높은 컴퓨팅 성능 요구 사항과 의사 결정의 투명성 부족이라는 두 가지 중요한 과제로 인해 제한되었습니다. 이제 연구원 그룹은 "Patch-to-Cluster attention"(PaCa)으로 알려진 새로운 방법론인 획기적인 솔루션을 개발했습니다. PaCa는 이미지 객체 식별, 분류 및 분할 분야에서 ViT의 기능을 향상시키는 동시에 계산 요구 및 의사 결정 명확성과 같은 오랜 문제를 해결하는 것을 목표로 합니다.

뛰어난 기능으로 인해 트랜스포머는 AI 세계에서 가장 영향력 있는 모델 중 하나입니다. 이러한 모델의 성능은 시각적 입력으로 훈련된 변환기 클래스인 ViT를 통해 시각적 데이터로 확장되었습니다. 이미지를 해석하고 이해하는 데 ViT가 제공하는 엄청난 잠재력에도 불구하고 몇 가지 주요 문제로 인해 방해를 받았습니다.

첫째, 방대한 양의 데이터를 포함하는 이미지의 특성상 ViT에는 상당한 컴퓨팅 성능과 메모리가 필요합니다. 이러한 복잡성은 특히 고해상도 이미지를 처리할 때 많은 시스템에서 압도적일 수 있습니다. 둘째, ViT 내의 의사결정 과정은 복잡하고 불투명한 경우가 많습니다. 사용자는 ViT가 이미지의 다양한 개체나 특징을 어떻게 구별하는지 이해하기 어렵습니다. 이는 수많은 애플리케이션에 매우 중요합니다.

그러나 혁신적인 PaCa 방법론은 이러한 두 가지 과제에 대한 솔루션을 제공합니다. "우리는 변환기 아키텍처가 이미지의 객체를 더 잘 식별하고 집중할 수 있도록 하는 클러스터링 기술을 사용하여 계산 및 메모리 요구와 관련된 문제를 해결합니다."라고 해당 작업에 대한 논문의 교신 저자이자 의대 부교수인 Tianfu Wu는 설명합니다. 노스캐롤라이나 주립대학교 전기 및 컴퓨터 공학.

PaCa에서 클러스터링 기술을 사용하면 계산 요구 사항이 크게 줄어들어 문제가 2차 프로세스에서 관리 가능한 선형 프로세스로 전환됩니다. Wu는 "클러스터링을 통해 이를 선형 프로세스로 만들 수 있으며, 각각의 작은 단위는 미리 결정된 수의 클러스터와만 비교하면 됩니다."라고 설명합니다.

클러스터링은 ViT의 의사결정 프로세스를 명확하게 하는 역할도 합니다. 클러스터를 형성하는 과정은 ViT가 이미지 데이터 섹션을 그룹화하는 데 중요한 기능을 결정하는 방법을 보여줍니다. AI는 제한된 수의 클러스터만 생성하므로 사용자는 의사결정 과정을 쉽게 이해하고 검토할 수 있어 모델의 해석성이 크게 향상됩니다.

포괄적인 테스트를 통해 연구원들은 PaCa 방법론이 여러 측면에서 다른 ViT보다 성능이 우수하다는 사실을 발견했습니다. Wu는 "우리는 PaCa가 모든 면에서 SWin과 PVT를 능가한다는 사실을 발견했습니다."라고 설명합니다. 테스트 과정에서 PaCa는 이미지 내 객체를 분류 및 식별하고 분할하여 이미지 내 객체 경계를 효율적으로 설명하는 데 탁월한 것으로 나타났습니다. 또한 다른 ViT보다 작업을 더 빠르게 수행하여 시간 효율성이 더 높은 것으로 나타났습니다.

PaCa의 성공에 힘입어 연구팀은 더 큰 기본 데이터 세트에서 PaCa를 훈련시켜 개발을 더욱 발전시키는 것을 목표로 하고 있습니다. 이를 통해 그들은 현재 이미지 기반 AI로 가능한 것의 경계를 넓히고자 합니다.

연구 논문 "PaCa-ViT: 비전 트랜스포머에서 패치-클러스터 주의 학습"은 다가오는 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스에서 발표될 예정입니다. 이는 보다 효율적이고 투명하며 접근 가능한 AI 시스템을 위한 길을 닦을 수 있는 중요한 이정표입니다.

AI의 위험성과 강력한 AI 규제의 시급성을 강조하는 기술 리더들

Alex McFarland는 인공 지능의 최신 개발을 다루는 브라질 기반 작가입니다. 그는 전 세계 최고의 AI 기업 및 출판물과 협력해 왔습니다.