영상 중심 AIoT 솔루션 및 서비스 분야의 글로벌 리더 다화테크놀로지(이하 ‘다후아’)가 시각 지능을 멀티모달·언어 기능과 통합한 차세대 산업용 AI 시스템 ‘Xinghan 대규모 AI 모델’을 공개했다. Xinghan은 실제 환경의 복잡한 과제를 다루도록 설계되어, 다양한 산업의 지능형 전환을 가속한다.
Xinghan의 기술 기반
Xinghan은 연구와 현장 적용을 긴밀히 연결하는 구조로 지속적으로 고도화되고 있다. 에지-클라우드 연계 아키텍처를 바탕으로 풀스택 역량을 제공하며, 산업 전반에서 확장성과 적응성을 갖춘 지능을 구현한다. 아키텍처는 L·V·M 세 가지 시리즈로 구성되며, L은 자연어 이해와 상호작용, V와 M은 각각 시각 지능과 멀티모달 응용을 담당한다.
V 시리즈: Xinghan 비전 모델
고도화된 시각 지능과 영상 분석을 핵심으로, 사람·차량·비차량 등 주요 대상을 중심으로 카테고리를 간소화해 모델 복잡도를 낮추면서도 높은 정확도를 유지한다.
주요 기능은 다음과 같다:
- 경계 보호: 기존 CNN 기반 AI 대비 최소 20×20 픽셀 수준의 소형 객체까지 식별해 커버리지를 확대하고 오탐을 줄이며 카메라의 감시 범위를 한층 넓힌다.*
- WizTracking: 가림과 자세 변화에 강한 차세대 추적 알고리즘으로 추적 정확도를 약 50% 향상한다.*
- 군중 밀집도 분석: 장거리 소형 객체 탐지를 최대 2배 향상하고, 우산 가림 보정으로 우천 시 정확도를 약 80% 개선한다.* 분석 범위는 2.5배 확대되며, 최대 5,000명 동시 감지를 지원하고 고밀집·저조도 환경에서도 안정적으로 동작한다.*
- 자동적용AI WDR: 장면의 공간·문맥 정보를 분석해 노출 등 주요 파라미터를 자동 최적화한다.
- AI 규칙 자동 설정: 침입 규칙을 자동 추천·설정하며, 원클릭 구성과 높은 장면 이해도 기반의 분석을 제공한다.
M 시리즈: Xinghan 멀티모달 모델
텍스트·이미지·오디오·비디오 등 이종 데이터를 동시에 처리·심층 통합하는 고도화된 AI로, 정보 처리 효율을 크게 높이고 보다 자연스러운 인간-컴퓨터 상호작용을 구현하며 응용 범위를 크게 확장한다.
주요 기능은 다음과 같다:
- WizSeek: 자연어로 사람/차량/동물/사물 등 목표를 설명하면 녹화 아카이브 전반에서 일치 영상을 신속 검색해 수사·탐색 효율을 높인다.
- 텍스트 기반 알람 기능: 자연어로 알람 조건을 정의해 개발 부담을 줄이고, 다양한 시나리오에 맞춘 빠르고 유연한 확장을 지원한다.
*본 수치는 표준 설정 및 내부 테스트 환경 기준이며, 현장 환경에 따라 달라질 수 있습니다.