실시간 뉴스



AI 이미지 묘사 능력 더 정확해졌다


MS '이미지 캡셔닝 기술' 업데이트…시각적 어휘 통해 정확도 2배 향상

[아이뉴스24 김국배 기자] 마이크로소프트(MS)가 사람과 비슷한 수준으로 이미지를 설명할 수 있는 인공지능(AI) 기술을 선보였다.

20일 한국MS에 따르면 MS는 최근 '알트 텍스트'로 알려진 이미지 캡셔닝 기술을 업데이트했다.

이미지 캡셔닝은 다양한 이미지를 인식하고 분석해 자연어로 해설해주는 기술이다. 이번 업데이트로 보다 구체적이고 정확한 이미지 묘사가 가능해졌다는 게 회사 측 설명이다.

가령 공을 잡으려고 담장 앞에서 뛰어오른 야구선수의 사진을 보고 과거에는 '빌딩 옆 스케이트보드를 타는 사람'이라고 했다면, 지금은 '공을 잡는 야구선수'라고 정확히 설명해준다. '곡물 확대 사진'이라고 했던 사진도 이제는 '들판 속 보리 확대 사진'이라고 더 구체적으로 표현한다.

마이크로소프트가 '이미지 캡셔닝' 기술을 업데이트했다.  [사진=MS]
마이크로소프트가 '이미지 캡셔닝' 기술을 업데이트했다. [사진=MS]

이런 기술 향상의 비결은 시각적 어휘를 사용한 덕분이다. MS는 대규모 AI 모델에 단순 어휘가 태깅된 이미지를 데이터 세트로 제공했다.

회사 측은 "각각의 태그는 이미지의 특정 개체에 매핑해 사전 교육을 시켰고, 정밀교정을 거쳐 문장 작성법을 학습하도록 했다"며 "마치 아이들이 언어를 익힐 때 사과 사진 밑에 '사과'라는 단어를 다는 것과 유사하다"고 설명했다.

이 방식은 완성된 문장을 사용하는 훈련보다 더 효과적인 결과를 만들어냈다. 실제로 지난 2015년부터 사용해온 모델보다 정확도가 2배 올라갔으며, 새로운 개체가 포함된 사진도 보다 정확히 설명해준다.

현재 이미지 캡셔닝 기술은 컴퓨터 비전 기술인 '애저 코그니티브 서비스'를 통해 사용할 수 있다. 올해 말에는 윈도, 맥 환경의 워드·아웃룩·파워포인트 등에서 사용 가능하다. 시각 장애인에게 주변환경, 인물, 사물, 글자 등을 설명해주는 모바일 애플리케이션인 '시각 AI'와도 통합될 예정이다. 이를 통해 시각 장애인이나 시력이 좋지 않은 사람들에게 사진을 묘사해주는 등 도움을 줄 수 있을 전망이다.

사킵 사이크 MS AI 플랫폼 그룹 소프트웨어 엔지니어링 매니저는 "알트 텍스트 기능을 문서, 웹, 소셜미디어 등의 이미지에 적용한다면 시각 장애인도 콘텐츠를 더욱 쉽게 이해하고 사람들과 대화에 참여할 수 있을 것"이라고 말했다.

김국배 기자 vermeer@inews24.com







alert

댓글 쓰기 제목 AI 이미지 묘사 능력 더 정확해졌다

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
포토뉴스