현재 진행 수 3,225
  • 인스타그램
  • 페이스북
  • 트위터
  • 블로그
  • 카페
  • 구글소식
  • 밴드
  • 유튜브

시각정보 기반 질의응답 알고리즘 경진대회

3,770
주최 . 주관 과학기술정통부, 한국정보화진흥원/유클리드소프트
대표분야 IT•소프트웨어•게임
참가대상 고등학생 , 대학생 , 대학원생 , 일반인
접수기간 2020.11.27 ~ 2020.12.06
심사기간 2020.11.27 ~ 2020.12.06
대회지역 온라인
시상내역 없음
홈페이지 주최사 공고 바로가기
참가비용 무료 접수
콘코 SNS 공유 인스타그램  페이스북  트위터  블로그  카페  구글소식  밴드  유튜브 
※ 대회·공모전의 세부요강은 주최사의 기획에 의해 내용이 변경 될 수 있으니, 주최사의 공고를 반드시 확인해 보시기 바랍니다.

대회명

시각정보 기반 질의응답 알고리즘 경진대회

배경

VQA 시스템의 기본 구조는 일차적으로 convolutional neural network(CNN)를 이용하여 이미지정보를 이해하고, long short term memory(LSTM) 기반의 시계열 처리 모델을 활용하여 질문을 이해한 후 정답을 예측하는 방법으로 이루어져 왔다.
VQA( Visual Question Answering)는 시각정보를 활용한 질의 응답을 AI가 학습하는 시스템으로, VQA task는 이미지(Visual, 영상으로도 확장 가능)와 그 이미지에 대한 질문(Question)이 주어졌을 때, 해당 질문에 맞는 올바른 답변(Answer)을 만들어내는 task이다.
2016년도에 Yang. Z.이 CNN을 거친 이미지 정보를 LSTM의 입력으로 사용하는 VQA 모델을 처음으로 소개했다.
2017년 VQA 대회에서 region proposal CNN (Faster-RCNN)을 이용해 이미지 내 객체 후보군들을 먼저 알아낸 후, 이미지의 특징점을 활용하는 방안이 제안되었고 이후 VQA 연구는 대체로 Faster-RCNN을 사용하게 되었다.
이후 2018년도 VQA 대회에는 각 질문 특징점과 영상 특징점 쌍이 모두 고려되도록 하는 양방향 어텐션(billinear attention) 방법이 활용되어 최고 성적을 보였다.
가장 최근에는 ELMo, BERT와 같은 사전에 학습된 언어 모델을 활용하는 사례가 늘고 있는 추세이며, dual attention network (DAN) 기술을 활용해 질문정보와 이미지 정보간의 양방향 이해를 돕는 모델이 적용되었다.

학습과정

VQA 모델을 학습하기 위해서는 이미지와 질문에 대한 두 가지의 자질 생성이 필요하다.
본 과제에서는 기존에 제안된 연구를 토대로 한국어 VQA 모델 개발을 위해 CNN을 이용해 이미지를 이해하는(encoding) 방법을 사용했다.
본 연구에서는 비교적 가볍고 이미지 인식에서 좋은 성능을 보인 VGGNet 혹은 ResNet50의 마지막 히든 레이어 값을 이미지 자질로 사용했다.
질문 자질을 생성하기 위한 방법은 주로 word embedding과 LSTM을 활용한 모델을 사용한다.
학습 데이터의 입력으로 이미지와 질의(한국어), 응답(한국어)을 입력받는다.
베이스라인 모델
참조 코드 링크 제공
https://github.com/GT-Vision-Lab/VQA_LSTM_CNN
https://github.com/jiasenlu/HieCoAttenVQA
이중 질의 “이미지속에 몇 마리의 말이 있는가?”의 질문은 단어별로 하나의 벡터인 q가 되고 해당 벡터를 쌓아 매트릭스 Q로 만든다. 입력으로 받은 이미지는 ResNet 50을 백본으로 사용하여 추출된 자질 I를 생성한다.
이후 이미지의 지역정보 자질과, 질문의 단어자질을 양방향 어텐션(bilinear attention) 기법과 multi-layered perceptron (MLP) 기반의 분류기를 활용하여 정답을 예측하게 된다.
학습 도중 오류가 발생할 경우 Cross-Entropy 기반의 손실 함수를 활용하여 손실값을 구했으며, Adam-optimizer를 사용하여 역전파를 통해 오류에 대한 피드백을 반영했다.

주최

과학기술정통부, 한국정보화진흥원,

주관

유클리드소프트

운영

AIFactory

참가 대상

시각정보 알고리즘 개발에 관심 있는 일반인, 학생, 기업 등 누구나 (단, 14세 이상)

데이터 제공

https://aifactory.space 의 회원가입을 완료한 회원이 본 대회 참가를 할 경우에만 데이터 제공
회원가입 시 오류가 확인될 경우 가입 무효화 후 오류 메시지 팝업창 제시
"대회 규칙"에 대한 동의가 있어야만 대회 참가 가능

일정

플랫폼 태스크 등록 및 경연대회 홍보: 2020.11.24
경연대회 : 2020.11.27 ~ 2020.12.06
1st랩 : 2020.11.27 ~ 2020.12.06
※ 대회의 원활한 진행을 위해 일정은 변경될 수 있음.

상금/수여팀

랩은 총 1회를 진행하며, 총 상금 300만원을 지급합니다.

평가 방법

객관적인 성능 평가를 위해서 다음과같은 한국어 VQA성능을 측정 메트릭을 제안한다.
1) 내용 : 이미지와 관련 질의에 대한 답변 정확도
2) 지표 : 정확도 Accuracy
3) 목표(기준) : 42 % 이상
4) 검증환경 : VQA 모델 완성과 데이터셋 구축을 완료한 시점에 모델의 답변 정확도를 평가
5) 검증절차 :
1. 모델을 사용하여 학습데이터로 예측모델 학습
2. 검증 데이터를 이용한 모델의 답변 생성
3. 정답 비교평가 및 수량 산출
4. VQA가 제공하는 정확도 측정

평가 과정

‘Public Score’는 리더보드 운영 기간 중에 확인 가능하며, ‘Private Score’는 리더보드 운영 기간 중에는 확인할 수 없으며, 대회 종료 이후에 공개됨.
단, Private Score는 마지막 제출 파일로 채점되므로, 참가자는 자신이 채점 받고 싶은 제출 파일을 최종적으로 갱신하여야 함.
랩별 종료일 이전에 목표점수 도달 시 리더보드 운영을 종료하고, Private Score 1순위 참가자는 AIFactory로 정해진 코드 양식에 맞는 코드파일과 제공되는 양식에 맞는 설명자료를 제출함.
평가는 다음과 같은 과정으로 이루어짐.
A. 공개 랭킹 (Public Score): 대회 중 Test 데이터의 일부로 채점함.
B. 최종 랭킹 (Private Score): Public Score에서 사용하지 않은 Test 데이터의 나머지로만 채점함 (랭킹에 사용되는 Test 데이터의 비율은 공개되지 않음).
C. 종합 최종 랭킹 (Final Private Score): 랩별 대회기간 안에 정해진 코드 양식에 맞는 코드파일과 제공되는 양식에 맞는 설명자료를 제출한 상위 참가자 팀들을 대상으로 다음의 평가 기준을 바탕으로 종합 최종 랭킹을 공개함.

대회 규칙

※ 아래 내용에 대해서 동의 후 대회 참가할 수 있음.
1) 외부 데이터 사용 관련
외부 공공 데이터 사용이 가능하나, 코드 제출 시 함께 제출
공공 데이터 외의 외부 데이터는 법적인 제약이 없는 경우에만 사용 가능
외부 데이터를 크롤링할 경우, 크롤링 코드도 함께 제출
2) 팀 참가 관련
한 팀의 인원 제한은 없음.
팀 대표 1인만 대회참가 신청
제출은 반드시 팀 대표 1인의 아이디로 제출
팀이 수상하는 경우 팀 대표에게만 상금 지급
3) 저작물 제출 및 검증 관련
입상자는 아래 저작물을 제출해야 함.
구글 Colab에서 작동하는 train.ipynb 파일 공유
구글 Colab에서 작동하는 test.ipynb 파일 공유
상기 ipynb를 구동하기 위한 필요한 파일 (모델 가중치 및 외부파일) 공유
모델 설명서 제출
공유는 reviewers@aifactory.page 계정에 읽기 권한 제공을 말함.
입상자가 제출한 코드는 구동 및 성능 재현성 검증이 되어야 함.
모든 코드는 오류 없이 실행되어야 함.
별도로 필요한 라이브러리가 있을 경우 Colab 소스코드 내에 설치하는 코드가 있어야 함.
입상자는 코드에 대한 주석을 작성해야 하며, 대회 운영자가 추가 요청을 할 수 있음.
코드와 주석의 인코딩은 모두 UTF-8을 사용하여야 함.
모델 설명서는 아래 템플릿에 맞게 작성 후 reviewers@aifactory.page에 공유함.
https://docs.google.com/document/d/1GdlFCJo_-N6wANOwFNujBeFjlmjlIHelwzTvTdQFvk4/edit?usp=sharing
4) 저작물 소유권 관련
데이터에 대한 설명 및 데이터셋 파일 등 제공된 일체의 정보는 유클리드소프트의 자산임.
상기 정보는 본 대회의 참가 목적으로만 사용할 수 있으며, 다른 목적으로는 사용 불가함.
입상자들은 코드 및 저작물 관련 양수양도 계약이 작성이 되며, 해당 계약이 성사된 이후, 상금이 수여됨.
해당 코드 및 관련 저작물의 소유권은 모두 유클리드소프트의 소유로 인정됨.
※ 본 대회는 추가 공지가 있을 때까지 PC버전으로 진행하시기 바랍니다.
※ Internet Explorer 11버전과 Chrome 79버전에 최적화 되어 있습니다.

대회기간

2020-11-27 ~ 2020-12-06

문의

TEL : 042-710-6451, MAIL : contact@aifactory.page

인기 순위