‘디지털 노가다’ 데이터 라벨링 부업 체험기

[뉴스포스트=김혜선 기자] 지난해 말부터 주부들 사이에서 ‘핫’하다고 소문난 부업이 있다. 바로 인공지능을 가르치기 위한 ‘데이터 라벨링’ 부업이다. 인공지능 컴퓨터가 아무리 대단하다고 해도 일상생활에서 편리하게 쓰이기 위해서는 사람들의 행동양식을 배우는 과정이 반드시 필요하다. 데이터 라벨링은 컴퓨터가 데이터를 분류할 수 있도록 ‘가르쳐주는’ 작업이다.

Crick Ai의 바운딩 작업 이미지 사진. 자동차를 인식하고 승용차인지, 버스인지 등 정보를 입력해야 한다. (사진=Crick Ai)
Crick Ai의 바운딩 작업 이미지 사진. 자동차를 인식하고 승용차인지, 버스인지 등 정보를 입력해야 한다. (사진=Crick Ai)

예를 들어 사진 한 장 속에 자동차 번호판을 인식하는 인공지능을 개발한다고 하자. 인공지능은 사진 속 ‘자동차’를 찾아야 하고, 자동차 속 ‘번호판’을 인식한 뒤, 번호판의 숫자를 문자로 변환하는 법을 배워야 한다. 사람이 직접 사진 속 자동차를 확인해주고, 번호판이 무엇인지 지정해주고, 번호판 속 숫자를 입력해주면 그 데이터가 쌓일수록 컴퓨터는 스스로 어떻게 사진 속 차량을 인식하는지 배워간다.

인공지능 관련 기술은 어디에든 적용될 수 있기 때문에, 데이터 라벨링도 다양한 프로젝트가 있다. 사진에서 특정 이미지에 네모 박스를 그리는 ‘바운딩 작업’, 주제에 맞는 사진을 찍어 업로드 하는 ‘이미지 수집’, 문서의 문자, 기호 등을 그대로 적어주는 작업, 음성 데이터를 문자로 변환해주는 작업 등이 있다.

이렇게 데이터 하나하나를 가르치다 보면 한 건 당 적게는 5원, 많게는 1만 원까지 보상이 지급된다. 부업 커뮤니티에서는 이미 지난해 말부터 알짜 부업으로 소개돼 주당 수십만 원의 보상금을 받았다는 ‘간증글’도 속속 볼 수 있다. 커피값 벌어볼까 하는 마음으로 지난 8일부터 12일까지 기자도 직접 도전해봤다.

박스를 쳤는데 왜 ‘불통’이니

디지털 라벨링은 플랫폼 기업이 상당히 많다. PC에서 작업하는 플랫폼, 모바일에서 작업하는 플랫폼, 둘 다 작업 가능한 플랫폼 등 입맛에 맞는 회사를 고르고 회원가입을 하면 끝이다. 디지털 라벨링 ‘고수’들은 다양한 플랫폼에 회원가입을 하고 그날그날 가능한 작업을 받는다. 쉽고 단가를 많이 쳐주는 데이터 라벨링 작업은 금방 작업 할당이 끝나버리기 때문이다.

인공지능이 제 역할을 하기 위해서는 정확한 데이터가 필요하기 때문에, 데이터 라벨러의 정확한 작업 처리를 필요로 한다. 때문에 대부분의 플랫폼에서는 일을 시작하기 전 테스트를 진행한다. 실제 작업 중에도 부정확한 정보 유입을 막기 위해 ‘스파이 문제’를 내는 플랫폼도 있다.

가장 쉽게 찾을 수 있는 일감은 ‘바운딩 작업’이지만, 작업 자체는 쉽지 않았다. 지난 8일 바운딩 작업을 시작으로 데이터 라벨러 부업에 뛰어들었지만, 본격적인 일을 시작하기까지는 정확히 이틀이 걸렸다.

부업이니 ‘남는 시간’에 데이터 분류 작업을 해야한다는 어려움도 있었지만, 성심성의껏 박스를 친 사진이 모두 ‘불통’되는 답답함이 계속됐다. 기자가 시작한 바운딩 작업은 보일러 룸콘(온도조절기) 사진을 보고 글자와 기호에 모두 박스를 그리는 작업이었다. 나름대로 소상히 박스를 그렸건만, 아주 약간의 박스가 삐져나와도 가차 없이 ‘불통’ 통보가 떨어졌다. 박스를 너무 좁게 그려도 ‘불통’, 미세하게 여유를 둬도 ‘불통’이었다. 테스트에만 하루 이상의 시간이 소요되자 스스로 되물을 수밖에 없었다. “내 지능은 인공지능만도 못한 것일까?”

Labelr의 데이터 분류 작업. SNS 글을 분류하거나, 사진 속 개·고양이를 분류하는 등 다양한 작업이 있다. (사진=Labelr 캡쳐)

두 번째는 SNS 글을 보고 누가 작성했는지, 내용은 긍정적인지 부정적인지 등을 분류하는 작업이었다. 총 15개의 테스트 분류를 통과해야 작업에 통과할 수 있었다. 바운딩 작업보다는 쉬웠지만 마찬가지로 본격적인 일을 시작하기까지는 꽤 오랜 시간이 걸렸다. 가장 헷갈리는 분류는 기사, 소설 등 기타 작성자의 글이었다. 기사글이나 소설글이어도 문체가 ‘개인 문체’라면 개인으로 분류해야 했다. 개인 작성 글이어도 ‘긍정’ ‘부정’ ‘중립’을 선택해야 하는데, 늘 ‘긍정’과 ‘중립’ 사이에서 오답이 나왔다. 15개의 테스트를 단 한번에 통과해야 하기 때문에 오답이 한 번 뜰 때마다 울분이 터져 나왔다. “이건 아무리 봐도 긍정인데, 왜 중립이냐고!”

일 잡기도 쉽지않네, 테스트 통과하니 ‘점검중’

간신히 테스트를 통과하고 나서도 실제 일을 시작하는 것은 하늘의 별따기였다. 고생해서 통과한 바운딩 작업은 활성화된 프로젝트가 하나도 없었다. 이틀 간 사진 속 객체에 정확히 박스를 그리는 것을 연마해왔건만, 일거리가 없어 수익창출을 할 수 없었다.

SNS 분류도 마찬가지였다. 개당 5원이 지급되는 SNS 분류 작업은 9건을 마지막으로 일거리가 끊겼다. 초라하게 적인 45원에 부아가 치밀었다. 이마저도 해당 데이터가 정확히 입력됐는지 ‘검사 중’이라며 적립금액으로 포함되지 않았다.

다른 플랫폼 역시 마찬가지다. 문장을 보고 문제를 만들고 변형하는 작업, 사진을 보고 질문을 만드는 작업, 사진 속 승용차와 트럭에 바운딩 작업 등 모두 테스트 문제를 통과했지만 실제 할 수 있는 일은 없었다.

다만 데이터 라벨링 부업은 정부가 지원하는 디지털 뉴딜 일자리 중 하나다. 소상공인의 재난지원금 지원을 위해 편성된 1차 추가경정예산안에도 일자리 사업으로 지식베이스 구축 사업이 975억 원이나 증액됐다. 추경이 풀리면 부업도 조금 늘어날까 기대해본다.

저작권자 © 뉴스포스트 무단전재 및 재배포 금지