[인터뷰] 혐오 발언을 분류하는 AI 모델 개발자 양기창님 인터뷰 1편

AI Network
8 min readJul 12, 2021

--

이 글은 지난 6월 25일 금요일 밤 10시에 진행됐던 AI 네트워크 클럽하우스 채널의 토론 내용을 요약한 것입니다. 두 편으로 나누어 글이 발행됩니다.

Agenda: https://github.com/ainblockchain/ai-talks/blob/main/21/21.06.25_hate_speech_classifier.md

클럽하우스: https://www.clubhouse.com/join/ai-network/VB24Y1Ob/xoN2dga8

혐오 발언 분류 AI 데모 링크:

https://master-soongsil-bert-base-beep-deploy-jason9693.endpoint.ainize.ai/?fbclid=IwAR1Ydb1_bM8ijIU4hSI8MITTFYfvshjwTPryM80kAWR1XGGNWN3IhT5UQK0

Ainize에 올려진 링크: https://ainize.ai/strutive07/SoongsilBERT-base-beep-deploy

온라인에서 발생하는 혐오 표현, 이를 막고자 했던 한 개발자의 이야기

온라인에서 발생하는 혐오 표현이 점점 사회 문제가 되고 있습니다. 얼굴을 맞대고는 쉽게 하기 힘든 이야기들을 ‘댓글’로 달기도 하고 유명인들조차 익명성에 기대어 도를 지나친 비난을 하거나 모욕적 언사를 하는 사람들로 인해 정신적 피해를 호소하기도 하죠. 이로 인해 소송전도 이어지고 있고요.

어떤 텍스트에 혐오 발언이 담겨 있는지 아닌지를 검출하는 모델이 있다면 어떨까요? 혐오는 혐오를 타고 확산되기 때문에 혐오 발언으로 인한 피해를 확연히 줄일 수 있지 않을까요?

AI 네트워크에서는 혐오 발언 분류 AI인 SoongsilBERT:BEEP!을 개발한 개발자 양기창님과 함께 어떤 모델인지, 어떻게 이 모델을 개발하게 되었는지 등을 살펴보는 시간을 마련했습니다.

Q1. 군 복무 시절 딥러닝에 빠졌다가 복학 대신 카카오 입사를 택하셨다고 들었습니다. 쉽지 않은 선택이셨을 것 같은데요. 원래 전공은 무엇이었는지 처음에 어떻게 인공지능업에 들어오게 되셨는지 궁금합니다.

학부 2학년 때 카카오에 인턴으로 처음 입사했습니다. 처음 인공지능에 동기부여를 받았던 건 네이버에 ‘데뷰’라는 컨퍼런스를 보고 나서였는데요. 당시 김태윤님이 손석희님 등 몇몇 셀럽의 목소리를 활용해 책 읽어주는 딥러닝을 발표하셨었는데요. 이런 식의 딥러닝이 잘 활용되면 사회에 좋은 영향을 미칠 수 있겠다는 생각에 인공지능에 대한 관심을 가지게 됐던 것 같아요. 사회복무요원으로 군생활을 하면서 저녁에 틈날 때 딥러닝 공부를 했어요.전역 후 고민 없이 이 업을 바로 택할 수 있었고요.

Q2. 2019년 7월 카카오의 인턴십 프로그램을 통해서 카카오 i 번역 성능 향상 실험(대규모 말뭉치를 활용한 사전학습) 연구(링크) 를 진행하신 것으로 알고 있습니다. 정확히 어떤 연구였는지 궁금해요.

인턴 과제로 받은 주제였어요. 예를 들어보면 대학에서 세부 전공을 공부하기 전에 해야 하는 사전학습들이 있죠. 말하자면 기초 소양 같은 것들입니다. 글을 읽을 줄 알아야 하겠고 논리적 판단, 토론을 하는 능력 같은 것들이 있어야 하죠. 같은 논리로 인공지능 역시 번역 모델을 만들기 위해서는 우선 자연어에 대한 학습이 선행되어야 합니다. 이렇게 학습된 모델을 가지고 번역 등 다양한 태스크들에 적용하는거죠. 사전 학습을 한 뒤 이걸 번역에 적용하면 번역, 혐오발언 분류에 적용시키면 혐오발언 분류모델이 되는 것입니다.

Q3. 이노베이션 아카데미 & EBS에서 인공지능 윤리에 대한 컨텐츠를 만드는 데 함께 참여하신 것으로 알고 있어요. SF 속 인공지능으로 인해 생긴 인공지능에 대한 오해를 극복해야 인공지능에 제대로 접근할 수 있다라는 얘기를 나누셨는데, 이러한 오해를 극복하기 위해 어떤 노력이 필요할까요?

보통은 인공지능 하면 로봇에 프레임이 많이 맞춰져 있는 것 같아요. 저는 인공지능을 하나의 패턴이라고 보고 싶어요. 과거에 비슷한 패턴으로 처리했던 일들을 현재에 적용해서 풀어주는 소프트웨어인 것이죠.

같은 맥락에서 ‘딥러닝’에도 조금 오해가 있는 것 같아요. 딥러닝이라는 거 이전에 머신러닝이 있고 상위 개념으로 인공지능이 있는건데요. 인공지능 실현을 위해 과거에는 ‘머신러닝’이라는 기계 학습 방법론을 통해 접근했었고요. 그 기계 학습 방법 중 하나가 딥러닝입니다. ‘신경망’이라는 단어가 사실 사람과 같이 뭔가 깊은 생각을 하는 것 아닌가 하는 오해를 낳는 단어인데 이건 사실 수학적 행렬이거든요. 한마디로 수식적인 함수를 정해서 연산을 해내는 방법론이에요. 저희가 생각하는 ‘뇌세포를 모방했다’라는 것은 초기 컨셉인 것은 맞지만 근본적으로 같다고 볼 수는 없죠.

Q4. 인공지능 하면 데이터를 빼놓을 수 없잖아요. 사람 사는 세상에도 보편적으로 좋은 사람과 나쁜 사람이 있고 좋은 환경에서 좋은 생각들이 나올 확률이 상대적으로 높다고들 합니다. 데이터도 마찬가지 아닐까 생각이 드는데 좋은 데이터를 활용하면 좋은 인공지능이 나오지 않을까요? 올바른 데이터를 쌓는 방법에 대한 고민은 이뤄지고 있나요?

맞아요. 연구자들 입장에서도 중요한 이슈가 되는 주제인데요. 데이터를 그냥 출처 없이 모으기보다 어느 출처에서 모았는 지를 생각하곤 합니다. 딥러닝도 서비스되는 카테고리들이 다르잖아요. 그 중에서도 사람에 영향을 미칠만한 중요한 분야라면 데이터 검수에 시간을 더 들여야 하죠. 출처에 대한 관리도 더 엄밀하게 해야 한다고 생각합니다.

Q5. 인간 사회가 편향과 차별을 쌓아왔잖아요. 성수소자, 인종에 대한 차별 등에서 차별적인 데이터가 쌓였기 때문에 데이터도 그렇게 나오는 게 아니냐하는 지적에 대해서는 어떤 의견 갖고 계신가요.

이걸 학습 입장에서 해결하기 보다는 사람간의 규약으로 해결할 수 있다고 생각합니다. 예를 들면 인공지능 서비스를 제공하기 전에 서비스 제공자 입장에서 경고 사항을 서비스 조항에 넣는 방식으로 해결할 수 있는 것이죠.

서비스 제공자 입장에서 ‘정치적 종교적, 인종적 등등 사상적 의견을 묻는 등에 대한 발언을 금지합니다’라는 조항만 넣어도 위험부담을 좀 감수할 수 있지 않았을까 하는 생각이 듭니다.

Q6. 윤리에도 여러가지 분야가 있잖아요. 마이클 샌델이 ‘정의란 무엇인가’에서 말한 내용도 있고 칸트의 의무론도 있고 공리주의도 있고 여러 관점들이 있는데 인문학적인 관점에서 집중하신 내용들이 있을까요?

거시적인 관점에서 제가 판단하는 건 개인적인 ‘편향’이라고 생각해서 유저 관점에서 생각을 하려고 노력을 해요. 특정 윤리에 중점을 둔다기보다는 사용하는 입장에서 어떻게 윤리라는 이슈로 인해 상처를 받게 하지 않을까? 이게 중요한 이슈라고 생각합니다. 말씀해주신 카테고리가 어느 것이더라도 상황에 맞게 변하는 것 같습니다.

Q7. 그렇다면 혐오발언 분류 모델 등에서 편향이라고 말할 수 있는 기준을 세울 때 ‘상대방이 이걸 불쾌하게 느꼈냐 아니냐’ 를 핵심으로 삼으시는 건가요?

사실 그런 것들이 커뮤니티에 적용되는 거잖아요. 여러 소스를 찾다 보니까 의외로 온라인보다 오프라인에서 이런 행동 규약에 관한 정의들이 많았습니다. 어떤 기준으로 레이블링 할 것인가에 대한 고민이 1년 간 이어졌는데…구글 디밸로퍼스 그룹, 파이콘코리아 커뮤니티의 행동규약 이었습니다. 그 커뮤니티들에서 커뮤니케이션 할 때 제시한 주의사항과 금지사항이 있었거든요. 거기서 영감을 받아서 레이블링했습니다. 구체적으로는 ‘성, 정치, 종교, 식성 등의 몇 가지 카테고리’에 대해선 차별적 발언하는 것을 금지합니다 라는 조항이 있었어요.

Q8. 오늘 대화의 핵심인 분란글필터링 엔진 프로젝트는 숭실대학교 동아리, YourSSU(유어슈) & 머신러닝 동아리인 SSUML(슈믈)에서 개발했다고 들었습니다. 어떤 동아리인가요?

학교도 사회잖아요. 학교 안에서 학생들을 유저로 타게팅을 하고 학생들에게 편리한 서비스를 개발하자는 목표를 가진 동아리였어요. 머신러닝과 관련된 서비스를 제공하기 위해 그와 관련된 연구들을 진행을 했고요.

글,진행: 신지은(문과녀 신지은 과학과 썸타다 진행자)

AI 네트워크는 블록체인 기반 플랫폼으로 인공지능 개발 환경의 혁신을 목표로 하고 있습니다. 수백만 개의 오픈 소스 프로젝트가 라이브로 구현되는 글로벌 백엔드 인프라를 표방합니다.

최신 소식이 궁금하시다면 아래 커뮤니케이션 채널을 참고해주시기 바랍니다. 다시 한 번 감사합니다.

​AI네트워크 공식 홈페이지: https://ainetwork.ai/

공식 텔레그램: telegram.com/ainetwork_kr

아이나이즈(Ainize): https://ainize.ai

유튜브: https://www.youtube.com/channel/UCnyBeZ5iEdlKrAcfNbZ-wog

페이스북:https://www.facebook.com/ainetworkofficial/

포럼:https://forum.ainetwork.ai/

AIN Price chart: https://coinmarketcap.com/currencies/ai-network/onchain-analysis/

--

--

AI Network
AI Network

Written by AI Network

A decentralized AI development ecosystem built on its own blockchain, AI Network seeks to become the “Internet for AI” in the Web3 era.

No responses yet