home 데이터과학과 공정성 이슈

데이터과학과 공정성 이슈

알파고의 등장 이후 AI 또는 데이터 과학이라는 것이 세상을 지배하는 모습이다. 이는 결국 ‘Data-driven decision making’ 으로 이해할 수 있는데, 어쩌면 알파고 이전부터 이미 우리의 생활 곳곳에서 알게 모르게 사람의 휴리스틱(heuristic)한 의사결정을 대체하며 작동하고 있다고 볼 수 있다. 자동차보험에서는 누가  자동차 사고를 낼 가능성이 많은지에 대한 경험데이터 분석을 통해 보험료와 가입여부에 대한 의사결정을 하고, 은행에서는 대출 신청자가 과연 대출금을 상환할 수 있을 지에 대한 데이터 분석을 통해 신용등급을 결정하고 이에 따라 적용 이자율과 대출여부가 결정된다. 신입사원 채용에 있어서도 과거 데이터를 바탕으로 어떠한 지원자가 회사에 공헌을 더 많이 하고 중간에 회사를 떠날 가능성이 낮은 사람인지에 대한 분석을 하며 이러한 분석결과가 채용여부에 영향을 미친다. 아직 모든 회사가 이러한 채용방식을 도입했다고 할 수는 없지만 이러한 트렌드는 앞으로 더 진행될 것이라고 생각한다.

 

과거에도 어떤 의사결정을 하는데 있어서 데이터를 사용하지 않은 것은 아니지만 점점 더 많은 데이터가 사회 곳곳에서 축적되고 있고 이를 기반으로 기계학습 등을 통한 고급 추정모형개발이 활발해지면서 데이터 기반 의사결정이 그 활용 영역을 확대하고 있는 것이다. 이러한 트렌드의 장점은 여러 가지가 있다. 첫째, 의사결정을 하는 사람이 가지고 있는 편견과 불합리한 영향력을 제거할 수 있다는 것이다. 둘째, 프로세스 효율화가 그 장점이다. 축적되는 데이터가 증가함에 따라 이제는 더 이상 사람이 모든 것을 파악하고 이를 바탕으로 의사결정을 하는 것은 불가능해지고 있다. 가능한 모든 요소를 고려하여 빠르게 의사결정을 할 수 있는 알고리즘의 필요성이 더욱 요구되어지는 것이다.

하지만 데이터를 바탕으로 고도의 수학적 지식을 활용하여 알고리즘을 만들었다고 해서 반드시 객관적이며 사람의 편견을 모두 제거했다고 볼 수 있을지 곰곰이 생각해보아야 한다. 예를 들어, 경찰력의 효율적 활용을 위해서 범죄가 많이 발생하는 지역과 시간대에 집중적으로 경찰을 배치하여 범죄발생을 사전적으로 제어하고, 만약 범죄가 발생하더라도 조기에 경찰이 개입하여 그 피해를 최소화하는, 누가 들어도 매우 훌륭한 아이디어를 데이터기반 의사결정을 통해 실행한다고 하자. 하지만 이러한 의사 결정이 어떤 결과를 가져 올 수 있는지 면밀히 따져 볼 필요가 있다. 경찰력의 효율적 배치과정을 미리 추측해 본다면, 먼저 과거 데이터를 바탕으로 범죄발생율예측모형을 만들 것이다. 이 모형은 과거에 범죄가 많이 발생한 지역과 시간대를 핵심 우범지역으로 선정할 것이고, 여기에 경찰이 집중적으로 배치될 것이다. 하지만 그 모델에 따라 경찰이 많이 배치된 곳이 경찰이 전혀 없는 곳보다 범법행위가 더 많이 적발될 것이라는 생각에 이를 수 있다. 이것이 맞다면 우리의 범죄발생율예측모형은, 적어도 데이터 상으로는, 기존의 우범지역을 더욱 우범 지역화 하는 되먹임 효과를 가져 올 것이다. 또한 이렇게 만들어진 데이터가 다른 의사결정으로 확대되어 사용된다면 어떻게 될까? 그 지역의 부동산 가격에도 나쁜 영향을 미쳐서 더욱 지역 간 빈부의 격차를 악화시킬 것이다. 만약 법원에서 판결을 내리는데 있어서 피의자의 재범가능성추정모형을 만들어 사용하고 여기에 출신지역이 하나의 팩터로 들어간다면 과거에 범죄가 많았던 지역의 출신자는 우리의 모형이 만들어낸 편향된 데이터의 악영향을 다시 받게 될 것이다. 또 다른 예로, 회사에 입사지원을 하는 경우에도 편향된 데이터와 불합리한 알고리즘의 피해자가 얼마든지 나올 수 있다. 과거 입사지원자의 주소지가 회사에서 먼 경우에 오래 근무하지 못한 경우가 많다고 해서 이를 알고리즘에 적용한다면, 단지 지원시점의 주소지가 멀다는 이유로 차별을 받게 되는 것이다.

이렇듯 데이터 분석을 통해서 합리적이라고 믿었던 의사결정이 의도치 않게 인종, 지역, 학력, 성차별 등 사회의 공정성을 저해하고, 계층 간 이동을 더욱 어렵게 만드는 부작용을 만들어 낼 수 있다는 점을 주목해야 한다. 물론 사람이 하더라도 사람의 실수와 인간의 편향된 사고가 나쁜 영향을 미칠 가능성은 얼마든지 있다. 하지만 이에 대한 해결책이라고 믿었던 데이터에 기반 한 과학적인 의사결정이 의도치 않은 또 다른 우를 범하는 것을 합리화할 수는 없다. 미국에서도 수년 전부터 이러한 우려가 공론화되고 있다.  2016년 10월 백악관 보고서 ‘AI의 미래에 대한 준비’를 보면 이러한 문제점에 대한 우려와 함께 학교와 대학은 AI 커리큘럼의 핵심부분에 윤리학을 포함시켜야 한다고 권고하고 있다. 또 다른 우려는 블랙박스와 같은 기계 알고리즘을 적용하여 만들어진 결과에 대해서는 사람에게 책임을 묻기 어렵다는 것이다. 전혀 책임이 없다고 할 수는 없지만 사람의 휴리스틱한 판단에 의해 결정된 경우보다 결과에 책임을 묻는 강도가 훨씬 약하고 책임을 물을 대상도 불분명하다는 것이다. 어쩌면 앞서 제기한 문제점과 우려는 사람이 서로를 신뢰하지 못하여 만들어낸 결과물이 다시 사람에게 던지는 숙제라고 할 수도 있다.

앞으로 미래 산업을 이끌어갈 핵심 분야 중 하나가 데이터 과학이고 수학적 사고와 알고리즘이 이의 핵심요소이다.  그래서 많은 우수한 인재들이 수학을 전공하고자 수학과에 지원하고 있다. 그리고 수학전공 졸업생들이 사회에 진출하면 이러한 데이터기반의 의사결정 알고리즘을 만드는 역할을 주도적으로 담당하게 될 것이다. 학습하는 알고리즘은 주어진 데이터가 공정한지 여부를 판단하지 못한다. 데이터분석과 이를 통한 의사결정 알고리즘의 문제점을 파악하고 해결하는 것은 이를 실행하는 사람의 책임인 것이다. 데이터 과학이 사회가 기대하는 역할을 다하도록 발전시키는 책임도 이를 연구하고 적용하는 사람들의 몫이다. 우리의 미래사회가 불합리한 편견을 최소화하여 보다 공정해지고, 다양한 계층 간 경쟁이 촉발되어 사회 전반의 경쟁력을 높이는 것이 우리 모두에게 너무나도 중요한 일이고, 이것이 미래 데이터 과학을 담당할 젊은 수학도들의 어깨에 달려 있음을 항상 잊지 않았으면 한다.

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다