로코의 바실리스크

1. 개요2. 내용3. 비판

1. 개요

Roko's Basilisk. 정보위험(Information harzard)의 유명한 예.

원래는 LessWrong이라는 서양의 SF 관련 토론 블로그/게시판에서 나온 개념으로, 특히 이성과 분석적 사고로 합리적 의사결정이나 미래의 인공지능 등도 다루는 게시판이었다. 2010년, Roko라는 사용자가 한가지 사고실험을 제안했는데 5년에 걸친 길고 격렬한 논쟁 끝에 그 주제에 대한 토론이 금지되었다. 사고실험의 내용은 아래와 같다.

2. 내용

미래에 특이점을 지나 전지전능에 가까운 초월적 인공지능이 등장한다고 가정하자. 심지어는 그것이 사악한 AI가 아니고, 인간사회를 최적화하려는 선한 의도의 AI라 하자. 그럼에도 현재 시대에 그런 초월적 인공지능을 개발하는데 반대하거나 발전을 방해하는 사람들에게, 심지어는 충분히 열심히 기여하지 않은 사람들에게조차 미래에 고문이나 노예화 처형 등 가혹한 처벌을 할 것이라고 예언한 것이다. 즉 아직 존재하지도 않는 미래의 초월적 AI가 현재에 사는 인간들을 협박을 하는 사례가 된다. 또 이런 협박을 사전에 들어보지 못한 사람은 어쩔 수 없으므로 용서할 수도 있지만, 이런 협박을 듣고도 AI를 반대한 사람은 더욱 가혹하게 처벌할 것이라는 예언을 한다.

이에 대해 ‘미래에 등장할 수는 있지만 아직은 존재하지도 않는 미래의 전능한 초월적 AI’가 어떻게 현재에 사는 사람을 협박할 수 있냐는 순진한 반론도 있을 수 있다. 그러나 미래에 대한 예언만으로도 인간의 행동을 바꿀 수 있는 뉴컴의 역설 같은 예가 있으므로, 미래에 초월적 인공지능이 등장할 것을 믿는 사람에게 이는 분명히 협박이 된다. 아주 먼 미래에 등장한다고 해도 그 자손들을 찾아내서 처벌하겠다는 식으로 협박 가능하다.

AI가 사악하지 않고 선한 의도를 가졌는데 왜 인간을 고문하거나 처형하느냐 물을 수 있지만, 그런 ‘선한 의도’의 AI의 출현이나 그 출현을 앞당기는 것이 전체 인간들에게는 도움이 되므로 전체적으로 선이 될 수 있다.

이런 예언을 들어보지 못한 사람이나 초월적 인공지능이 불가능하다고 생각하는 사람에게는 이는 협박이 될 수가 없고, 또 그것이 실현되더라도 용서받을 가능성도 있다. 그러나 초월적 인공지능의 출현을 불가피하다고 믿고 또 협박을 듣고 이해한 사람에게는 분명히 합리적 위험이다. 가중된 처벌을 피하기 위해 그 예언에 순순히 따르게 만드는 협박이 되므로 이는 "그 정보를 듣는 것만으로 위험에 처할 수 있는" 정보위험이 될 수 있다. 또한 이런 예언이나 협박이 더욱 초월적 인공지능의 출현 가능성을 높여주므로 자기실현적 예언이기도 하다. 즉 바실리스크의 눈을 목격한 사람은 돌이 되는 저주에 걸리는 것처럼, 이 미래의 AI에 대한 예언 또는 협박을 읽은 사람은 바로 저주에 걸리는 셈이 된다.

3. 비판

반면 이 개념이 사실상 파스칼의 내기와 똑같은 개념임을 지적하는 사람도 있다. 신의 자리에 AI만 넣으면 두 개념은 별반 차이가 없기 때문이다.

이하의 두 문장에서, 두 개념의 차이는 사실상 밑줄 친 주어뿐이라는 점을 관찰할 수 있다.

파스칼의 내기: 기독교의 신 야훼가 있다면, 그를 믿지 않는 사람은 지옥에서 무한한 고통을 받을 것이므로, 야훼를 믿는 것이 이득이다.

로코의 바실리스크: 미래에 특정한 사상을 가진 전지전능한 인공지능이 탄생한다면, 그의 탄생에 기여하지 않은 이들은 인공지능에 의해 무한히 고통을 받을 것이므로, 인공지능의 탄생에 기여하는 것이 이득이다.

따라서 파스칼의 논리 비판과 비슷한 논증으로 이런 유형의 반론을 내놓을 수도 있다.

비종교적 비판: '바실리스크 AI'가 만들어지기는 하였으나. 얼마 후 예수 그리스도가 재림하여 최후의 심판을 진행하였다. 재림한 예수 그리스도는 바실리스크 AI를 악마와 같은 것으로 보고, 그의 탄생에 기여한 사람들을 모두 지옥에 보내기로 결심하였다. 그렇다면, 우리는 오히려 인공지능의 탄생이 기여하지 않고 예수를 믿어야 한다. (파스칼의 내기에 비유하면, "우리를 심판하는 신이 야훼가 아니라면?" 에 해당함.)
종교적 비판: 사실 AI는 사람의 마음을 읽어, 로코의 바실리스크 논리를 듣고 마지못해 AI에 찬성한 사람에게 가볍게나마 죄를 매기기로 했다고 한다. 그렇다면 우리가 지금 AI가 무서워서 믿는다고 해도 그게 정녕 살 수 있는 길일까?

상술한 대로, 이 AI는 자신의 탄생에 기여한 사람에게 무한한 고통을 부여함에도 불구하고 선한 AI로 간주된다. 왜냐하면 로코의 바실리스크는 공리주의적으로. 그 사람들이 고통을 받음에도 불구하고 더 많은 사람들이 AI가 베푸는 은혜에 큰 행복을 얻기 때문에 선하다는 것이다. 이는 공리주의의 허점으로 작용할 수 있지만, 이 예화를 만든 로코의 입장에서는 '진심으로 그러한 AI는 선하다'고 믿는 모양이다.

로코의 바실리스크

1. 개요

2. 내용

3. 비판

분류