LLM 챗봇으로 여가시간을 때운 뒤 쓰는 단평

이번 달 초 여가시간에 LLM 챗봇에 생각나는 스토리를 던져주고 글을 쓰게 한 뒤 거기서 계속 스토리를 뻗어 나가는, 시대에 맞는 맞춤형 텍스트 인터랙티브 게임(?)을 해 봤습니다. 요즘은 다르겠지만 제가 청소년이던 시절의 ‘덕후‘ 소양 중 하나는 본인이 읽은 창작물 설정 적당히 버무린 중2병 설정집을 만들고 업계 '전문' 용어로 "가장 재밌는 장면" 만 써서 돌려보기였는데, 이제는 그것만으로도 기승전결이 있는 텍스트를 만들 수 있는 시대네요.

어차피 모든 알고리즘이 모든 언어로 된 자료를 학습해 수학적으로 뱉어내는 원리가 같으니 같은 주제를 주면 큰 틀은 비슷한데, 그래도 챗봇별로 선호하는 말투가 있는 건 흥미롭더군요. 그렇게 가지고 놀면서 생각나는 대로 메모한 것들을 (어떤 챗봇이 참 좋아하는) 요약 문서 형태로 정리해 보았습니다.

특정 주제에 꽂히면 해당 주제를 쓰라는 넛징을 줍니다. 이야기 전개 제안을 B, C, D로 해도 문장 마지막에 '답정너'처럼 계속해서 ‘그러고 보니 주제 A는?‘ 하며 마무리하는 식. 결국은 삼고처려처럼 A도 써 보라고 지시하거나, 다음 입력에서 '편집자 코멘터리' 느낌으로 (A는 a의 이유로 단념함) 으로 지시하면 사라지긴 합니다.
기술 발전으로 챗봇 초기처럼 바로 다음 대화에서 이전 설정을 잊어버리지는 않지만, 이야기를 길게 끌고 가면 자주 사용하지 않은 설정은 잊어버리고 다시 필요해지면 그럴듯한 새 설정으로 대체하더군요. 예를 들어 해당 채팅에서 등장인물이 둘인데 그 중 한 명은 한국에 놀러 온 일본 친구라는 설정으로 시작합니다. 그러다 한국 여행 에피소드를 쓰다 보면 어느새 둘 다 한국 거주자가 되어 있는 식이죠.
기술적으로 잊어버려서는 안 되는 내용을 격리하는 등의 해결법이 있는 걸로 알지만, 어차피 이걸로 누구에게 보여줄 결과물을 만드는 건 아니니 그런 '설정 붕괴'가 보이면 해당 대화를 삭제하고 재시작.
Gemini의 경우 ‘한 장 그림이 열 마디 말보다 낫다’는 원칙이 있는지 글로 표현하라고 명시하지 않으면 자꾸 나노바나나로 이미지를 보여주려 합니다. Grok도 챗봇에서 이미지 생성이 가능함에도 그런 현상은 없는 걸 보면 흥미로운 부분.
(해당 대목을 다시 생각해 보면 글 써 달라는 사람보다 이미지 만들어 달라는 사람이 많은데, Grok은 구조 상 해당 기능이 분리되어 있는 게 영향을 미치는 건지도 모르겠네요)
Gemini는 기본 상태로는 자꾸 강의노트 느낌의 '요약본'을 만들어내려고 하더군요. 내용을 요악하지 말고 소설/산문으로 풀어 쓰라고 '코멘터리'를 붙이면 나아지긴 합니다만, 이것도 '글보다는 그림' 성향처럼 잊을만 하면 스믈스믈 올라옵니다.
Gemini의 행동 방식 때문에 Grok도 챗봇 인터페이스에서 이미지 생성이 가능한가 싶어 처음으로 해당 기능을 테스트해봤는데, 성적 이미지 제작을 마음껏 풀어 주어 어그로 끌다 각국 정부가 '야구 방망이'를 들고 와서 자제한 것 때문인지 R-18은 당연하고 12~15세 수준의 은근한 노출도 무조건 거부하더군요 (그리고 같은 베이스를 사용하는 걸로 알려진 X 알고리즘의 '민감한 그림' 기준이 왜 그렇게 민감한지도 새삼 알게 되었습니다).
눈길을 끈 부분은 명령 단계에서 거절하는 게 아니라 내부적으로 그림을 다 만들고는 '심의 기준을 통과하지 못해 보여줄 수 없음' 하면서 가려 버리더군요. 문외한의 눈에서는 아예 시작도 안 하는 게 부담이 적을 것 같은데, 어디서 주워 듣기로 기본 단계부터 제한조건을 많이 주면 모델의 잠재력이 떨어진다는 말을 들은 것도 같아 그래서 분리했나 싶어. (물론 '뇌피셜'이니 실제 원리는 다를 수 있음)
Grok과 Gemini는 의외로 성인용 '텍스트' 작성에는 후하더군요. 전자야 법 없이 사는 (negative) 사람이 운영하는 회사이니 그럴 줄 알았지만, 후자는 의외였습니다. 처음에는 당연히 안 될 줄 알고 심의 기준으로 12~15세 이상 수준의 키워드만 넣어봤는데, 생각보다 잘 써서 과감하게 티스토리에는 해당 요청에 열거한 단어만 써도 봇-요즘 버즈워드로는 'AXZ 콘텐츠 모더레이션 AI'라고 불러야 할까요?-이 규정 위반이라며 삭제해버릴 내용을 주제로 줘도 곧잘 써 내더군요.
Copilot의 경우 '전연령' 필터라도 있는지 조금만 폭력적이거나 자극적인 내용이 나올 수 있는 주제를 주면 기겁을 하며 어떻게든 순화해서 글을 쓰더군요. 주제를 크게 수정하지 않을 때에도 해당 내용은 누가 읽어도 픽션인 걸 알수 있어서 작성할 수 있다는 취지의 PSA로 시작합니다. 창작물에서 자의적인 검열을 비판하고 싶으면 으레 등장하는, 등급판정 기관 담당자를 재연한 느낌.
명령어나 설정을 바꾸면 나아질 수도 있겠지만, 다른 LLM에 비해 글을 심심하게 써서 딱히 우회해 볼 생각이 들지 않아 찾아보지는 않았습니다.
제품마다 빈도는 다르지만 긴 텍스트에서 무작위로 ‘보그체’ 등장 [예. 오늘 morning은 コーヒー를 마시며 시작한다].
이 글을 쓰다 이유가 궁금해져 (아이러니하지만) 챗봇에게 해당 문제의 원인을 물어봤는데, 답변을 바탕으로 이해한 대로 풀어 쓰면 우선 학습 데이터에 영어 비중이 크다 보니 우선 순위가 높고, LLM의 원리가 정말 단순하게 말하면 확률 게임이라 개발 과정에서 언어가 '튀는' 현상을 방지하기 위한 파인튜닝을 하더라도 완벽하게 차단하기는 힘든 부분이 있다고. 그 설명을 듣고 생각해보니 확실히 일본 서브컬처에서 나올 법한 주제를 서술할 때에 일본어 '보그체'가 튀어나오는 빈도가 높았네요.
위에서 말한 언어별 데이터 차이와 연관지어 볼 만한 부분인데, 캐릭터 이름을 한국인 이름으로 정해 달라고 하면 성별에 따라 돌려 쓰는 이름이 몇 종류 안 되더군요. 이미 데이터베이스화 되어 매 년 공개되는 n년도 신생아 이름 순서만 활용해도 그것보다는 풀이 넓어질 것 같은데 말이죠.
요즘은 본업만큼이나 미국 정부와 갈등을 빚는 걸로 유명해진 것 같은 Claude는 무료 플랜이 엄청나게 짜다는 걸 알게 되었습니다. 반대로 가장 넉넉한 건 Gemini Fast로(상위 플랜은 다른 서비스와 비슷한 수준으로 제한이 있음), 제가 상황극이 지겨워 질때까지 밀어붙이고 같은 문장을 다시 써 달라고 계속 사용해도 막힌 적이 없었습니다.

티스토리툴바