개인과 사회의 호오와는 별개로 챗봇으로 상징되는 LLM이 사회 곳곳에 침투하고 있는데, 인터넷 커뮤니티도 예외가 아니어서 요즘은 커뮤니티 글 반응부터 블로그 글까지 LLM에게 써 달라고 한 게 티가 나는 글이 늘어나고 있더군요.
한국어 인터넷 글 기준으로 LLM의 첨삭을 받았음을 알 수 있는 힌트는 '과도한 이모티콘(이모지) 사용'과 '마크다운 흔적'이라 생각합니다.
첫번째의 경우, 전통적으로 한국 커뮤니티에서는 '짤방'으로 불리는 글과 관계된 삽화나 '~콘'으로 상징되는 정사각형 일러스트를 사용하는 게 보통인데 보고서처럼 친절하게 소제목이 붙어있고 이를 꾸미기 위해 이모티콘이 들어가 있으면 확률적으로 LLM 첨삭일 가능성이 높겠죠.
두번째로 언급한 '마크다운 흔적'은 주로 문장 중간에 뜬금없이 특정 단어가 별표(*) 두 개 사이에 들어가 있는 식으인데, 해당 기호가 마크다운에서는 텍스트를 HTML로 변환할 때 해당 부분을 '굵게' 태그로 변환하라는 표시입니다. 하지만 한국 커뮤니티 게시판에서는 마크다운을 직접 파싱하는 경우가 (거의) 없기 때문에 원본이 그대로 노출되는 셈이죠.
마크다운이 영어권이라고 메이저한 마크업은 아니지만, 한국에서는 '마이너'라는 수식어조차 민망할 정도로 사용자층이 적다보니 그대로 '복붙'해서 올리는 사람도 읽는 사람도 그냥 LLM의 습관인가보다하며 지적하는 사람조차 없는 게 아닐까 추측해 볼 따름입니다. 생가갷보면 티스토리는 글쓰기 에디터 툴을 개편하면서 마크다운을 고를 수 있도록 해 두었는데, 본인들도 마이너한 서비스라는 걸 인정하는 건가 싶기도 합니다.
p.s. 마크다운 마크업 공동 개발자인 에런 스워츠는 RSS와 크리에이티브 커먼스 개발에 참여하는 등 '오픈 웹' 정신을 곧게 주장하는 사람이었는데, 2011년 학술지 서비스 JSTOR 자료를 대학교 계정으로 다운로드받다 체포되어 유죄 선고를 받은 뒤 스스로 목숨을 끊았습니다.
이전까지는 기업들이 기를 쓰고 지켰던 전통적인 저작권의 벽을 갑자기 '회색 지대'로 만들고 녹여 버린 수많은 빅테크의 LLM 학습 과정을 생각해보면 마크다운이 이런 식으로 쓰이는 것도 아이러니한 일이죠.