AI를 개발하는데 필요한 데이터가 급격하게 고갈되고 있는 이유

요즘 AI 성장으로 인해 큰 타격을 받고 있는 사람들 중 하나가 블로거입니다. 저 같은 경우 이 블로그 운영하면서 최악의 수익을 내고 있네요. 이유는 여러 가지가 있습니다만 가장 큰 이유는 놀랍게도 블로거들 때문입니다.

인터넷 검색 사이트의 검색 품질을 낮추고 있는 블로거들

요즘 네이버나 구글 검색하면 내가 찾고자 하는 글을 찾기 너무 어려워졌습니다. 얼마나 어이가 없냐면 어떤 정보를 검색했는데 가장 상단에 뜬 블로그를 눌러보니 자신이 그 정보를 찾는 과정을 담고 있습니다. 그러더니 ~~ 하는 방법을 찾으면 다음 포스팅에 올리겠습니다라는 충격적인 끝맺음에 작은 탄식이 나오더라고요.

이렇게 블로그 포스팅을 하는 사람은 예전에도 있었습니다. 다만 검색엔진이 이런 저품질, 저신뢰 블로그 글을 상위 노출 시켜주지 않았죠. 그러나 지금은 검색 엔진 자체가 망가져서 이런 저품질 글도 노출시키고 있습니다.

그런데 이런 저품질 글들이 넘치고 있습니다. 매일 의미 없는 자동화 툴로 다는 영혼 없는 봇이 다는 댓글을 지우는 일도 이제는 이력이 나고 있네요. 어떻게 블로그 글 쓸 소재와 내용을 찾는 데도 시간이 모자란데 스팸성 무지성 댓글 지우는 게 일이 되어 버린 티스토리 요즘 근황입니다.

이런 분들의 무지성 댓글을 클릭해서 들어가면 자신이 직접 쓴 글은 없고 챗GPT나 각종 AI 검색툴로 검색해서 나온 글을 자신이 쓴 것처럼 포장해서 올립니다. 생성형 AI 툴을 이용해서 글을 쓰는 자체는 구글이나 네이버나 뭐라고 하지 않습니다. 이용하라고 아예 AI 툴을 만들어주고 있습니다. 문제는 이 글쓰기 AI 툴을 이용하려면 그 분야에 대한 전문적인 지식이나 식견이 있어야 AI가 쓴 글이 맞는지 틀렸는지 구분을 할 수 있죠.

그러나 까막눈이면 모릅니다. 제가 AI 글쓰기 툴을 사용해보니 워낙 오정보들이 많아서 팩트 체크 하다가 시간 다 갑니다. 그래서 그냥 신뢰도 높은 정보 매체에서 정보를 얻고 그걸 가공하고 정리해서 쓰고 있네요.

저품질 블로그가 우후죽순으로 생기고 있습니다. 자신의 머리 속에서 나온 글 하나 없이 자신이 직접 촬영한 사진 하나 없이 챗GPT, 구글 제미나이 등을 돌려서 쓴 오류가 많은 글들을 마구 잡이로 블로그에 올리고 있습니다. 이런 저품질 블로그가 대량 생산되면서 전체적으로 검색 품질도 하락하고 있습니다.

요즘 티스토리 방문자 숫자와 애드센스 수익 크게 줄었죠? 그거 다 구글이 티스토리 도메인 전체를 저품질 도메인으로 인식하기 때문이라는 소리가 많습니다. 저도 티스토리 블로그지만 티스토리 블로그 글이 검색에 나오면 걸러 버립니다. 차라리 네이버 블로그 글이 더 낫다는 생각이 들 정도입니다. 네이버에는 생성형 AI로 글을 쓰는 분들이 아직은 적거든요. 왜냐하면 워낙 수익이 없다 보니 수익 생각 안 하고 운영하는 분들이 대부분이라서 오히려 네이버 블로그가 더 콘텐츠 품질이 더 좋은 기이한 현상이 나오고 있네요.

생성형 AI 서비스를 제공하는 네이버와 구글이 오히려 AI 검색 서비스 포함 검색 품질을 낮추는 역할을 하고 있네요.

AI를 개발하는데 필요한 데이터가 급속하게 줄고 있다 그 이유는?

그럼 챗GPT나 구글 제미나이. 네이버 하이퍼 클로바 X 등의 AI들은 어떻게 똑똑해졌을까요?

다 인터넷에 널려 있는 블로그, 뉴스기사, 각종 문서, 웹사이트를 마구잡이로 학습해서 가능했습니다. 그런데 이건 명백한 불법 행위입니다. 예를 들어서 최근 애플 AI가 유튜브 중에 자막이 있는 유튜브를 보고 학습하다가 걸렸죠. 유튜브는 구글이 저작권을 가지고 있는데 경쟁회사가 무단으로 유튜브 영상 내용을 학습하는 자체가 저작권 위반입니다.

초기에는 많은 사람들이 이 저작권 문제를 인식하지 못했습니다. 그래서 내 블로그 글을 AI 개발 회사가 무단 학습을 해도 그런가 보다 했는데 지금은 다릅니다. 많은 콘텐츠 생산자들이 고소를 날리고 있습니다. 실제로 이미지생성형 AI를 만드는 독일의 스테이블 디퓨전은 무단으로 유명 사진작가 사진으로 학습해서 고소를 당했습니다.

또한 많은 웹사이트들과 개인 홈페이지와 워드프레스 등에서 AI 검색 봇이 정보를 훔쳐가지 못하게 크롤링을 막고 있습니다. 그 결과 지난 1년 동안 고품질 데이터의 25%를 학습에 사용할 수 없게 되었습니다.

여러 웹 사이트에서 AI 학습에 무단 사용되는 정보 접근 제한이 급증하다

AI모델의 데이터 세트를 감시하는 단체인 Data Provenance Initiative

는 3개의 AI 교육용 데이터 세트인 C4, RefinedWEB, Dolma에 포함된 1만 4천 개의 웹 도메인을 조사하여 크롤링해서 얻은 데이터와 사용에 대한 동의 상황 변화를 조사했습니다.

그 결과 2023년부터 2024년에 이르는 지난 1년 만에 데이터 사용 제한이 급증하고 있는 걸 알 수 있었습니다.
위 그래프는 상단이 Robots.txt로 AI 학습용 봇이 웹 사이트 정보를 긁어가는 크롤러에 대한 접근을 허가하는 지표입니다. 아래는 Terms of service(ToS)로 AI 학습용 봇, 또는 AI 봇이 접근 제한을 건 상황입니다. 보시면 NO Crawling이 크게 늘고 있습니다. 특히 오픈 AI의 크롤러인 GPTBot를 막는 움직임이 늘어나고 있네요.

AI 성능은 계속 증가하는데 배울 학습 데이터는 고갈 중

여기에 AI 성능이 계속 향상되면서 학습 속도가 빠르다 보니 더 이상 배울 것이 없어지는 경향도 나오고 있다고 하죠. 세상 모든 데이터를 학습할 수 있을 정도로 성능은 향상되었지만 학습 데이터 고갈이 곧 다가올 것으로 보입니다. 여기에 AI 검색 툴과 생성형 AI 툴로 인해 유튜버, 블로거 같은 콘텐츠 생산자들이 수익이 줄자 손을 놓아 버리기 시작했습니다. 마치 꿀벌들이 AI 농약을 맞고 다 죽어가는 형국이네요. 이렇게 되면 새로운 정보는 누가 만들까요? 새로운 학습 데이터가 사라진 세상에서 AI는 뭘 보고 배울까요? 뭐 자체 학습 기능이 들어가면 알아서 배우는 시대가 될 겁니다.

그 시대 즉 AI 검색이 보편화 되는 시대는 분명 유료와 무료로 서비스를 이원화해서 배달의 민족처럼 공짜로 검색하던 시대는 사라지고 돈 내고 검색하는 시대가 도래할 겁니다. 당연히 무료 서비스는 저질 검색 결과를 내놓을 겁니다.

AI 학습용 데이터 제공에 대한 대가를 요구하는 움직임으로 전환될 듯

지금은 무단으로 AI 학습에 아무 데이터나 허락도 없이 사용했지만 앞으로는 이게 어려워질 것입니다. 그래서 네이버나 카카오나 구글 같이 자체 보유하고 있는 콘텐츠들이 많은 업체들이 앞으로도 승승장구할 겁니다. 다만 네이버 블로그, 티스토리 블로그에게 데이터 학습 사용료를 지불해야 할지도 모릅니다. 소송을 걸면 골치 아프거든요.

물론 큰돈을 주지는 않겠죠. 그러나 앞으로는 대형 로펌을 통해서 고소가 들어가기 시작하면 이 문제를 깔끔하게 해결해야 할 겁니다. 물론 네이버나 카카오가 돈을 주지 않으려고 약관 변경을 통해서 우리가 AI 학습 데이터로 사용하는데 동의를 안 하면 회원 탈퇴나 유료로 사용하라고 할 수도 있을 겁니다.

그런데 이런 데이터 학습 거부 움직임이 늘면 AI 스타트업이 더 큰 피해를 받을 수 있습니다. AI 스타트업들은 학습 데이터를 돈 주고 살 여력이 없습니다. 천상 대형 LLM 업체에 기대어서 사업을 해야 하고 실제로 그렇게 되고 있습니다. 자체 LLM 구축이 앞으로 더 어려워질 것으로 보입니다.

저작자표시 비영리 변경금지