본문 바로가기
IT/IT월드

대화나 강연 녹음 소리를 텍스트로 변환해주는 네이버 클로바노트

by 썬도그 2020. 12. 1.
반응형

정보는 그 정보를 담는 그릇에 따라서 전달력이나 표현력이 달라집니다. 그러나 우리가 어떤 정보를 담고 소비하는 매체는 대표적으로 영상과 텍스트로 대표되는 시각, 말로 대표되는 청각이 있습니다. 그러나 이 말이라는 것은 외국어일 경우 이해하기 어렵죠. 그래서 우리는 오늘도 열심히 세계 공통어인 영어를 배웁니다. 그러나 이 영어 정보를 말이 아닌 텍스트로 담으면 뛰어난 번역기인 구글 번역과 네이버 파파고로 번역이 가능합니다. 

텍스트 간 정보 변환은 점점 편해지고 있습니다. 그러나 말과 말, 말과 텍스트 변환은 아직도 많이 미흡합니다. 텍스트를 말로 변환해주는 TTS(Text to Speech)는 이미 20년 전부터 나와 있던 기술입니다. 이 기술은 최근에 매우 자연스러운 목소리로 텍스트를 말로 전환해줘서 자세히 듣지 않으면 인공 목소리인지 진짜 사람 목소리인지 구분하기 쉽지 않게 되었습니다. 

이 TTS 서비스의 현 주소를 알고 싶으면 
네이버 클로바더빙(clovadubbing.naver.com/mypage) 과 타입캐스트(typecast.ai/)를 보시면 알 수 있습니다. 두 서비스 모두 이용해봤는데 기능은 타입캐스트가 더 뛰어나지만 제대로 활용하려면 유료 서비스를 이용해야 합니다. 네이버 클로바더빙은 2021년 1월 24일에 조금 변경이 있지만 상업적 용도가 아닌 개인이 사용하면 이전처럼 무료로 사용할 수 있습니다. 따라서 블로그, 오디오북, 팟빵, 팟캐스트, 오디오클립과 유튜브, 네이버TV에서도 무료로 이용할 수 있습니다. 

녹음된 음성 파일을 텍스트로 만들어주는 네이버 클로바노트

네이버의 인공지능 서비스 이름은 클로바입니다. 처음에는 잘 몰라서 클로버라고 했는데 자세히 보니 클로바(Clova)네요. 클로바의 대표적인 서비스는 클로바더빙이 있는데 클로바더빙의 짝궁같은 서비스인 클로바노트가 나왔습니다. 

클로바더빙이 텍스트를 음성으로 읽어주는 글을 말로 만들어주는 서비스라면 클로바노트는 말을 텍스트로 변환해주는 서비스입니다. 이런 서비스는 다글로라는 서비스가 있습니다. 다글로와 다른점은 다글로는 유튜브의 소리를 듣고 글로 번환해 줄 정도로 기능은 더 좋습니다. 다만 유료 서비스입니다. 

반면 클로바노트는 1달 600분의 음성 파일을 텍스트로 변환을 해줍니다. 꽤 넉넉하다면 넉넉하지만 학생 같이 수업을 다 녹음하는 학생들에게는 이것도 모자릅니다. 물론 친구 몇 명이서 나눠가면서 녹음하면 좋긴하죠. 실제로 이 네이버 클로바노트는 학생이나 학원생들이 많이 애용할 것으로 보입니다. 아직도 기억나네요. 서울대 장학생의 공부 비법을 담은 다큐가 있었는데 서울대 장학생의 비결은 녹음이더라고요. 교수의 강의를 다 녹음해서 그걸 다 텍스트로 적더니 외우더라고요. 그 강의에서 강조한 것들이 그대로 시험에 나오고요. 그 다큐 보면서 창의성은 개뿔 그냥 외우기 선수들의 집합소 같았습니다. 

그럼에도 그게 현실이기도 하죠. 각설하고. 클로바노트는 강연 내용을 노트에 정리해서 적는 대신 그냥 강연이나 대화 내용을 통으로 녹음하고 이 녹음한 파일의 음성을 텍스트로 저장해 줍니다. 

clovanote.naver.com/

 

클로바노트

눈으로 보며 듣는 음성 기록

clovanote.naver.com

 

사용법은 간단합니다. 오른쪽 상단 '새 노트 만들기'를 누르면 m4a, mp3, aac, amr, wav 파일을 업로드하면 끝. 

몇 년 전에 다운로드했던 경제 라디오 방송 파일을 올려봤습니다. 변환은 바로 되는 건 아니고 좀 기다려야 하네요. 그렇다고 길지는 않습니다. 50분 방송을 한 5분 정도 기다리면 변환을 해주네요. 경상도 사람인 시골의사 박경철의 음성을 인식하게 해 봤는데 인식률이 꽤 좋습니다. 다만 외래어나 상표나 신조어나 이런 건 인식력이 좀 떨어지네요. ㅆ발음이 약한 경상도 남자 발음이라서 그런지 쉐보레를 쇠고래로 변환하네요. 

목소리도 자동으로 인식해서 다른 사람의 목소리가 나오면 참석자 2라고 분류하네요. 애나 사업, 애나 가치는 엔화 사업과 엔화 가치입니다. 엔화를 애나로 인식하네요. 

이런 전문 용어나 자주 사용하는 단어는 등록을 하면 좀 더 정확하게 인식을 합니다. 

반응형

어차피 음성 파일을 텍스트로 변환해도 100% 완벽할 수는 없습니다. 따라서 띄어쓰기나 오탈자들은 직접 수정을 해줘야 합니다. 

텍스트를 누르면 그 부분부터 녹음된 음성이 나오는 점이 좋네요. 위에서 참석자 2,3,4는 같은 사람의 목소리로 광고 멘트인데 배경에 음악이 깔려서 그런지 각기 다른 사람으로 인식하네요. 따라서 음악이 깔리면 인식력이 더 떨어집니다. 

네이버 클로바노트 UI는 간단명료합니다. 음성 기록만 보이게 할 수도 있고 메모와 함께 보이게 할 수도 있습니다. 메모와 음성 모두 다운로드할 수 있습니다. 

네이버 클로바노트는 앱도 있습니다. 앱에서는 음성 녹음 기능이 있습니다. PC는 마이크를 연결해서 사용해야겠지만 녹음 버튼이 아예 없습니다. 반면 스마트폰은 앱을 설치하면 음성 녹음이 가능합니다. 따라서 스마트폰으로 녹음한 파일을 클로바노트에 업로드하고 이걸 텍스트로 변환해서 강의 내용, 강연 내용을 주변 사람과 텍스트로 공유할 수 있네요. 네이버의 클로바 인공지능은 계속해서 좋은 서비스를 잘 내놓고 있습니다. 앞으로가 더 기대됩니다. 

반응형