비디오AI | Notion

<aside> 💡 요약

</aside>

Langchain과 오디오, 텍스트 추출 기술을 조합하여 만든 LLM기반 어플리케이션 입니다.

‘몇 시간 짜리 영상을 다 보는 것 보다 그냥 글로 읽는게 더 빠르겠다’ 라고 생각하게 되어 음성을 텍스트로 추출하는 프로젝트였지만, 질문 답변 형식으로 더 편하게 정보를 얻어보고 싶어서 Langchain을 활용하여 추가 개발하였습니다.

pydub을 사용 해 볼 수 있었고, 음성을 chunk 단위로 쪼개고, 텍스트로 변환하는 경험을 해볼 수 있었습니다

<aside> 💡 개발 배경

</aside>

유튜브를 보면서 정보를 많이 습득하는데, 1인이 강연을 하는 영상을 볼때 문득 ‘목소리를 구별 할 필요가 없는 영상이라면, 글로 추출해서 더 빠르게 정보를 얻을 수 있지 않을까?’ 라는 생각이 들어 영상을 텍스트 파일로 추출하는 프로그램을 개발했었습니다.

개발이 완료된 후 Langchain을 활용해서 질문, 답변하는 형식으로 더 빠르게 필요한 정보를 얻을 수 있겠다는 생각이 들어 추가적으로 개발해보았습니다.

<aside> 💡 주요기능

</aside>

<aside> 💡 개발에서 얻은 의미

</aside>

음성인식 수준이 좋지 않을거라는 불신이 있었는데, 그것을 완전히 없애준 좋은 프로젝트 였습니다. 1시간 짜리 영상을 다 들으면서 직접 비교한 결과 영어는 100%의 일치율을 보여줄 정도로 인식률이 좋았습니다.