• [NLP] 비지도 워드 얼라이너 설치 및 사용법(Unsupervised Word Aligner Install and Use)

    안녕하세요. 이번 포스팅에서 소개해드릴 것은 word aligner입니다. 자연어 처리를 공부하고 계신 분들이라면 한번 쯤 들어보셨을 텐데요. 간단히 예를 들면, ["나는", "너를", "사랑해"] ["I", "love", "you"] 위와 같이 서로 대응되는 문장이 있을 때, “나는”은 “I”에 대응되고, “너를”은 “you”에 대응되고, “사랑해”는 “love”에 대응되죠? (문장을 간단하게 공백으로 토큰화했습니다.) 각 단어에 대응되는 정보를 담고...


  • [TIP] 무한 재부팅 증상과 해결 방법

    안녕하세요. 오늘 소개해드릴 내용은 제가 최근에 겪은 컴퓨터 오류 증상과 그 해결 방법입니다. 저는 장비 욕심이 좀 많이 편이라 비싼 장비를 제법 많이 구매해봤고 친구들 도와서 대신 구매해주고 조립도 해본 경험이 있습니다. 왠만한 오류는 혼자서 해결 가능하다고 생각해서 주로 혼자 해결하려고 이 방법 저 방법 많이 시도해봅니다. 그러다.. 돈 날린...


  • [NLP] 기계 번역을 위한 유의성 검정 (significance test for machine translation)

     안녕하세요. 이번 포스팅에서 말씀드릴 내용은 기계 번역을 위한 유의성 검정입니다. 이 포스팅은 개인적인 메모 정도로 쓰는 내용이라 배경지식에 대한 설명은 배제하고 핵심만 쓸 예정입니다. 목표는 “기계 번역에 대한 논문, 리포트에서 제안한 모델에 대한 결과를 제시할 때 BLEU significance를 어떻게 얻는가?” 입니다.   위는 기계 번역에 관련된 논문에서 발췌된...


  • [NLP] Leveraging Pre-trained Checkpoints for Sequence Generation Tasks (TACL 2020) 정리

    안녕하세요. 이번 포스팅에서 소개해드릴 내용은 TACL 2020의 Leveraging Pre-trained Checkpoints for Sequence Generation Tasks을 정리한 내용입니다. 최근에 text summarization에 대한 논문을 훝어보다가 발견한 논문입니다. 한 줄로 정리하자면 Sequence Generation Tasks에서 공개된 Pre-trained language model의 checkpoint를 활용해서(parameter initializing) SOTA를 달성. 논문 소개 전.. 얕은 저의 고찰입니다. 비슷한 방법을 이전부터 생각해왔고, 시도해봤지만...


  • [NLP] 자연어 데이터 처리를 위한 리눅스 명령어

    안녕하세요. 이번 포스팅에서 소개해드릴 내용은 데이터 처리을 위한 리눅스 명령어입니다. 인터넷에 “리눅스 명령어”를 쳐보니 필수 리눅스 명령어, 30가지 리눅스 명령어.. 등등 많은 자료들이 있었습니다. 하지만 정작 제가 필요한 기능에 대한 답은 찾기 어렵더군요.. 그래서 기록도 할겸 필요하신 분들에게 알려드릴 겸 몇 가지 리눅스 명령어를 예시와 함께 적으려합니다. 파일 정리, 자연어...