태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

사용자 삽입 이미지

제가 연구실에 있으면서 공식적으로 처음 만들었던 시스템입니다.

상품평이라는게 보는 관점에 따라서 좋은 말로, 또는 안 좋은 말로 판단 될 수 있습니다.

그래서 정확도 측정하는데 상당히 애를 많이 먹었습니다.

결국에는 카파테스트라는 검증을 사용해서 이 시스템이 실제 사람과 얼마나 유사한 판단을 하는지

테스트 하였는데, 그래도 봐줄만 한 정도로 나왔었습니다.

이 시스템은 단순히 구현을 넘어서..제 생애 첫 논문이 되었지요.

지금도 자연어처리를 열심히 공부하고 있는 학생이지만..지금 제 스스로 벌여놓은 일이 너무나 많네요.

그래도 매번 이런 "연구"를 하고 공부를 할 때 마다 기분은 좋네요^^;

실제로 사용해 볼 수도 있게 데모 사이트를 만들어 놨지만

한동안은 비공개로 해놔서, 저희 연구실 사람들만 데모 시스템을 사용할 수 있게 해놨었습니다.

하지만 오늘!.. 이 초라한 상품평 분류 시스템을 공개해보려고 합니다.

많이 사용해 주시고..코멘트도 달아주세요 ㅜ_ㅜ

업데이트 따위는 없습니다........(게으름뱅이..)

http://nlp.kangwon.ac.kr/~shin285/index.php

덧, 이 시스템을 공개하는 이유는 이보다 더 나은 성능의 시스템을 구현하려고 하는데 이에 대한 사용자들의 의견이 종합되어야 할 것 같다는 제 스스로의 판단 때문입니다.

ACL2009에서 나온 논문으로

여러가지 term weight 방법들을 비교하고 감정 분류 시스템에서 각 방법들을 평가하였다.

이 논문은 새로운 feature를 선택하는 방법이나, term weight를 주는 방법의 새로운 방법은 없었다.

이 중에서 눈여겨 봐야할 점은 각 term wieght model들을 조합하였는데,

좋은 성능을 낸 model 조합도 있었지만 오히려 성능이 저하되는 model 조합도 있었다.

그리고 여기에 대한 결론으로 corpus가 다르고 추정 파라미터의 값이 다르기 때문이라고

논문에서는 이야기하고 있다.

이 논문을 읽으면 실제로 감정 분류에 대해서 중요한 아이디어들을 얻을 수 있을 것이라 예상했지만,

단순히 모델들에 대한 소개와 실험, 그리고 각종 corpus 소개 등이 주를 이루고 있어서 조금 아쉬웠다.

자연어처리에 대한 공부를 하다보면 가장 많이 듣는 단어 중 하나는 feature이다.

그리고 항상 실험 부분에서 많이 나오는 단어는 위 제목과 같이 accuracy, precision, recall 이다.

특히 문서 분류나 검색에서 많이 사용되는 실험 척도인데,

주로 precision과 recall을 구한 뒤에 F-measure로 최종 결과를 내는 논문들이 많았다.

그리고 accuracy로 최종 결과를 내는 논문들 역시 많이 있었는데.

정확률? 재현률? 정밀도?

나 역시 많은 논문을 접하면서 쉽게 단어가 노출되어서 익히 들어왔지만 항상 그때그때 마다 헷갈리는 부분이다.

마치, 일란성 쌍둥이를 한참 들여다보고 나서야 누가 형이고, 동생인지 알 수 있는 것처럼 말이다.

이제 accuracy, precision, recall을 확실하게 기억하기 위해서 집중하도록 하자!!

먼저 표를 살펴보자.


사용자 삽입 이미지

위의 표는 실제 정답(검색, 분류, 띄어쓰기 등..)과 실험 결과를 한 눈에 파악 가능하도록 나타낸 것이다.

먼저 precision에 대해서 알아보도록 하자.

사용자 삽입 이미지

위의 표에서 하늘색 부분을 살펴보자. 실험 결과 true라고 판단 한 것 들이다.

precision은 이렇게 시스템이 true라고 판단 한 것 중에서 실제 true인 것의 percent이다.

즉, 식으로 쓰자면 a/(a+c)가 된다.

이제 recall에 대해서 알아보자.

사용자 삽입 이미지

recall은 흔히 재현율이라고 번역된다. 실제 정답의 true 중 얼마나 많은 true를 찾아냈느냐 하는 percent이다.

위의 표에서 하늘색 부분이 실제 정답에서의 true이다.

이 중 시스템이 true라고 판단한 것의 비율이 바로 recall(재현율)이 된다.

즉, 식으로 쓰자면 a/(a+b)가 된다.

마지막으로 accuracy에 대해서 알아보도록 하자.


사용자 삽입 이미지

일반적인 상식(?) 봤을 때 이 시스템의 결과 중 얼마나 맞았는가를 시스템의 성능으로 판단하는 경우가 많다.

이 경우가 바로 accuracy이다.

쉽게 말해서 시스템이 출력해놓은 전체 결과 a, b, c, d 중에서 실제 정답과 같은 판단을 한 비율이 된다.

즉, (a+d)/(a+b+c+d)가 된다.

================================================================================================

이렇게 까지 직접 정리를 해놨으니..다시 까먹는 일이 없었으면 좋겠다..ㅜ_ㅜ

[참조]
http://en.wikipedia.org/wiki/Precision_and_recall
http://www.slideshare.net/nicbet/computing-accuracy-precision-and-recall-presentation


이번에 Python을 사용할 일이 있고 게다가 NLP(제 전공 분야)에서는 자주 쓰이는 언어라고 하기에

본격적으로 사용을 해보려고 합니다!

그러기 위해 필요한 준비물은


자바( 당연히 이클립스를 구동하기 위해서 필수겠죠? )

이클립스 (최신버전이라면 OK)

Python (파이썬으로 개발하는 건데..이것 역시 당연한거겠죠?)


그리고 다른 블로그에서 보게 되면 pydev..사이트에가서 뭘 어떻게 하고 그렇게 하라고 하는데..

솔직히 전 해봐도 잘 안되더군요 -_-;;

그러다가..이클립스의 업데이트를 사용하여 python을 사용할 수 있다길래!!

Help -> Software update -> Available Software -> Add site -> "http://pydev.sourceforge.net/updates/" 주소 입력 -> 플러그인 설치는 끝!

그리고 이제 이클립스 설정 단계..

이 단계는 다른 블로거 분께서 자세히 설명해 주셨기 때문에 링크로 대체하겠습니다!

http://whiteship.tistory.com/488

자 이제 할일은..

"Hello Python!!"

4학년 졸업을 앞두고 운이 좋았는지 나빴는지는 모르겠지만....

논문을 "한글 및 한국어 정보처리 학회"에 냈더니 구두발표라고 메일이 날라오더군요......

아무튼..학회에 갔던 방문기를 올리도록 하겠습니다.

10월 10일 부터 11일까지 서울대학교 엔지니어하우스와 신공학관에서 열렸던 학회였습니다.

연구실 사람들과 함께 다녀왔습니다.

사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/180sec | F/3.5 | 0.00 EV | 6.6mm | ISO-80
숙소를 정하고 아주머니께 서울대가 얼마나 머냐고 묻자.."남자 걸음이면 10분 정도예요".....

난 분명히 서울대까지 상당히 멀다는 것을 알고 있었지만..어릴때 가봤기 때문에 그냥 그 당시의 느낌이 멀

뿐이고..실제로는 가깝구나...라고 생각하고 걷기 시작하였습니다...(위사진)

사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/90sec | F/3.5 | 0.00 EV | 6.6mm | ISO-100
역시...헛된 느낌이 아니였나봅니다......서울 사는 사람이지만 어찌도 이렇게 서울 길에 어두운지 -_-;;;

위 사진은 언덕을 넘고나서 말수가 급격히 줄어든 저희 연구실 사람들입니다 ㅋ



사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/30sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200
학회에 참여하고 이런 저런 얘기들을 듣다보니 어느덧 저녁식사 세팅을 해주시더군요...

얼마나 많이 줄련지 스푼을 2개나 주더군요(?)


사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Creative program (biased toward depth of field) | Pattern | 1/8sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200




사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Creative program (biased toward depth of field) | Pattern | 1/4sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200
사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Creative program (biased toward depth of field) | Pattern | 1/8sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200
사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Creative program (biased toward depth of field) | Pattern | 1/8sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200

본격적으로 학회가 시작되기에 앞서서 책들을 읽고 계시는 연구실 선배님들 ㅎ


사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Creative program (biased toward depth of field) | Pattern | 1/15sec | F/4.4 | 0.00 EV | 16.0mm | ISO-200
밥 먹는데 서울대 동아리에서 참여해주셨습니다~

솔직히 저 같이 일반 학생의 입장에서는...체할 뻔 했습니다..

그냥 뷔페나 순대국밥..이런 저녁은 왜 없을까요 =ㅅ-;;



사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/45sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200

먼저 양장피(?) 팔보채(?) 뭐드라...아무튼 해파리를 먹었습니다..

맛은 그닥..이더군요..



사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/45sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200
쟈스민 차는 무한 리필이였습니다 ㅎㅎ 개인적으로 쟈스민 차를 좋아하는데..이거 하나는 정말

괜찮았습니다~




사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Creative program (biased toward depth of field) | Pattern | 1/30sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200
그나마 고기라고 나왔던 칠리새우?? 맞는진 모르겠으나..

이걸 보니 제가 전에 먹었던 새우크림이 생각나더군요.........

맛도 크림새우가 훨씬 좋았습니다..........


사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Creative program (biased toward depth of field) | Pattern | 1/10sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200
그래도 나름 메인이라고 생각을 했기 때문에.. 찝찝한 접사(?)를 찍었습니다.


사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/30sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200
사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Creative program (biased toward depth of field) | Pattern | 1/3sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200
사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Creative program (biased toward depth of field) | Pattern | 1/4sec | F/3.5 | 0.00 EV | 6.6mm | ISO-200
저녁을 먹고 숙소에 도착하고나서 쉬고 있는 연구실 사람들의 모습입니다~


사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/180sec | F/6.2 | 0.00 EV | 6.6mm | ISO-80
사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/180sec | F/4.0 | 0.00 EV | 11.8mm | ISO-100
다음 날 덤덤하게(?) 발표를 마치고 나와서 홀가분한 기분으로 사진을 찍었습니다~ 기둥 뒤에 1인이 숨어있습니다 ㅎㅎ

사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/250sec | F/3.8 | 0.00 EV | 8.8mm | ISO-80
현수막에는 가을 운동회(?)........

제가 갔던 얘기와는 별개의 얘기인거 같더군요 ㅎㅎ

학회가 끝나고 나서 다들 사진을 찍더군요...

저 역시 놓칠수 없었기에..ㅋ


사용자 삽입 이미지Samsung Techwin | Samsung i8, Samsung VLUU i8 | Normal program | Pattern | 1/350sec | F/4.6 | 0.00 EV | 19.8mm | ISO-80
이건 학회 첫날에 저녁식사도 하고 등록도 하였던 엔지니어 하우스입니다.

사용자 삽입 이미지SONY | DSLR-A700 | Manual | Center-weighted average | 1/100sec | F/4.0 | 0.00 EV | 40.0mm | ISO-400

그리고 마지막으로 제가 발표했다는 사실이 저도 안 믿기기 때문에.... 인증샷(?)입니다 ㅋㅋ

저 옷에 대한 비화가 있는데.........

가슴 아파서 차마 말을 꺼낼수가 없군요 ㅠ_ㅠ........

사진은 정말 많지만......사생활 보호차원에서 여기까지!!! 하겠습니다~

처음 낸 논문이 구두발표라서 좀 떨리긴 했지만...나중에는 그냥 무덤덤해지더군요..

역시 전 감정이 메마른 인간인건가요 ㅋ =ㅅ=;;;