ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [논문리뷰] Identifying entity properties from text with zero-shot learning, 2) properties, a predicate path
    Data miner/Knowledge Graph 2020. 10. 1. 14:59
    728x90

        본 논문을 요약하면서, Property를 '관계성'(e.g. music.artist.track_contributions)으로 언급한 바 있다. 이해를 돕기 위해, ()에 이것의 예시를 같이 소개하겠다.  논문에서는 Property의 특성을 지식그래프의 구성물이라고 할 수 있는 Triplet(S주어, P서술어, O목적어)를 활용해서 정의한다. 특히, 주어-목적어 관계로 직접 연결되지 않은 경우에도, 목적어가 다른 문장에서 주어가 되어 표현되는 관계까지도 포괄한다는 특징을 가진다(아래 그림 참조). Triplet의 단위에서 어떤 목적어는 다른 문장에서 주어일 수 있으며, 이런 식으로 사슬로 연결되어 주어와 사슬의 마지막 끝에 있는 목적어는 여러개의 서술어로 구성될 수 있다. 아래 그림에서 r1, r2에 해당하며, 빌게이츠(주어)와 글로벌IT기업(목적어)는 [창업자,회사의분류]라는 predicate path로 연결될 수 있다. 여기에서 rn의 n은 주어와 목적어를 연결하는 술어의 길이를 뜻한다. 아래의 그림에서는 창업자(r1), 회사의 분류(r2) 두 개의 술어가 주어와 목적어를 연결하고 있으므로, n은 2이다. 

     

     

        TranE에 의해서 사전 임베딩된 Triplet(S주어, P서술어, O목적어)를 활용한다. Property를 임베딩할 때에는 다음의 가정을 전제로 한다. 임베딩 공간에서 서로 가까이 있는 것들은 Properties가 비슷하다는 것이다. Property를 임베딩할 때의 전략은 다음과 같다. (e.g.music.artist.track_contributions–music.track_contribution.track의 property)

     

    1)SUM-R: 하나의 Property에 포함된 서술어들의 임베딩된 값(music.artist.track_contributons, music.track_contribution.track)들을 모두 다 합친다.

     

      단순히 술어 정보만을 활용하는 것은 관측된 properties와 관측되지 않은 properties를 표현하는 데 있어서 충분하지 않을 수 있으므로, 주어와 목적어 정보도 적극 활용한다.

     

    2) CC-SO:  술어 벡터 정보값뿐만이 아니라 주어와 서술어의 평균값들을 합친다(concatenate)(주어에 해당하는 Justin Bieber와  Ed Sheeran의 평균값, 앨범명이라고 할 수 있는 Love Yourself, Shape of You의 평균값).

     

    3) CC-RO: 첫번째 술어값과 술어와 관련된 목적어값들의 평균값을 합친다(music.artist.track_contributions과 Love yourself and shape of you의 평균값).

     

    4) CC-SON: 2)와 비슷한 부분이라고 볼 수 있는데, 주어들의 평균값과 목적어의 평균값, 그리고 이웃 목적어의 평균값도 합친다(2)의 부분에 추가되는 것은 이웃 목적어라고 할 수 있는 Vocals값도 합친다) 이는 똑같은 목적어와 서술어를 가지고 있는 properties지만, 서로 의미가 상이한 경우가 있기 때문에 이를 차별화하기 위한 전략이다.

     

     

    위의 내용과 관련하여 참고 하면 좋은 글:

    https://www.linkedin.com/pulse/knowledge-graphs-machine-learning-nicola-rohrseitz/

     

Designed by Tistory.