Link Search Menu Expand Document

nlp_challenge

네이버, 창원대가 함께하는 NLP Challenge 기술 대회의 NER/SRL 데이터.

자세한 정보는 https://air.changwon.ac.kr/?page_id=14https://air.changwon.ac.kr/?page_id=10를 참고하세요.

Table of contents

  1. Dataset Informations
  2. Configs
    1. nlp_challenge/ner (default)
    2. nlp_challenge/srl
  3. License

Dataset Informations

  • See codes in GitHub
  • Version:
    • 1.0.0 (default): Initial release.
  • Homepage: https://github.com/naver/nlp-challenge
  • Citation:

    @misc{Naver2018,
      author = {Naver},
      title = {NLP Challenge},
      year = {2018},
      publisher = {GitHub},
      journal = {GitHub repository},
      howpublished = {\url{https://github.com/naver/nlp-challenge}},
      commit = {a51654472e0da75cd37c6e73ffe583db78e68323}
    }
    

Configs

nlp_challenge/ner (default)

NLP Challenge NER dataset

  • Dataset size: 18.33 MiB
  • Download size: 16.16 MiB
  • Features:

    FeaturesDict({
        'tags': Tensor(shape=(None,), dtype=tf.string),
        'tokens': Tensor(shape=(None,), dtype=tf.string),
    })
    
  • Splits:

    Split Name Num Examples
    train 90000
  • Examples:

      tokens tags
    1 오는
    12월
    플라마가
    쌍용이란
    DAT_B
    DAT_I
    ORG_B
    ORG_B
    2 -제이미,
    사건현장을
    문안해
    볼게요
    .
    PER_B
    -
    -
    -
    -
    3 코토
    ·
    우승미의
    제니트,
    PER_B
    -
    PER_B
    ORG_B
    4 PSV
    에인트호벤(네덜란드)을
    20-0(합계
    25-1)으로
    ORG_B
    ORG_I
    NUM_B
    NUM_B
    5 -16위입니다,
    중앙여
    .
    NUM_B
    ORG_B
    -
    6 젊은
    역사가들이
    변화구를
    못친다는
    -
    CVL_B
    TRM_B
    -
    7 갈라타민의
    손을
    떠난
    공은
    PER_B
    ANM_B
    -
    -
    8 일일
    이제
    진행중인
    자연보호계획이
    DAT_B
    -
    -
    -
    9 성제가
    열린
    축구경기장
    절대악몽에는
    -
    -
    -
    AFW_B
    10 26,
    14세트를
    잇달아
    내줄
    NUM_B
    NUM_B
    -
    -
  • Use this dataset

    import tensorflow_datasets as tfds
    import tfds_korean.nlp_challenge
    # Install tfds-korean with `pip install tfds-korean`
    
    dataset = tfds.load("nlp_challenge/ner")
    

nlp_challenge/srl

NLP Challenge SRL dataset

  • Dataset size: 7.16 MiB
  • Download size: 6.31 MiB
  • Features:

    FeaturesDict({
        'tags': Tensor(shape=(None,), dtype=tf.string),
        'tokens': Tensor(shape=(None,), dtype=tf.string),
    })
    
  • Splits:

    Split Name Num Examples
    train 34857
  • Examples:

      tokens tags
    1 수부를
    쓰는
    영성적
    노동은
    ARG1
    -
    -
    ARG1
    2 국문
    사회면의
    술어를
    빌리자면
    -
    -
    ARG1
    -
    3 검사는
    주말에만
    하고
    있으며
    ARG1
    ARGM-TMP
    -
    -
    4 프왑의
    가르침은
    동.서양에
    대한
    -
    ARG1
    ARGM-LOC
    -
    5
    새끼의
    간이
    콩알만큼
    달랑해졌다.
    -
    -
    ARG1
    ARGM-EXT
    -
    6 구수한
    육수냄새가
    중국식당들의
    문틈으로
    -
    ARG1
    -
    ARGM-DIR
    7 삼천리금수강산은
    10년
    피파
    월드컵
    ARG0
    -
    -
    -
    8 평교사에
    대한
    근무평정은
    교감이
    ARG2
    -
    -
    ARG0
    9
    가국
    관계는
    중화민국의
    -
    -
    ARG1
    -
    10 소년은
    하모니카를
    입에
    물었다.
    ARG0
    ARG1
    ARG3
    -
  • Use this dataset

    import tensorflow_datasets as tfds
    import tfds_korean.nlp_challenge
    # Install tfds-korean with `pip install tfds-korean`
    
    dataset = tfds.load("nlp_challenge/srl")
    

License

제공되는 코퍼스는 Data.ly에서 제작한 것으로, 연구 및 리더보드를 위한 학습으로 사용 가능하며 상업적인 목적으로 사용될 수 없음을 알려드립니다. 추가문의가 필요한 경우 메일을 남겨주세요.