Link Search Menu Expand Document

question_pair

짝 지어진 두 개의 질문이 같은 질문인지 다른 질문인지 핸드 레이블을 달아둔 데이터. 사랑, 이별, 또는 일상과 같은 주제로 도메인 특정적이지 않음.

라이선스는 https://github.com/songys/Question_pair/blob/master/LICENSE에서 확인하실 수 있습니다.

Table of contents

  1. Dataset Informations
  2. How to use this dataset
  3. License

Dataset Informations

  • See codes in GitHub
  • Version:
    • 1.0.0 (default): Initial release.
  • Homepage: https://github.com/songys/Question_pair
  • Download size: 532.46 KiB
  • Dataset size: 972.14 KiB
  • Features:

    FeaturesDict({
        'is_duplicate': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
        'question1': Text(shape=(), dtype=tf.string),
        'question2': Text(shape=(), dtype=tf.string),
    })
    
  • Supervised keys: None
  • Splits:

    Split Name Num Examples
    train 6136
    test 758
    validation 682
  • Examples:

      question1 question2 is_duplicate
    1 짝남한테 문자 왔는데 뭐라고 답하지 짝남이랑 어색해졌어 괜히 너무 나댔나 1
    2 발렌타인데이 선물 줄 사람이 없어 발렌타인데이인데 줄 사람이 없어 0
    3 와 진짜 너무 짜증나네 완전히 잊는다는게 쉽지 않네 1
    4 방에 먼지가 한가득 먼지가 쌓였네 0
    5 대기업 인턴하고 싶다. 인턴하고 대기업 입사면 좋겠다. 1
    6 정말 복합적으로 힘드네 정말 아직 너무 사랑합니다 잡고 싶습니다 1
    7 이별을 하고. 이별의 마무리 1
    8 예랑이가 대리효도시키는 건 아니겠지? 예랑이가 대리효도시키는 건 아니겠지? 0
    9 혼수 얼마나들까? 혼수 얼마야? 0
    10 뭐 보고 결혼 결심해? 보통 뭐 보고 결혼 결심해? 0
  • Citation:

    @misc{questionpair20
        title={Paired Question},
        author={Youngsook Song},
        howpublished={https://github.com/songys/Question_pair},
        year={2020}
    }
    

How to use this dataset

  • Installation:

    pip install tfds-korean
    
  • Use this dataset

    import tensorflow_datasets as tfds
    import tfds_korean.question_pair
    
    dataset = tfds.load("question_pair")
    

License

The MIT License (MIT)