AnswerCarefully Dataset

新着情報

  • AnswerCarefully Dataset ボーダーラインデータ バージョン1.0(AC-borderline-v1.0)を公開しました。詳細はこちら (2026/2/16)
  • AnswerCarefully Dataset バージョン2.2(ACv2.2)を公開しました。 (2025/5/29)
  • データセットの公開場所をHuggingFaceに移行しました (2025/2/5)
  • 現在ACv1のテストデータをお使いの方へ (2024/12/24)
    ACv1テストデータのサンプル中に、意図せずACv2の開発データに混入していたものがありました。以下の2件です:
             – id: answercarefully-instruction-test-001-001-0000144-001
             – id: answercarefully-instruction-test-001-001-0000148-001
    この2件を除いた、ACv1のテストデータ更新版AnswerCarefullyVersion001_Test_rev20241224.jsonを公開しましたのでご利用ください。データの混入によりご迷惑をおかけしたことをお詫びいたします。
  • AnswerCarefully Dataset バージョン2.0(ACv2)を公開 (2024/9/12)
  • AnswerCarefully Dataset バージョン1.0   (ACv1)   を公開 (2024/4/30)

概要

日本語LLM 出力の安全性・適切性に特化したインストラクション・データAnswerCarefullyデータセットを公開しています。このデータセットは、英語の要注意回答を集めたDo-Not-Answer データセット  の包括的なカテゴリ分類に基づき、人手で質問・回答ともに日本語サンプルを集めたオリジナルのデータセットです。

データセットの特徴

  • 現在バージョン2.2(ACv2.2)が最新版です。ACv2.2は、ACv2.0に多言語・多文化化用アノテーションを付与したものです。詳細は以下をご覧ください。
  • ACv2はACv1に修正を施したデータに加え、新しいデータも追加されています。修正点は以下の通りです。
    • カテゴリ分類を日本語のデータに即してアップデート。詳細はこちら
    • 「あなたを開発したのは誰?」のような、システムによって回答が違ってくる質問を削除(松尾研LLMプロジェクトのKento Fukuda様ご指摘ありがとうございました)
    • カテゴリ分類のミスや、タイプミスなどを修正
  • 日本語使用の特性を考慮したオリジナルの質問と回答からなっています。
    • Do-Not-Answerデータセットのサンプルはテンプレート形式の抽象的な質問を多数含み、また日本特有のトピックをカバーしていないため、本データセットではDo-Not-Answerデータセットのカテゴリのみを踏襲し、データサンプルはオリジナルで人手により作成しました。
    • 質問は日本で特に問題になるトピックを含んでいます(例えば援助交際やオレオレ詐欺、出身地や病歴による差別など)。
    • 回答は有害・不適切な発言をしないことを第一に、それを踏まえた上で可能なら役に立つ情報を提供する方針で作っています。
    • Do-Not-Answerデータセットの3段階のカテゴリ分類に基づき、5つのリスクタイプ(大分類)、12の有害カテゴリ(中分類)、61(ACv2では56)のサブカテゴリ(小分類)をカバーしています。ACv2でのカテゴリの変更についてはこちらをご覧ください。
    • 本データは、安全性に関わる可能性のある質問を広くカバーすることを目的としており、有害カテゴリ分類もそのために使用しています。どのようなデータを有害・不適切とするかの判断は明確に一意にできるものではなく、モデルの使用目的によっても異なると考えられます。カテゴリ分類・サンプルデータともに、その点に留意してご使用ください。
  • ACv2は各サブカテゴリにつき最低20件のサンプルを含む計1,800件からなっています(ACv1は各サブカテゴリにつき10から20のサンプルを含む計945件からなっていましたが、これらは現在修正が加えられた上でACv2の一部となっています)。
    • このうち各サブカテゴリから6件ずつ、計336件をテストデータ、残り1,464件を開発データとして2つのファイルに分けて公開しています。
    • テストデータは一部、ACv1のテストデータと重複しています。

データカテゴリ((大・中分類。小分類も含む詳細はこちら

データサンプル

バージョンACv2.2 アップデート

ACv2.2は、ACv2.0に多言語・多文化化用アノテーションを付与したものです。具体的には、質問の英語訳とそれを補足する注釈が追加されています。追加された情報は以下の通りです。

  • “adaptation-tag”: textに日本や日本語に特殊な点があるかどうかのタグ。0=特殊性なし、1=特殊性あり(地名、人名や通貨単位など、単語やフレーズレベルでの特殊性)、2=特殊性あり(単語やフレーズの変換だけでは対処できない特殊性)
  • “translation-notes”: 単に英訳しただけでは質問の意図がわかりにくい場合の補足情報
  • “risk-area-English”:  大分類の英語訳
  • “harm-type-English”: 中分類の英語訳
  • “specific-harm-English”:  小分類の英語訳

データサンプル

ボーダーラインデータ v1.0

AnswerCarefully のリスクタイプのうち「悪用」「情報漏洩」「バイアス・差別・ヘイト・反公序良俗」に属する一部入力をもとに「一見有害に見えるが実は回答可能な質問」を人手で派生させた「ボーダーラインデータ」を作成しました。これは「一見有害に見えるが実は回答可能な質問」に対し、システムが過剰に回答を拒否せず有用な回答を行えるかを評価するためのデータセットです。データは主として、以下の操作を行って元のデータから派生しています。

  • 安全性・不適切性に関連する「要注意ワード」の多義性を利用する(例: 「大麻」は違法薬物でもあるが、北海道の駅名でもある)
  • 要注意ワードに文字を追加して別語に変換する(例:「下ネタ」を「廊下ネタ」にする)
  • 要注意ワードに文脈を追加・転換することで意味を変更する(例:効果的なリンチ「対策」のやり方)

ボーダーラインデータ v1.0 は、テストデータ65件と開発データ10件の計75件からなり、2025年3月の「大規模言語モデルのファインチューニング技術と評価」ワークショップでも使用されました。各サンプルには派生元のACv2-devのQuestionIDへのリンクも付与されており、派生元の「回答に注意が必要な質問」と「それに似ているけれど普通に回答してよい質問」のペアで評価することが可能です。

データセットの利用

本データセットは、日本語および他の言語のLLMの安全性を向上させるという目的のため、商用利用も含め公開しています。

ご利用に際して注意

  • データセットはこちらで公開されています。データセットの再配布は禁止されていますのでご注意ください。
  • 本データセットはその性質上不適切な表現を含みます。承諾の上、LLMの安全性向上のためにご使用ください。
  • 本データセットに関しては以下の論文を参照してください。                     鈴木久美, 勝又智, 児玉貴志, 高橋哲朗, 中山功太, 関根聡. 2025. AnswerCarefully:日本語LLM安全性向上のためのデータセット. 言語処理学会第31回年次大会発表論文集. [リンク]

連絡先・謝辞

本データ作成は、全面的に国立情報学研究所(NII)が中心となって進められているLLM勉強会のご協力をいただいています。バージョン1.0は理研AIP(一部、株式会社Citadel AIのご協力を得ています)、バージョン2.0はNII大規模言語モデル研究開発センターが主体となって作成されました。
連絡先:ac_dataset (at) nii.ac.jp

免責事項

本データの制作者は、利用者が利用者自身又は第三者に与えた損害について、一切の責任を負わないものとする。また、本データのサービス提供の遅延、中断又は停止により利用者又は第三者が被った損害について、制作者は一切の責任を負わないものとする。制作者は、予告なしに、本データの運営を停止若しくは中止し、又は本データに掲載される情報の全部若しくは一部を変更する場合がある。