Why are entities extracted from examples, and how can I avoid them #233

NaiveteYaYa · 2023-10-08T10:27:44Z

Why are entities extracted from examples, and how can I avoid them

eyurtsev · 2023-10-10T03:01:55Z

Hi @NaiveteYaYa, likely this is because the LLM is making a mistake.

Could you share an example of code you're using? I may be able to help you improve the results

ahmed-bhs · 2023-10-12T10:49:09Z

Facing same issue !

eyurtsev · 2023-10-12T15:06:34Z

@NaiveteYaYa / @ahmed-bhs please share a snippet of code. It's hard to know how to help without having context :) What code are you using and which LLM?

eyurtsev · 2023-10-12T19:22:33Z

Absent other information for other folks bumping into issues please refer to the guidelines: https://eyurtsev.github.io/kor/guidelines.html

ahmed-bhs · 2023-10-13T10:41:15Z

@eyurtsev thank you for your help, I really appreciate, SO the context, that I' mextracting chimichal inforamtion from a raw text. This is my prompt, you can test it using chatgpt:

Your goal is to extract structured information from the user's input that matches the form described below. When extracting information please make sure it matches the type information exactly. Do not add any attributes that do not appear in the schema shown below.

```TypeScript

information: { // Extracting chemichal informations for an fds file. Please filter and remove duplicate items.
 product_name: string // Nom du produit chimique
 manufacturer_name: string // Le nom du fornisseur
 phrase_euh: Array // 6-character code for additional information statements (EUH phrases). pattern: ^EUH\d{3}$'
 phrase_h: Array // Code à 4 caractères pour les mention de danger (phrases H). pattern: ^H\d{3}$
 phrase_ghs: Array // Code à 5 caractères pour les pictogrammes de danger (phrases GHS). pattern: ^GHS\d{3}$
 phrase_p: Array // Code à 4 caractères pour les conseils de prudence (phrases P). pattern: ^(P\d (\s*\ \s*P\d )*)$
 substances: Array<{ // les paires code CAS et code EC des substances. 
  ec: string // 
  cas: string // 
 }>
 warning_notice: string // Mention d’avertissement, par défaut NA. pattern: '/DANGER|ATTENTION|NA/
}

Please output the extracted information in JSON format. Do not output anything except for the extracted information. Do not add any clarifying information. Do not add any fields that are not in the schema. If the text contains attributes that do not appear in the schema, please ignore them. All output must be in JSON format and follow the schema specified above. Wrap the JSON in  tags.



Input: [user input]
Output:

This is the [user input] (it's in frensh language):
["RUBRIQUE 1 : IDENTIFICATION DE LA SUBSTANCE/DU MÉLANGE ET DE LA SOCIÉTÉ/L´ENTREPRISE\n1.1. Identificateur de produit\nNom du produit : TUV IDROTOP VELOURS\nCode du produit : 3t25729\n1.2. Utilisations identifiées pertinentes de la substance ou du mélange et utilisations déconseillées\nAPPLICATION DE PEINTURE : GRAND PUBLIC & PROFESSIONNEL\n1.3. Renseignements concernant le fournisseur de la fiche de données de sécurité\nRaison Sociale : CROMOLOGY SERVICES\nAdresse : 71, Boulevard du General Leclerc. 92583 CLICHY CEDEX FR\nTéléphone : 01 41 27 62 00. Fax: 01 41 27 62 01. Telex: .\n\n1.4. Numéro d´appel d´urgence : 33 (0)1 45 42 59 59.\nSociété/Organisme : INRS ORFILA .\nAutres numéros d'appel d'urgence\nCentres antipoison (24h/24) Belgique : 32 70 245 245 et Suisse : 41 44 251 51 51 (En Suisse composer le 145)\n", "RUBRIQUE 2 : IDENTIFICATION DES DANGERS\n2.1. Classification de la substance ou du mélange\nConformément au règlement (CE) n° 1272/2008 et ses adaptations.\nPeut produire une réaction allergique (EUH208).\nCe mélange ne présente pas de danger physique. Voir les préconisations concernant les autres produits présents dans le local.\nCe mélange ne présente pas de danger pour l'environnement. Aucune atteinte à l'environnement n'est connue ou prévisible dans les conditions\nnormales d'utilisation.\n2.2. Éléments d´étiquetage\nConformément au règlement (CE) n° 1272/2008 et ses adaptations.\nEtiquetage additionnel :\nEUH208 Contient 1,2-BENZISOTHIAZOL-3(2H)-ONE. Peut produire une réaction allergique.\nEUH208 Contient MASSE DE REACTION DE 5-CHLORO-2-METHYL-2H-ISOTHIAZOL-3-ONE ET DE\n2-METHYL-2H-ISOTHIAZOL-3-ONE (3:1). Peut produire une réaction allergique.\nEUH208 Contient 2-METHYLISOTHIAZOL-3(2H)-ONE. Peut produire une réaction allergique.\nEUH211 Attention! Des gouttelettes respirables dangereuses peuvent se former lors de la\npulvérisation. Ne pas respirer les aérosols ni les brouillards.\nConseils de prudence - Généraux :\nP102 Tenir hors de portée des enfants.\nConseils de prudence - Prévention :\nP271 Utiliser seulement en plein air ou dans un endroit bien ventilé.\nP273 Éviter le rejet dans l’environnement.\nConseils de prudence - Elimination :\nP501 Éliminer le contenu/récipient dans un centre de collecte des déchets dangereux ou spéciaux.\n2.3. Autres dangers\nLe mélange ne contient pas de 'Substances extrêmement préoccupantes' (SVHC)>= 0.1% publiées par l´Agence Européenne des Produits\nChimiques (ECHA) selon l´article 57 du REACH : \nLe mélange ne répond pas aux critères applicables aux mélanges PBT ou vPvB, conformément à l'annexe XIII du règlement REACH (CE) n°\n1907/2006.\n", "RUBRIQUE 3 : COMPOSITION/INFORMATIONS SUR LES COMPOSANTS\n3.2. Mélanges\nComposition :\nIdentification (CE) 1272/2008 Nota %\nINDEX: 022-006-00-2 GHS08 [1] 2.5 <= x % < 10\nCAS: 13463-67-7 Wng [10]\nEC: 236-675-5 Carc. 2, H351\nMade under licence of European Label System, Software of INFODYNE ( )\nQuick-FDS [19302-39771-06888-011245] - 2020-11-04 - 11:02:52TUV IDROTOP VELOURS - 3t25729\nDIOXYDE DE TITANE [SOUS LA\nFORME D'UNE POUDRE CONTENANT 1\n% OU PLUS DE PARTICULES D'UN\nDIAMETRE <= 10 µM]\nINDEX: 613-088-00-6 GHS05, GHS07, GHS09 0 <= x % < 0.05\nCAS: 2634-33-5 Dgr\nEC: 220-120-9 Acute Tox. 4, H302\nSkin Irrit. 2, H315\n1,2-BENZISOTHIAZOL-3(2H)-ONE Eye Dam. 1, H318\nSkin Sens. 1, H317\nAquatic Acute 1, H400\nM Acute = 1\nINDEX: 613-167-00-5 GHS06, GHS05, GHS09 B 0 <= x % < 0.0015\nCAS: 55965-84-9 Dgr\nAcute Tox. 3, H301\nMASSE DE REACTION DE Acute Tox. 2, H310\n5-CHLORO-2-METHYL-2H-ISOTHIAZOL Skin Corr. 1C, H314\n-3-ONE ET DE Skin Sens. 1A, H317\n2-METHYL-2H-ISOTHIAZOL-3-ONE Eye Dam. 1, H318\n(3:1) Acute Tox. 2, H330\nAquatic Acute 1, H400\nM Acute = 100\nAquatic Chronic 1, H410\nM Chronic = 100\nEUH:071\nINDEX: 613-326-00-9 GHS06, GHS05, GHS09 0 <= x % < 0.1\nCAS: 2682-20-4 Dgr\nEC: 220-239-6 Acute Tox. 3, H301\nAcute Tox. 3, H311\n2-METHYLISOTHIAZOL-3(2H)-ONE Skin Corr. 1B, H314\nSkin Sens. 1A, H317\nEye Dam. 1, H318\nAcute Tox. 2, H330\nAquatic Acute 1, H400\nM Acute = 10\nAquatic Chronic 1, H410\nM Chronic = 1\nEUH:071\n(Texte complet des phrases H: voir la section 16)\nInformations sur les composants :\n[1] Substance pour laquelle il existe des valeurs limites d'exposition sur le lieu de travail.\nNote 10 : La classification en tant que cancérogène par inhalation s´applique uniquement aux mélanges sous forme de poudre contenant 1 % ou\nplus de dioxyde de titane qui se présente sous la forme de particules ou qui est incorporé dans des particules ayant un diamètre aérodynamique\n<= 10 µm.\n"]

This is the output result, as you see "phrase_ghs" contain duplicated items:

{
  "information": {
    "product_name": "TUV IDROTOP VELOURS",
    "manufacturer_name": "CROMOLOGY SERVICES",
    "phrase_euh": [
      "EUH208",
      "EUH208",
      "EUH208",
      "EUH211"
    ],
    "phrase_h": [],
    "phrase_ghs": [
      "GHS08",
      "GHS05",
      "GHS07",
      "GHS09",
      "GHS05",
      "GHS09",
      "GHS06",
      "GHS05",
      "GHS09",
      "GHS06",
      "GHS05",
      "GHS09"
    ],
    "phrase_p": [
      "P102",
      "P271",
      "P273",
      "P501"
    ],
    "substances": [
      {
        "ec": "236-675-5",
        "cas": "13463-67-7"
      },
      {
        "ec": "220-120-9",
        "cas": "2634-33-5"
      },
      {
        "ec": "220-239-6",
        "cas": "2682-20-4"
      }
    ],
    "warning_notice": "NA"
  }
}

This a par of my code:

    schema = Object(
        id="information",
        description=(
            "Extracting chemichal informations for an fds file. Please filter and remove duplicate items."
        ),
        attributes=[
            Text(
                id="product_name",
                description="Nom du produit chimique",
                                default="NA"
            ),
            Text(
                id="manufacturer_name",
                description="Le nom du fornisseur",
                default="NA"
            ),


            Text(
                id="phrase_euh",
                description="6-character code for additional information statements (EUH phrases). pattern: ^EUH\d{3}$'",
                examples=[
                ],
                default=[],
                many=True,
            ),
            Text(
                id="phrase_h",
                description="Code à 4 caractères pour les mention de danger (phrases H). pattern: ^H\d{3}$",
                examples=[],
                default=[],
                many=True,
            ),
            Text(
                id="phrase_ghs",
                description="Code à 5 caractères pour les pictogrammes de danger (phrases GHS). pattern: ^GHS\d{3}$",
                examples=[],
                default=[],
                many=True,
            ),
            Text(
                id="phrase_p",
                description="Code à 4 caractères pour les conseils de prudence (phrases P). pattern: ^(P\d (\s*\ \s*P\d )*)$",
                examples=[],
                default=[],
                many=True,
            ),
            Object(
                id="substances",
                description="les paires code CAS et code EC des substances. ",
                attributes=[
                    Text(id="ec"),
                    Text(id="cas"),
                ],
                default=[],
                many=True
                ),
                Text(
                    id="warning_notice",
                    description="Mention d’avertissement, par défaut NA. pattern: '/DANGER|ATTENTION|NA/",
                ),

        ],
        many=False,
    )

    prompt = ChatPromptTemplate.from_messages(
        [
            ("system", "You are a language detection bot specialized in extracting information from FDS text."),

        ]
    )
    llm = ChatOpenAI(model="gpt-3.5-turbo-16k", temperature=0.2, model_kwargs = {
                                                                       'frequency_penalty':0,
                                                                       'presence_penalty':0,
                                                                       'top_p':0.1
                                                                   })
    chain = create_extraction_chain(llm, schema, encoder_or_encoder_class='json', verbose=False)
    with get_openai_callback() as cb:
        response = chain.run(user_input_text))
        print(response)

Cheers!

eyurtsev · 2023-10-13T14:56:38Z

@ahmed-bhs

Follow the guidelines here: https://eyurtsev.github.io/kor/guidelines.html

Add examples -- the prompt has no examples (using the examples attribute) -- these can significantly improve performance.
Benchmark with a better model (gpt-4)
reduce the temperature to 0 (don't add noise to the extraction with temperature = 0.2).

Also if the codes have a standardized format, consider mixing in approaches with regular expressions.

Eugene

ahmed-bhs · 2024-05-05T19:49:41Z

@eyurtsev thank you for your answer, could you give an example about how i can mix approaches with regular expressions ?

Sachin-Bhat · 2024-07-20T02:51:37Z

You could experiment by adding more guardrails as well to avoid the duplication issue.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Why are entities extracted from examples, and how can I avoid them #233

Why are entities extracted from examples, and how can I avoid them #233

NaiveteYaYa commented Oct 8, 2023

eyurtsev commented Oct 10, 2023

ahmed-bhs commented Oct 12, 2023

eyurtsev commented Oct 12, 2023

eyurtsev commented Oct 12, 2023

ahmed-bhs commented Oct 13, 2023

eyurtsev commented Oct 13, 2023

ahmed-bhs commented May 5, 2024

Sachin-Bhat commented Jul 20, 2024

Why are entities extracted from examples, and how can I avoid them #233

Why are entities extracted from examples, and how can I avoid them #233

Comments

NaiveteYaYa commented Oct 8, 2023

eyurtsev commented Oct 10, 2023

ahmed-bhs commented Oct 12, 2023

eyurtsev commented Oct 12, 2023

eyurtsev commented Oct 12, 2023

ahmed-bhs commented Oct 13, 2023

eyurtsev commented Oct 13, 2023

ahmed-bhs commented May 5, 2024

Sachin-Bhat commented Jul 20, 2024