SIST ISO 24617-11:2021
(Main)Language resource management -- Semantic annotation framework (SemAF) - Part 11: Measurable Quantitative information (MQI)
Language resource management -- Semantic annotation framework (SemAF) - Part 11: Measurable Quantitative information (MQI)
This document covers the measurable or magnitudinal aspect of quantity so that it can focus on the technical or practical use of measurements in IR (information retrieval), QA (question answering), TS (text summarization), and other NLP (natural language processing) applications. It is applicable to the domains of technology that carry more applicational relevance than some theoretical issues found in the ordinary use of language.
NOTE ISO 24617-12 deals with more general and theoretical issues of quantification and quantitative information.
This document also treats temporal durations that are discussed in ISO 24617-1, and spatial measures such as distances that are treated ISO 24617-7, while making them interoperable with other measure types. It also accommodates the treatment of measures or amounts that are introduced in ISO 24617‑6:2016, 8.3.
Gestion des ressources linguistiques -- Cadre d'annotation sémantique - Partie 11: Mesurer l'information quantitative (MQI)
Le présent document porte sur l’aspect mesurable ou quantitatif de la grandeur, de sorte qu’il est possible de se concentrer sur l’utilisation technique ou pratique des mesures dans les applications IR (recherche d’informations), QA (réponse aux questions), TS (résumé de texte) et autres applications NLP (traitement du langage naturel). Il s’applique aux domaines technologiques qui présentent plus d’intérêt sur le plan de l’application que certains problèmes théoriques rencontrés dans l’utilisation ordinaire du langage.
NOTE L’ISO 24617-12 traite des questions plus générales et théoriques de la quantification et de l’information quantitative.
Le présent document traite également des durées temporelles qui sont abordées dans l’ISO 24617-1 et des mesures spatiales telles que les distances qui sont traitées dans l’ISO 24617-7, tout en les rendant interopérables avec d’autres types de mesures. Il intègre également le traitement des mesures ou des montants qui sont introduits dans l’ISO 24617-6:2016, 8.3.
Upravljanje jezikovnih virov - Ogrodje za semantično označevanje (SemAF) - 11. del: Merljive kvantitativne informacije (MQI)
General Information
Standards Content (Sample)
SLOVENSKI STANDARD
01-oktober-2021
Upravljanje jezikovnih virov - Ogrodje za semantično označevanje (SemAF) - 11.
del: Merljive kvantitativne informacije (MQI)
Language resource management -- Semantic annotation framework (SemAF) - Part 11:
Measurable Quantitative information (MQI)
Gestion des ressources linguistiques -- Cadre d'annotation sémantique - Partie 11:
Mesurer l'information quantitative (MQI)
Ta slovenski standard je istoveten z: ISO 24617-11:2021
ICS:
01.020 Terminologija (načela in Terminology (principles and
koordinacija) coordination)
01.140.20 Informacijske vede Information sciences
35.240.30 Uporabniške rešitve IT v IT applications in information,
informatiki, dokumentiranju in documentation and
založništvu publishing
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.
INTERNATIONAL ISO
STANDARD 24617-11
First edition
2021-08
Language resource management —
Semantic annotation framework
(SemAF) —
Part 11:
Measurable quantitative information
(MQI)
Gestion des ressources linguistiques — Cadre d'annotation
sémantique (SemAF) —
Partie 11: Informations quantitatives mesurables (MQI)
Reference number
©
ISO 2021
© ISO 2021
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting
on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address
below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2021 – All rights reserved
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Abstract specification of QML . 3
4.1 Overview . 3
4.2 Characteristics of QML . 4
4.3 Metamodel . 4
4.4 Abstract syntax of QML (QML_as) . 5
4.5 Concrete syntaxes of QML (QML_cs) and its subsets . 6
5 XML-based concrete syntax of QML (QML_csx) . 6
5.1 General . 6
5.2 Tag names with ID prefixes . 6
5.3 Attribute specification of the root . 7
5.4 Attribute specification of the basic element types . 7
5.5 Attribute specification of the link types . 8
5.6 Illustrations of QML_csx . 8
5.6.1 General. 8
5.6.2 Sample data . 8
5.6.3 Procedure of annotation . 9
6 TEI-based concrete syntax of QML (QML_cst) .11
6.1 Concrete syntaxes of QML (QML_cst) .11
6.1.1 Overall .11
6.1.2 Tag names with ID prefixes .11
6.1.3 Attribute specification of the basic element types .11
6.1.4 Attribute specification of the two link types .12
6.2 Illustrations of QML_cst .12
6.2.1 Overall .12
6.2.2 Sample data .12
6.2.3 Illustrations of TEI-based Concrete Syntax.13
Annex A (informative) Illustrations of QML_csx with more samples .16
Annex B (informative) Informal statements of MQI .19
Annex C (informative) The representation of units .20
Bibliography .21
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www .iso .org/ patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/
iso/ foreword .html.
This document was prepared by Technical Committee ISO/TC 37, Language and terminology,
Subcommittee SC 4, Language resource management.
A list of all parts in the ISO 24617 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO 2021 – All rights reserved
Introduction
Measurable quantitative information (MQI) such as ‘165 cm’ or ‘60 kg’ of ‘John’ that applies to the height
or weight of the person is very common in ordinary language. MQI describes one of basic properties
that is associated with the magnitude aspect of quantity. The main characteristics of MQI is that
quantitative information is presented as measures expressed in terms of a pair , consisting of
a numerically expressed quantity n and a unit u, which is either basic or derived, or either normalized
or conventionally used. Such information is much more abundant in scientific publications or technical
reports to the extent that it constitutes an essential part of communicative segments of language in
general. The processing of such information is thus required for any successful language resource
management.
In such a big data era, demands from industry and academic communities for a precise acquisition of
measurable quantitative information have increased. For example, business investment companies
frequently need to aggregate various sorts of information covering net sales, gross profit, operating
expenses, operating profit, interest expense, net profit before taxes, net income, etc., of the target
companies from their annual reports. The fast-growing medical informatics research also needs
to process a large amount of medical texts to analyze the dose of medicine, the eligibility criteria of
[8]
clinical trial, the phenotype characters of patients, the lab tests in clinical records, etc. . All these
demands either in industry or in medical research require the accurate and consistent representation
of measurable quantitative information for automated processing, computation, and exchange.
However, in the IR and NLP areas, there is no standardized way of representing measurable quantitative
information currently available. Each application system developed in industrial sectors has hitherto
used its own format to annotate measurable quantitative information. A flexible, interoperable and
standardized measurable quantitative information representation format for IR and NLP tasks to work
with many different application systems is called for.
This document aims at formulating a general annotation scheme with following the principles of
semantic annotation laid down in ISO 24617-6 in general and the basic requirements of ISO 24611,
that facilitates the processing of MQI in scientific and technical language and to make it interoperable
with other semantic annotation schemes, such as ISO 24617. The annotation scheme is designed to be
interoperable with other parts of ISO 24617. It also utilizes various ISO standards on lexical resources
and morpho-syntactic annotation frameworks. It aims at being compatible with other existing relevant
standards.
NOTE ISO 24617-1 and ISO 24617-7, for instance, have proposed a way of annotating measures on time
(durations or time amounts) and space (distances), respectively. ISO 24612 provides a pivotal form (graphic
annotation framework) that makes all the annotation of temporal or spatial measures in these two annotation
schemes.
QML is normalized at the abstract level that allows various serialization formats representing annotated
measurable quantitative information such as an XML-based representation. The normalization of QI
(quantitative information) annotation is stated at the abstract level of annotation, and the standoff
annotation format is adopted at the concrete level of serialization.
Focusing on meas
...
INTERNATIONAL ISO
STANDARD 24617-11
First edition
2021-08
Language resource management —
Semantic annotation framework
(SemAF) —
Part 11:
Measurable quantitative information
(MQI)
Gestion des ressources linguistiques — Cadre d'annotation
sémantique (SemAF) —
Partie 11: Informations quantitatives mesurables (MQI)
Reference number
©
ISO 2021
© ISO 2021
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting
on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address
below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2021 – All rights reserved
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Abstract specification of QML . 3
4.1 Overview . 3
4.2 Characteristics of QML . 4
4.3 Metamodel . 4
4.4 Abstract syntax of QML (QML_as) . 5
4.5 Concrete syntaxes of QML (QML_cs) and its subsets . 6
5 XML-based concrete syntax of QML (QML_csx) . 6
5.1 General . 6
5.2 Tag names with ID prefixes . 6
5.3 Attribute specification of the root . 7
5.4 Attribute specification of the basic element types . 7
5.5 Attribute specification of the link types . 8
5.6 Illustrations of QML_csx . 8
5.6.1 General. 8
5.6.2 Sample data . 8
5.6.3 Procedure of annotation . 9
6 TEI-based concrete syntax of QML (QML_cst) .11
6.1 Concrete syntaxes of QML (QML_cst) .11
6.1.1 Overall .11
6.1.2 Tag names with ID prefixes .11
6.1.3 Attribute specification of the basic element types .11
6.1.4 Attribute specification of the two link types .12
6.2 Illustrations of QML_cst .12
6.2.1 Overall .12
6.2.2 Sample data .12
6.2.3 Illustrations of TEI-based Concrete Syntax.13
Annex A (informative) Illustrations of QML_csx with more samples .16
Annex B (informative) Informal statements of MQI .19
Annex C (informative) The representation of units .20
Bibliography .21
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www .iso .org/ patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/
iso/ foreword .html.
This document was prepared by Technical Committee ISO/TC 37, Language and terminology,
Subcommittee SC 4, Language resource management.
A list of all parts in the ISO 24617 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO 2021 – All rights reserved
Introduction
Measurable quantitative information (MQI) such as ‘165 cm’ or ‘60 kg’ of ‘John’ that applies to the height
or weight of the person is very common in ordinary language. MQI describes one of basic properties
that is associated with the magnitude aspect of quantity. The main characteristics of MQI is that
quantitative information is presented as measures expressed in terms of a pair , consisting of
a numerically expressed quantity n and a unit u, which is either basic or derived, or either normalized
or conventionally used. Such information is much more abundant in scientific publications or technical
reports to the extent that it constitutes an essential part of communicative segments of language in
general. The processing of such information is thus required for any successful language resource
management.
In such a big data era, demands from industry and academic communities for a precise acquisition of
measurable quantitative information have increased. For example, business investment companies
frequently need to aggregate various sorts of information covering net sales, gross profit, operating
expenses, operating profit, interest expense, net profit before taxes, net income, etc., of the target
companies from their annual reports. The fast-growing medical informatics research also needs
to process a large amount of medical texts to analyze the dose of medicine, the eligibility criteria of
[8]
clinical trial, the phenotype characters of patients, the lab tests in clinical records, etc. . All these
demands either in industry or in medical research require the accurate and consistent representation
of measurable quantitative information for automated processing, computation, and exchange.
However, in the IR and NLP areas, there is no standardized way of representing measurable quantitative
information currently available. Each application system developed in industrial sectors has hitherto
used its own format to annotate measurable quantitative information. A flexible, interoperable and
standardized measurable quantitative information representation format for IR and NLP tasks to work
with many different application systems is called for.
This document aims at formulating a general annotation scheme with following the principles of
semantic annotation laid down in ISO 24617-6 in general and the basic requirements of ISO 24611,
that facilitates the processing of MQI in scientific and technical language and to make it interoperable
with other semantic annotation schemes, such as ISO 24617. The annotation scheme is designed to be
interoperable with other parts of ISO 24617. It also utilizes various ISO standards on lexical resources
and morpho-syntactic annotation frameworks. It aims at being compatible with other existing relevant
standards.
NOTE ISO 24617-1 and ISO 24617-7, for instance, have proposed a way of annotating measures on time
(durations or time amounts) and space (distances), respectively. ISO 24612 provides a pivotal form (graphic
annotation framework) that makes all the annotation of temporal or spatial measures in these two annotation
schemes.
QML is normalized at the abstract level that allows various serialization formats representing annotated
measurable quantitative information such as an XML-based representation. The normalization of QI
(quantitative information) annotation is stated at the abstract level of annotation, and the standoff
annotation format is adopted at the concrete level of serialization.
Focusing on measurements in scientifico-technological language, this document is expected to
[9]
contribute to information extraction (IR) , question answering (QA), text summarization (TS), and
[10]
other natural language processing (NLP) applications .
INTERNATIONAL STANDARD ISO 24617-11:2021(E)
Language resource management — Semantic annotation
framework (SemAF) —
Part 11:
Measurable quantitative information (MQI)
1 Scope
This document covers the measurable or magnitudinal aspect of quantity so that it can focus on the
technical or practical use of measurements in IR (information retrieval), QA (question answering), TS
(text summarization), and other NLP (natural language processing) applications. It is applicable to the
domains of technology that carry more applicational relevance than some theoretical issues found in
the ordinary use of language.
NOTE ISO 24617-12 deals with more general and theoretical issues of quantification and quantitative
information.
This document also treats temporal durations that are discussed in ISO 24617-1, and spatial
measures
...
INTERNATIONAL ISO
STANDARD 24617-11
First edition
2021-08
Language resource management —
Semantic annotation framework
(SemAF) —
Part 11:
Measurable quantitative information
(MQI)
Gestion des ressources linguistiques — Cadre d'annotation
sémantique (SemAF) —
Partie 11: Informations quantitatives mesurables (MQI)
Reference number
©
ISO 2021
© ISO 2021
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting
on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address
below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2021 – All rights reserved
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Abstract specification of QML . 3
4.1 Overview . 3
4.2 Characteristics of QML . 4
4.3 Metamodel . 4
4.4 Abstract syntax of QML (QML_as) . 5
4.5 Concrete syntaxes of QML (QML_cs) and its subsets . 6
5 XML-based concrete syntax of QML (QML_csx) . 6
5.1 General . 6
5.2 Tag names with ID prefixes . 6
5.3 Attribute specification of the root . 7
5.4 Attribute specification of the basic element types . 7
5.5 Attribute specification of the link types . 8
5.6 Illustrations of QML_csx . 8
5.6.1 General. 8
5.6.2 Sample data . 8
5.6.3 Procedure of annotation . 9
6 TEI-based concrete syntax of QML (QML_cst) .11
6.1 Concrete syntaxes of QML (QML_cst) .11
6.1.1 Overall .11
6.1.2 Tag names with ID prefixes .11
6.1.3 Attribute specification of the basic element types .11
6.1.4 Attribute specification of the two link types .12
6.2 Illustrations of QML_cst .12
6.2.1 Overall .12
6.2.2 Sample data .12
6.2.3 Illustrations of TEI-based Concrete Syntax.13
Annex A (informative) Illustrations of QML_csx with more samples .16
Annex B (informative) Informal statements of MQI .19
Annex C (informative) The representation of units .20
Bibliography .21
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www .iso .org/ patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/
iso/ foreword .html.
This document was prepared by Technical Committee ISO/TC 37, Language and terminology,
Subcommittee SC 4, Language resource management.
A list of all parts in the ISO 24617 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO 2021 – All rights reserved
Introduction
Measurable quantitative information (MQI) such as ‘165 cm’ or ‘60 kg’ of ‘John’ that applies to the height
or weight of the person is very common in ordinary language. MQI describes one of basic properties
that is associated with the magnitude aspect of quantity. The main characteristics of MQI is that
quantitative information is presented as measures expressed in terms of a pair , consisting of
a numerically expressed quantity n and a unit u, which is either basic or derived, or either normalized
or conventionally used. Such information is much more abundant in scientific publications or technical
reports to the extent that it constitutes an essential part of communicative segments of language in
general. The processing of such information is thus required for any successful language resource
management.
In such a big data era, demands from industry and academic communities for a precise acquisition of
measurable quantitative information have increased. For example, business investment companies
frequently need to aggregate various sorts of information covering net sales, gross profit, operating
expenses, operating profit, interest expense, net profit before taxes, net income, etc., of the target
companies from their annual reports. The fast-growing medical informatics research also needs
to process a large amount of medical texts to analyze the dose of medicine, the eligibility criteria of
[8]
clinical trial, the phenotype characters of patients, the lab tests in clinical records, etc. . All these
demands either in industry or in medical research require the accurate and consistent representation
of measurable quantitative information for automated processing, computation, and exchange.
However, in the IR and NLP areas, there is no standardized way of representing measurable quantitative
information currently available. Each application system developed in industrial sectors has hitherto
used its own format to annotate measurable quantitative information. A flexible, interoperable and
standardized measurable quantitative information representation format for IR and NLP tasks to work
with many different application systems is called for.
This document aims at formulating a general annotation scheme with following the principles of
semantic annotation laid down in ISO 24617-6 in general and the basic requirements of ISO 24611,
that facilitates the processing of MQI in scientific and technical language and to make it interoperable
with other semantic annotation schemes, such as ISO 24617. The annotation scheme is designed to be
interoperable with other parts of ISO 24617. It also utilizes various ISO standards on lexical resources
and morpho-syntactic annotation frameworks. It aims at being compatible with other existing relevant
standards.
NOTE ISO 24617-1 and ISO 24617-7, for instance, have proposed a way of annotating measures on time
(durations or time amounts) and space (distances), respectively. ISO 24612 provides a pivotal form (graphic
annotation framework) that makes all the annotation of temporal or spatial measures in these two annotation
schemes.
QML is normalized at the abstract level that allows various serialization formats representing annotated
measurable quantitative information such as an XML-based representation. The normalization of QI
(quantitative information) annotation is stated at the abstract level of annotation, and the standoff
annotation format is adopted at the concrete level of serialization.
Focusing on measurements in scientifico-technological language, this document is expected to
[9]
contribute to information extraction (IR) , question answering (QA), text summarization (TS), and
[10]
other natural language processing (NLP) applications .
INTERNATIONAL STANDARD ISO 24617-11:2021(E)
Language resource management — Semantic annotation
framework (SemAF) —
Part 11:
Measurable quantitative information (MQI)
1 Scope
This document covers the measurable or magnitudinal aspect of quantity so that it can focus on the
technical or practical use of measurements in IR (information retrieval), QA (question answering), TS
(text summarization), and other NLP (natural language processing) applications. It is applicable to the
domains of technology that carry more applicational relevance than some theoretical issues found in
the ordinary use of language.
NOTE ISO 24617-12 deals with more general and theoretical issues of quantification and quantitative
information.
This document also treats temporal durations that are discussed in ISO 24617-1, and spatial
measures
...
NORME ISO
INTERNATIONALE 24617-11
Première édition
2021-08
Gestion des ressources
linguistiques — Cadre d'annotation
sémantique (SemAF) —
Partie 11:
Informations quantitatives
mesurables (MQI)
Language resource management — Semantic annotation framework
(SemAF) —
Part 11: Measurable quantitative information (MQI)
Numéro de référence
©
ISO 2021
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2021
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii © ISO 2021 – Tous droits réservés
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Spécification abstraite de QML . 3
4.1 Vue d’ensemble . 3
4.2 Caractéristiques de QML . 4
4.3 Métamodèle . 4
4.4 Syntaxe abstraite de QML (QML_as) . 5
4.5 Syntaxes concrètes de QML (QML_cs) et de ses sous-ensembles . 6
5 Syntaxe concrète de QML basée sur XML (QML_csx) . 6
5.1 Généralités . 6
5.2 Noms de balises avec préfixes d’ID . 6
5.3 Spécification des attributs de la racine . 7
5.4 Spécification des attributs des types d’éléments de base . 7
5.5 Spécification des attributs des types de liens . 8
5.6 Illustrations de QML_csx . 8
5.6.1 Généralités . 8
5.6.2 Échantillons de données . 8
5.6.3 Procédure d’annotation . 9
6 Syntaxe concrète de QML basée sur la TEI (QML_cst) .11
6.1 Syntaxes concrètes de QML (QML_cst) .11
6.1.1 Généralités .11
6.1.2 Noms de balises avec préfixes d’ID .11
6.1.3 Spécification des attributs des types d’éléments de base .11
6.1.4 Spécification des attributs des deux types de liens .12
6.2 Illustrations de QML_cst .12
6.2.1 Généralités .12
6.2.2 Échantillons de données .13
6.2.3 Illustrations de la syntaxe concrète basée sur la TEI .13
Annexe A (informative) Illustrations de QML_csx avec davantage d’échantillons .16
Annexe B (informative) Énoncés informels de MQI .19
Annexe C (informative) Représentation des unités .20
Bibliographie .21
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l’ISO participent également aux travaux.
L’ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www
.iso .org/ directives).
L’attention est appelée sur le fait que certains des éléments du présent document peuvent faire l’objet de
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l’élaboration du document sont indiqués dans l’Introduction et/ou dans la liste des déclarations de
brevets reçues par l’ISO (voir www .iso .org/ brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion
de l’ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles
techniques au commerce (OTC), voir le lien suivant: www .iso .org/ iso/ fr/ avant -propos.
Le présent document a été élaboré par le comité ISO/TC 37, Langage et terminologie, sous-comité SC 4,
Gestion des ressources linguistiques.
Une liste de toutes les parties de la série ISO 24617 se trouve sur le site web de l’ISO.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes
se trouve à l’adresse www .iso .org/ fr/ members .html.
iv © ISO 2021 – Tous droits réservés
Introduction
Les informations quantitatives mesurables (MQI, Measurable Quantitative Information) telles que
«165 cm» ou «60 kg» de «John» qui s’appliquent à la taille ou au poids de la personne sont très courantes
dans le langage ordinaire. Les MQI décrivent l’une des propriétés de base qui est associée à l’aspect
quantitatif d’une grandeur. Les principales caractéristiques de la norme MQI sont que les informations
quantitatives sont présentées sous forme de mesures exprimées en termes de paire < n, u > , consistant
en une grandeur exprimée numériquement n et une unité u, qui est une unité de base ou une unité
dérivée, ou encore une unité normalisée ou utilisée par convention. Ces informations sont beaucoup
plus abondantes dans les publications scientifiques ou les rapports techniques au point qu’elles
constituent une part essentielle des segments communicatifs du langage en général. Le traitement de
ces informations est donc nécessaire pour une gestion réussie des ressources linguistiques.
À l’époque du «big data», les demandes de l’industrie et des milieux universitaires pour une
acquisition précise des informations quantitatives mesurables ont augmenté. Par exemple, les sociétés
d’investissement dans les entreprises ont fréquemment besoin d’agréger différents types d’informations
couvrant les ventes nettes, la marge brute, les frais d’exploitation, le bénéfice d’exploitation, les frais
d’intérêt, le bénéfice net avant impôts, le revenu net, etc. des sociétés cibles à partir de leurs rapports
annuels. La recherche en informatique médicale, en plein essor, a également besoin de traiter une
grande quantité de textes médicaux pour analyser la dose de médicament, les critères d’éligibilité des
essais cliniques, les caractères phénotypiques des patients, les essais en laboratoire dans les dossiers
[8]
cliniques, etc. . Toutes ces demandes, qu’elles soient liées à l’industrie ou à la recherche médicale,
exigent la représentation précise et cohérente des informations quantitatives mesurables afin de
permettre un traitement, un calcul et un échange automatisés.
Cependant, en IR et en PNL, il n’existe actuellement aucun moyen normalisé de représenter les
informations quantitatives mesurables. Chaque système d’application développé dans les secteurs
industriels utilise jusqu’à présent son propre format pour annoter les informations quantitatives
mesurables. Un format de représentation des informations quantitatives mesurables qui soit flexible,
interopérable et normalisé est nécessaire pour permettre aux tâches d’IR et de PNL de fonctionner avec
de nombreux systèmes d’application différents.
Le présent document vise à formuler un schéma d’annotation général en suivant les principes
d’annotation sémantique définis dans l’ISO 24617-6 en général et les exigences de base de l’ISO 24611, qui
facilite le traitement des MQI dans le langage scientifique et technique et afin de le rendre interopérable
avec d’autres schémas d’annotation sémantique, tels que l’ISO 24617. Le schéma d’annotation est conçu
pour être interopérable avec les autres parties de l’ISO 24617. Il s’appuie également sur diverses normes
ISO relatives aux ressources lexicales et aux cadres d’annotation morpho-syntaxique. Il vise à être
compatible avec les autres normes pertinentes existantes.
NOTE L’ISO 24617-1 et l’ISO 24617-7, par exemple, ont proposé un moyen d’annoter les mesures de temps
(durées ou quantités de temps) et d’espace (distances), respectivement. L’ISO 24612 fournit un formulaire pivot
(cadre d’annotation graphique) qui permet de réaliser toutes les annotations de mesures de temps et d’espace
dans ces deux schémas d’annotation.
Le QML est normalisé à un niveau abstrait qui permet divers formats de sérialisation représentant
les informations quantitatives mesurables annotées, tels qu’une représentation basée sur XML.
La normalisation de l’annotation QI (information quantitative) est indiquée au niveau abstrait de
l’annotation, et le format d’annotation déportée est adopté au niveau concret de la sérialisation.
Axé sur les mesures en langage scientifico-technologique, le présent document est censé contribuer aux
[9]
applications d’extraction d’information (IR) , de réponse aux questions (QA), de résumé de texte (TS)
[10]
et autres applications de traitement du langage naturel (NLP) .
...
NORME ISO
INTERNATIONALE 24617-11
Première édition
2021-08
Gestion des ressources
linguistiques — Cadre d'annotation
sémantique (SemAF) —
Partie 11:
Informations quantitatives
mesurables (MQI)
Language resource management — Semantic annotation framework
(SemAF) —
Part 11: Measurable quantitative information (MQI)
Numéro de référence
©
ISO 2021
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2021
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii © ISO 2021 – Tous droits réservés
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Spécification abstraite de QML . 3
4.1 Vue d’ensemble . 3
4.2 Caractéristiques de QML . 4
4.3 Métamodèle . 4
4.4 Syntaxe abstraite de QML (QML_as) . 5
4.5 Syntaxes concrètes de QML (QML_cs) et de ses sous-ensembles . 6
5 Syntaxe concrète de QML basée sur XML (QML_csx) . 6
5.1 Généralités . 6
5.2 Noms de balises avec préfixes d’ID . 6
5.3 Spécification des attributs de la racine . 7
5.4 Spécification des attributs des types d’éléments de base . 7
5.5 Spécification des attributs des types de liens . 8
5.6 Illustrations de QML_csx . 8
5.6.1 Généralités . 8
5.6.2 Échantillons de données . 8
5.6.3 Procédure d’annotation . 9
6 Syntaxe concrète de QML basée sur la TEI (QML_cst) .11
6.1 Syntaxes concrètes de QML (QML_cst) .11
6.1.1 Généralités .11
6.1.2 Noms de balises avec préfixes d’ID .11
6.1.3 Spécification des attributs des types d’éléments de base .11
6.1.4 Spécification des attributs des deux types de liens .12
6.2 Illustrations de QML_cst .12
6.2.1 Généralités .12
6.2.2 Échantillons de données .13
6.2.3 Illustrations de la syntaxe concrète basée sur la TEI .13
Annexe A (informative) Illustrations de QML_csx avec davantage d’échantillons .16
Annexe B (informative) Énoncés informels de MQI .19
Annexe C (informative) Représentation des unités .20
Bibliographie .21
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l’ISO participent également aux travaux.
L’ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www
.iso .org/ directives).
L’attention est appelée sur le fait que certains des éléments du présent document peuvent faire l’objet de
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l’élaboration du document sont indiqués dans l’Introduction et/ou dans la liste des déclarations de
brevets reçues par l’ISO (voir www .iso .org/ brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion
de l’ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles
techniques au commerce (OTC), voir le lien suivant: www .iso .org/ iso/ fr/ avant -propos.
Le présent document a été élaboré par le comité ISO/TC 37, Langage et terminologie, sous-comité SC 4,
Gestion des ressources linguistiques.
Une liste de toutes les parties de la série ISO 24617 se trouve sur le site web de l’ISO.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes
se trouve à l’adresse www .iso .org/ fr/ members .html.
iv © ISO 2021 – Tous droits réservés
Introduction
Les informations quantitatives mesurables (MQI, Measurable Quantitative Information) telles que
«165 cm» ou «60 kg» de «John» qui s’appliquent à la taille ou au poids de la personne sont très courantes
dans le langage ordinaire. Les MQI décrivent l’une des propriétés de base qui est associée à l’aspect
quantitatif d’une grandeur. Les principales caractéristiques de la norme MQI sont que les informations
quantitatives sont présentées sous forme de mesures exprimées en termes de paire < n, u > , consistant
en une grandeur exprimée numériquement n et une unité u, qui est une unité de base ou une unité
dérivée, ou encore une unité normalisée ou utilisée par convention. Ces informations sont beaucoup
plus abondantes dans les publications scientifiques ou les rapports techniques au point qu’elles
constituent une part essentielle des segments communicatifs du langage en général. Le traitement de
ces informations est donc nécessaire pour une gestion réussie des ressources linguistiques.
À l’époque du «big data», les demandes de l’industrie et des milieux universitaires pour une
acquisition précise des informations quantitatives mesurables ont augmenté. Par exemple, les sociétés
d’investissement dans les entreprises ont fréquemment besoin d’agréger différents types d’informations
couvrant les ventes nettes, la marge brute, les frais d’exploitation, le bénéfice d’exploitation, les frais
d’intérêt, le bénéfice net avant impôts, le revenu net, etc. des sociétés cibles à partir de leurs rapports
annuels. La recherche en informatique médicale, en plein essor, a également besoin de traiter une
grande quantité de textes médicaux pour analyser la dose de médicament, les critères d’éligibilité des
essais cliniques, les caractères phénotypiques des patients, les essais en laboratoire dans les dossiers
[8]
cliniques, etc. . Toutes ces demandes, qu’elles soient liées à l’industrie ou à la recherche médicale,
exigent la représentation précise et cohérente des informations quantitatives mesurables afin de
permettre un traitement, un calcul et un échange automatisés.
Cependant, en IR et en PNL, il n’existe actuellement aucun moyen normalisé de représenter les
informations quantitatives mesurables. Chaque système d’application développé dans les secteurs
industriels utilise jusqu’à présent son propre format pour annoter les informations quantitatives
mesurables. Un format de représentation des informations quantitatives mesurables qui soit flexible,
interopérable et normalisé est nécessaire pour permettre aux tâches d’IR et de PNL de fonctionner avec
de nombreux systèmes d’application différents.
Le présent document vise à formuler un schéma d’annotation général en suivant les principes
d’annotation sémantique définis dans l’ISO 24617-6 en général et les exigences de base de l’ISO 24611, qui
facilite le traitement des MQI dans le langage scientifique et technique et afin de le rendre interopérable
avec d’autres schémas d’annotation sémantique, tels que l’ISO 24617. Le schéma d’annotation est conçu
pour être interopérable avec les autres parties de l’ISO 24617. Il s’appuie également sur diverses normes
ISO relatives aux ressources lexicales et aux cadres d’annotation morpho-syntaxique. Il vise à être
compatible avec les autres normes pertinentes existantes.
NOTE L’ISO 24617-1 et l’ISO 24617-7, par exemple, ont proposé un moyen d’annoter les mesures de temps
(durées ou quantités de temps) et d’espace (distances), respectivement. L’ISO 24612 fournit un formulaire pivot
(cadre d’annotation graphique) qui permet de réaliser toutes les annotations de mesures de temps et d’espace
dans ces deux schémas d’annotation.
Le QML est normalisé à un niveau abstrait qui permet divers formats de sérialisation représentant
les informations quantitatives mesurables annotées, tels qu’une représentation basée sur XML.
La normalisation de l’annotation QI (information quantitative) est indiquée au niveau abstrait de
l’annotation, et le format d’annotation déportée est adopté au niveau concret de la sérialisation.
Axé sur les mesures en langage scientifico-technologique, le présent document est censé contribuer aux
[9]
applications d’extraction d’information (IR) , de réponse aux questions (QA), de résumé de texte (TS)
[10]
et autres applications de traitement du langage naturel (NLP) .
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.