ISO/IEC 5259-2:2024
(Main)Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 2: Data quality measures
Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 2: Data quality measures
This document specifies a data quality model, data quality measures and guidance on reporting data quality in the context of analytics and machine learning (ML). This document is applicable to all types of organizations who want to achieve their data quality objectives.
Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage automatique (AA) — Partie 2: Mesures de la qualité des données
Le présent document spécifie un modèle de qualité des données, des mesures de la qualité des données et des recommandations concernant l’établissement de rapports sur la qualité des données dans le contexte de l’analyse de données et de l’apprentissage automatique (AA). Le présent document s’applique à tous les types d’organismes qui souhaitent atteindre leurs objectifs de qualité des données.
General Information
Standards Content (Sample)
International
Standard
ISO/IEC 5259-2
First edition
Artificial intelligence — Data
2024-11
quality for analytics and machine
learning (ML) —
Part 2:
Data quality measures
Intelligence artificielle — Qualité des données pour les analyses
de données et l’apprentissage automatique —
Partie 2: Mesure de la qualité des données
Reference number
© ISO/IEC 2024
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
© ISO/IEC 2024 – All rights reserved
ii
Contents Page
Foreword .v
Introduction .vi
1 Scope .1
2 Normative references .1
3 Terms and definitions .1
4 Symbols and abbreviated terms. 5
5 Data quality components and data quality models for analytics and machine learning . 5
5.1 Data quality components in data life cycle .5
5.2 Data quality model .6
6 Data quality characteristics and quality measures .8
6.1 General .8
6.2 Inherent data quality characteristics .9
6.2.1 Accuracy .9
6.2.2 Completeness .10
6.2.3 Consistency . 12
6.2.4 Credibility . 13
6.2.5 Currentness .14
6.3 Inherent and system-dependent data quality characteristics . 15
6.3.1 Accessibility . 15
6.3.2 Compliance . 15
6.3.3 Efficiency .16
6.3.4 Precision .16
6.3.5 Traceability .17
6.3.6 Understandability .17
6.4 System-dependent data quality characteristics .18
6.4.1 Availability .18
6.4.2 Portability .18
6.4.3 Recoverability .19
6.5 Additional data quality characteristics .19
6.5.1 Auditability.19
6.5.2 Balance . 20
6.5.3 Diversity . . 22
6.5.4 Effectiveness . 23
6.5.5 Identifiability .24
6.5.6 Relevance . 25
6.5.7 Representativeness . 25
6.5.8 Similarity . . . 26
6.5.9 Timeliness .27
7 Implementing a data quality model and data quality measures for an analytics or ML
task .28
8 Data quality reporting .28
8.1 Data quality reporting framework . 28
8.2 Data quality measure information . 29
8.3 Guidance to organizations . 29
Annex A (informative) Design and document of a measurement function .30
Annex B (informative) UML model of data quality measure framework .32
Annex C (informative) Overview of data quality characteristics .33
Annex D (informative) Alternative groups of data quality characteristics .35
© ISO/IEC 2024 – All rights reserved
iii
Annex E (informative) Comparison between data quality characteristics of ISO/IEC 25012 and
ISO/IEC 5259-2 .36
Bibliography .37
© ISO/IEC 2024 – All rights reserved
iv
Foreword
ISO (the International Organization for Standardization) and IEC (the International Electrotechnical
Commission) form the specialized system for worldwide standardization. National bodies that are
members of ISO or IEC participate in the development of International Standards through technical
committees established by the respective organization to deal with particular fields of technical activity.
ISO and IEC technical committees collaborate in fields of mutual interest. Other international organizations,
governmental and non-governmental, in liaison with ISO and IEC, also take part in the work.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types
of document should be noted. This document was drafted in accordance with the editorial rules of the ISO/
IEC Directives, Part 2 (see www.iso.org/directives or www.iec.ch/members_experts/refdocs).
ISO and IEC draw attention to the possibility that the implementation of this document may involve the
use of (a) patent(s). ISO and IEC take no position concerning the evidence, validity or applicability of any
claimed patent rights in respect thereof. As of the date of publication of this document, ISO and IEC had not
received notice of (a) patent(s) which may be required to implement this document. However, implementers
are cautioned that this may not represent the latest information, which may be obtained from the patent
database available at www.iso.org/patents and https://patents.iec.ch. ISO and IEC shall not be held
responsible for identifying any or all such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions
related to conformity assessment, as well as information about ISO's adherence to the World Trade
Organization (WTO) principles in the Technical Barriers to Trade (TBT) see www.iso.org/iso/foreword.html.
In the IEC, see www.iec.ch/understanding-standards.
This document was prepared by Joint Technical Committee ISO/IEC JTC 1, Information technology,
Subcommittee SC 42, Artificial Intelligence.
A list of all parts in the ISO/IEC 5259 series can be found on the ISO and IEC websites.
Any feedback or questions on this document should be directed to the user’s national standards
body. A complete listing of these bodies can be found at www.iso.org/members.html and
www.iec.ch/national-committees.
© ISO/IEC 2024 – All rights reserved
v
Introduction
Data-supported decision-making brings new challenges to data quality management in data analytics and
artificial intelligence (AI) based on machine learning (ML). Issues in data quality, such as incomplete, false
or outdated data, can adversely affect analytics and ML processes and outcomes. Data from various sources,
including structured data (e.g. relational databases) and unstructured data (e.g. documents, images,
audios), can be directly consumed into the data life cycle for analytics and ML model development. Data
are transformed in each stage of the data life cycle of analytics and ML. A holistic standardized approach to
control, produce and deliver sufficient high-quality data is necessary for data analytics and ML models to be
safe, reliable and interoperable. To develop credible data quality management for analytics and ML, intrinsic
data quality International Standards, including concepts and use cases, characteristics and measurements,
management requirements, and process framework, can be considered.
This document is a part of the ISO/IEC 5259 series. This document builds upon the ISO 8000 series,
ISO/IEC 25012 and ISO/IEC 25024. The purpose of this document is to describe a data quality model through
the definition of data quality characteristics and data quality measures based on ISO/IEC 25012 and
ISO/IEC 25024. Data quality models can be extended or modified according to this document.
© ISO/IEC 2024 – All rights reserved
vi
International Standard ISO/IEC 5259-2:2024(en)
Artificial intelligence — Data quality for analytics and
machine learning (ML) —
Part 2:
Data quality measures
1 Scope
This document specifies a data quality model, data quality measures and guidance on reporting data quality
in the context of analytics and machine learning (ML).
This document is applicable to all types of organizations who want to achieve their data quality objectives.
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content constitutes
requirements of this document. For dated references, only the edition cited applies. For undated references,
the latest edition of the referenced document (including any amendments) applies.
ISO/IEC 5259-1, Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 1:
Overview, terminology, and examples
ISO/IEC 25024, Systems and software engineering — Systems and software Quality Requirements and
Evaluation (SQuaRE) — Measurement of data quality
ISO/IEC 22989, Information technology — Artificial intelligence — Artificial intelligence concepts and
terminology
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO/IEC 5259-1, ISO/IEC 22989 and
the following apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
data
re-interpretable representation of information in a formalized manner suitable for communication,
interpretation, or processing
Note 1 to entry: Data can be processed by humans or by automatic means.
[SOURCE: ISO/IEC 2382:2015, 2121272]
© ISO/IEC 2024 – All rights reserved
3.2
data frame
set of data records represented by a specific domain or purpose, with a shared structure of data items
Note 1 to entry: A data frame is two-dimensional, like a table with rows and columns. The term is specifically used in
analytics and ML, e.g. in the R language, while other languages use “data set” to mean the same thing. In this document,
“dataset” has a more generic meaning.
3.3
data type
categorization of an abstract set of possible values, characteristics, and set of operations for an attribute
Note 1 to entry: Examples of data types are character strings, texts, dates, numbers, images and sounds.
[SOURCE: ISO/IEC 25024:2015, 4.16]
3.4
data value
content of data item
Note 1 to entry: In ISO/IEC 25012:2008, 5.1.1, it is specified that from the inherent point of view, data quality refers to
data itself such as data domain values and possible restrictions.
Note 2 to entry: Number or category assigned to an attribute of a target entity by making a measurement.
[SOURCE: ISO/IEC 25024:2015, 4.17]
3.5
empty data item
data item whose data value (3.4) has no value, i.e. Null or None
Note 1 to entry: This definition in general signifies non-existence of a data value (i.e. Null or None). A data item with
string data type can be an empty data item by using either the empty string or Null. However, there is an exception for
some application a string can be empty (e.g. “”) but not Null and hence not imply an empty data item.
3.6
entity
concrete or abstract thing in the domain under consideration
[SOURCE: ISO 8000-2:2022, 3.3.3]
3.7
raw data
data in its originally acquired, direct form from its source before subsequent processing
[SOURCE: ISO 5127:2017, 3.1.10.04]
3.8
target data
data (3.1) used in an analytics or ML task whose quality is measured
3.9
target population
population of interest in the analytics or ML project to which inferences are to be made
3.10
data quality subject
entity (3.6) affected by data quality
© ISO/IEC 2024 – All rights reserved
3.11
quality measure element
measure defined in terms of a property and the measurement method for quantifying it, including optionally
the transformation by a mathematical function
[SOURCE: ISO/IEC 25024:2015, 4.32]
3.12
quantity
property of a phenomenon, body, or substance, where the property has a magnitude that can be expressed
as a number and a reference
[SOURCE: ISO/IEC Guide 99:2007, 1.1, modified — Notes to entry deleted.]
3.13
quantity value
number and reference together expressing magnitude of a quantity (3.12)
[SOURCE: ISO/IEC Guide 99:2007, 1.9, modified — Examples deleted.]
3.14
measurement function
algorithm or calculation performed to combine one or more quality measure elements (3.11)
[SOURCE: ISO/IEC 25021:2012, 4.7, modified — Definition revised.]
3.15
measurement result
result of measurement
set of quantity values (3.13) being attributed to a measurand together with any other available relevant
information
[SOURCE: ISO/IEC Guide 99:2007, 2.9, modified — Notes to entry deleted.]
3.16
measure
variable to which a value is assigned as the result of measurement
Note 1 to entry: The plural form “measures” is used to refer collectively to base measures, derived measures and
indicators.
[SOURCE: ISO/IEC/IEEE 15939:2017, 3.15]
3.17
measure
make a measurement
[SOURCE: ISO/IEC 25000:2014, 4.19]
3.18
bounding box
rectangular region enclosing annotated object
Note 1 to entry: The major and minor axes of the rectangle are parallel to the edges of the images. For rotated boxes,
the polygon annotation is to be used.
[SOURCE: ISO/IEC 30137-4:2021, 3.3]
3.19
cluster
automatically induced category of elements that are part of the dataset and that share common attributes
Note 1 to entry: Clusters do not necessarily have a name.
© ISO/IEC 2024 – All rights reserved
[SOURCE: ISO/IEC 23053:2022, 3.3.2]
3.20
clustering algorithm
algorithm which groups clusters (3.19) from input data
Note 1 to entry: Examples of clustering algorithms include centroid-based clustering, density-based clustering,
distribution-based clustering, hierarchical clustering and graph-based clustering.
3.21
overfitting
creating a model which fits the training data too precisely and fails to generalize on
new data
Note 1 to entry: Overfitting can occur because the trained model has learned from non-essential features in the
training data (i.e. features that do not generalize to useful outputs), excessive noise in the training data (e.g. excessive
number of outliers), a significant mismatch between training data and production data distributions or because the
model is too complex for the training data.
Note 2 to entry: Overfitting can be identified when there is a significant difference between errors measured on
training data and on separate test and validation data. The performance of overfitted models is especially impacted
when there is a significant mismatch between training data and production data.
[SOURCE: ISO/IEC 23053:2022, 3.1.4]
3.22
fidelity
degree to which a model or simulation reproduces the state and behaviour of a real-world object or the
perception of a real-world object, feature, condition, or chosen standard in a measurable or perceivable manner
[SOURCE: ISO 16781:2021, 3.1.4]
3.23
maintainability
ability of a functional unit, under given conditions of use, to be retained in, or restored to, a state in which it
can perform a required function when maintenance is performed under given conditions and using stated
procedures and resources
Note 1 to entry: The term used in IEV 191-02-07 is “maintainability performance” and the definition is the same.
Note 2 to entry: maintainability: term and definition standardized by ISO/IEC [ISO/IEC 2382-14:1997].
Note 3 to entry: 14.01.06 (2382)
[SOURCE: ISO/IEC 2382:2015, 2123027]
3.24
reliability
consistency with which an assessment measures
EXAMPLE An assessment will have low reliability if two assessment forms are of unequal difficulty or coverage
or if there are errors in the scoring procedures or in the reporting of scores.
[SOURCE: ISO/IEC 23988:2007, 3.21]
3.25
validity
extent to which an assessment achieves its aim by measuring what it is supposed to measure and producing
results which can be used for their intended purpose
Note 1 to entry: An assessment has low validity if the results are unduly influenced by skills which are irrelevant to
the stated aims of the assessment.
[SOURCE: ISO/IEC 23988:2007, 3.25]
© ISO/IEC 2024 – All rights reserved
4 Symbols and abbreviated terms
AI artificial intelligence
CSV comma separated values
HDF hierarchical data format
JSON JavaScript object notation
ML machine learning
IP internet protocol
PII personally identifiable information
QM quality measure
UML unified modelling language
5 Data quality components and data quality models for analytics and machine
learning
5.1 Data quality components in data life cycle
Figure 1 shows data quality components aligned with the data life cycle model shown in ISO/IEC 5259-1:2024,
Figure 3, which can support data quality management processes. ISO/IEC 5259-1 defines a data quality
model as a defined set of data quality characteristics. The data quality characteristic provides a framework
for data quality requirements, implementation and evaluation methods. Data quality measures are variables
assigned to which values are the results of measurements of data quality characteristics. Data quality
measures are used to assess whether the data meet data quality requirements. Data quality measures can
also be used to monitor and report data quality.
Target data are the data subject to data quality measurements. Target data can be raw data or data that has
undergone one or more processes or transformations. Target data for measuring quality can be training,
testing, validation, production and output data in the context of the use of analysis and ML (as described
[1]
in ISO/IEC 23053). Target data can be formed as either data items or datasets. A data item consists of an
item name, data value and data type representing a domain of values (e.g. character strings, texts, dates,
numbers, images, sounds). A dataset can be classified into three forms:
— a collection of data items;
— a collection of data records;
— a collection of data frames.
The target data can be unlabelled or labelled depending on the association with data labels in the use of
analytics or ML task.
NOTE This document makes no distinction between data structures, such as structured data, semi-structured
data and unstructured data, or data roles, such as master data, transaction data and reference data.
Data quality reports are documents that express data quality requirements, the data quality model of data
quality characteristics, data quality measures, the results of data quality measurements and an assessment
of whether the data meet data quality requirements.
© ISO/IEC 2024 – All rights reserved
Key
Stage where data are processed
Data quality component
Primary development pathway
Dependency
Feedback pathway
Figure 1 — Data quality components in data life cycle for analytics and ML
5.2 Data quality model
The data quality model provides a framework for specifying data quality requirements and evaluating data
quality. In practice, a data quality model brings together data quality subjects, data quality characteristics
and data quality requirements, for the context of the use of the data. The organization can specify data
quality models by selecting data quality characteristics and measures to achieve target quality requirements
for target data. Figure 2 provides a UML diagram of the relationships between the components of the data
quality model.
A data usage scope describes how and where the data can be used in an analytics or ML task and how it fits
into an AI system.
EXAMPLE The data can be used to train a deep neural network ML model to predict product sales based on the
features of a marketing strategy. The model can be trained and deployed using cloud services.
A data quality subject represents an entity affected by data quality. A data quality characteristic is a category
of data quality attributes that bear on data quality (e.g. accuracy, completeness, precision). A data quality
requirement describes properties or attributes of the data along with acceptance criteria relative to the data
usage scope. Acceptance criteria can be quantitative or qualitative.
© ISO/IEC 2024 – All rights reserved
Figure 2 — Data quality model
When one quality characteristic affects another, trade-offs can be made by evaluating each requirement
regarding importance and impact. In addition, it is crucial to balance the cost of data quality management
with the priority of data quality requirements in determining how data quality characteristics and measures
are incorporated into the data quality model. The organization can select the data quality characteristics
and measures that correspond to their needs and requirements. Data quality should be assessed by
comparing the results of selected data quality measures against established targets as established by data
[2]
requirements. Any failures to achieve data quality requirements should be mitigated. ISO/IEC 5259-3
describes the requirements and recommendations of a data quality management system to be applied by the
organization.
[3] [4]
ISO 8000-8 and ISO/IEC 25012 describe data quality models. ISO 8000-8 defines three data quality
characteristics as being syntactic (format), semantic (meaning), and pragmatic (usefulness) to support
industrial data generally as a product of business and manufacturing processes. ISO/IEC 25012 defines a
general data quality model for data retained in a structured format within a computer system as a part
of a software product. ISO/IEC 25012 takes into account all data types (e.g. characters, strings, texts,
dates, numbers, images, sounds). ISO/IEC 25012 provides fifteen data quality characteristics: accuracy,
completeness, consistency, credibility, currentness, accessibility, compliance, confidentiality, efficiency,
precision, traceability, understandability, availability, portability and recoverability.
[5]
The ISO 8000 series addresses various aspects of data quality such as data governance, data quality
[6]
management (including processing) and maturity assessment. The ISO/IEC 25000 series addresses
product (software, systems, data, services) quality requirements and evaluation. This document describes
how the data quality characteristics of ISO/IEC 25012 can be applied to a data quality model for analytics
and ML. Furthermore, this document defines additional characteristics that can contribute to higher-quality
ML models and applications, as shown in Figure 3. Organizations should use the data quality characteristics
and data quality measures described in this document whenever possible. However, the data quality
characteristics in this document cannot comprehensively cover aspects that support all organizations’
needs regarding data quality. Organizations may design their own data quality model by extending the data
quality characteristics and data quality measures to fit their data requirements.
NOTE 1 See Annex A for information on designing and documenting measurement functions.
NOTE 2 See Annex E for a comparison between the data quality characteristics in ISO/IEC 25012 and those in this
document.
© ISO/IEC 2024 – All rights reserved
Figure 3 — Data quality characteristics for analytics and ML
6 Data quality characteristics and quality measures
6.1 General
Data quality characteristics and measures are used to specify and verify data quality requirements for
identified attributes for target data. Each data quality characteristic is associated with one or more data
quality measures for quantification. A data quality measure is a variable to which a value is assigned as the
result of a measurement function. The data quality measures in this document are selected based on the
context of use of analytics and ML.
NOTE 1 Annex B shows a framework for providing common vocabularies and relationships between the components
of data quality measures.
NOTE 2 Annex C and Annex D show how quality measures are grouped from different perspectives.
In the context of analytics and ML, the overall quality of a training dataset, a validation dataset or a test
dataset can be just as important as the quality of the individual data values in the dataset. Even though every
data value in a dataset is accurate, a dataset that does not correctly reflect the underlying distribution of
data can cause an incorrect analysis result or the creation of an ML model that does not meet requirements.
The organization should document the target data for each data quality measure.
NOTE 3 Characteristics for statistical measures (e.g. accessibility by authorized users, accuracy, consistency,
[7]
currentness, understandability, relevance, timeliness) as defined by institutions such as the United Nations
Statistics Division (UNSD) and European Statistics (EUROSTAT) can also be used to assess whether the quality of a
dataset meets requirements.
The data quality measures and measurement functions in this document should be used when appropriate.
Refer to Annex A in cases where the user of this document needs to create a new, bespoke data quality
measure and data quality measurement function. Any quality measure, when using modified or newly
defined, shall select data quality characteristics defined in this document and shall provide the rationale for
changes in accordance with ISO/IEC 25024:2015, Clause 2.
© ISO/IEC 2024 – All rights reserved
6.2 Inherent data quality characteristics
6.2.1 Accuracy
6.2.1.1 General
Accuracy of a dataset is the degree to which data items in the data set have the correct data values or correct
data labels. ISO/IEC 25012 describes accuracy as the degree to which data values have attributes that
correctly represent the true value of the intended attributes. ISO/IEC 25012 further describes accuracy in
terms of:
— syntactic accuracy which considers the closeness of the data values to a set of syntactically correct data
values in a relevant domain;
— semantic accuracy which considers the closeness of the data values to a set of semantically correct data
values in a relevant domain.
A data item is syntactically correct if its data value is the same type as its explicit data type and semantically
correct if its data value has an expected value corresponding to the ML task. ML models are mathematical
constructs, which means that low syntactic or semantic accuracy of the data values in training, validation,
testing or production datasets can cause the model itself to be incorrect or the inferences made by the model
to be incorrect.
For a supervised learning classification system, the correctness of the label sequence contents can affect
the inference accuracy of a trained model. Factors that should be considered for measuring the accuracy of
labelling include:
— correctness of label values;
— correctness of labelled tags;
— correctness of label sequence contents.
EXAMPLE 1
If the phrase “lazy dog” is entered as “lzy dg” an ML-based natural language understanding system can fail to correctly
interpret the phrase.
EXAMPLE 2
If the number 100 is entered as 1000 in training data, a regression model can fail to correctly calculate the weight of
the related feature and if the entry was made in the production data, inferences can be incorrect.
6.2.1.2 QMs for accuracy
Table 1 provides data quality measures for accuracy in a specific context of use of analytics and ML.
© ISO/IEC 2024 – All rights reserved
Table 1 — Accuracy measures
ID Name Description Measurement function
Acc-ML-1 Syntactic data See ISO/IEC 25024:2015, Table 1 See ISO/IEC 25024:2015, Table 1
accuracy
Acc-ML-2 Semantic data See ISO/IEC 25024:2015, Table 1 See ISO/IEC 25024:2015, Table 1
accuracy
Acc-ML-3 Data accuracy See ISO/IEC 25024:2015, Table 1 See ISO/IEC 25024:2015, Table 1
assurance
Acc-ML-4 Risk of dataset See ISO/IEC 25024:2015, Table 1 See ISO/IEC 25024:2015, Table 1
inaccuracy
Acc-ML-5 Data model accu- See ISO/IEC 25024:2015, Table 1 See ISO/IEC 25024:2015, Table 1
racy
Acc-ML-6 Data accuracy See ISO/IEC 25024:2015, Table 1 See ISO/IEC 25024:2015, Table 1
range
Acc-ML-7 Data label accuracy Does data label correctly assign to
A
each element in the dataset?
B
where
A is the number of data labels that pro-
vide the appropriate required informa-
tion;
B is the number of data labels defined in
the dataset.
6.2.2 Completeness
6.2.2.1 General
ISO/IEC 25012 describes completeness in terms of data having values for all expected attributes and entity
instances. In some cases, ML algorithms can fail when they encounter one or more empty data items in
training, validation or testing datasets. Additionally, trained ML models can also fail when production data
contains null data values.
Measures for completeness can help ML practitioners meet their data requirements and can indicate
[8]
whether additional imputation steps should be taken as described in ISO/IEC 5259-4.
The completeness characteristic of the labelled data in a dataset is relative. In different scenarios, the
meaning of completeness can be different and should be considered with a specific usage scope. Factors that
should be considered for measuring the completeness of a dataset include:
— The completeness of a dataset being used for an ML-based image classification should check the unlabelled
samples in a dataset, which cannot be directly used in supervised ML.
— The completeness of a dataset being used for an ML-based object detection should check the incompleteness
of labelled bounding boxes on objects.
In particular, it is common in real life that a sample has multiple objects in various categories since it is
difficult to capture a scene with a single isolated object taking the entire view space. In this case, to
measure the completeness of the dataset for an ML-based image recognition, the following factors should be
considered:
— there exists any target object in a sample;
— all target objects are categorized;
— all target objects detected are labelled with bounding boxes or other methods.
EXAMPLE 1
© ISO/IEC 2024 – All rights reserved
A completeness measure for a dataset indicates that the dataset is missing more than half of the data values for the zip
code feature. The data scientist decides the zip code feature is not a necessary predictor for their classification task
and elects to remove the zip code feature from the training, validation, testing and production datasets.
EXAMPLE 2
A completeness measure for a dataset being used for an ML regression task indicates that one percent of the data
values for a feature that is a good predictor are empty. The rest of the data has a normal distribution. The data scientist
chooses to fill the null data values with the statistical mean of the available data values.
EXAMPLE 3
A completeness measure for a dataset being used for an ML clustering task indicates that a small number of records
have one or more empty data items. The data scientist chooses to delete those records from the training data.
EXAMPLE 4
A completeness measure for value occurrences in a dataset for an ML classification task is the ratio of missing data
values to the target number of data items expected for the proper fidelity of the dataset.
6.2.2.2 QMs for completeness
Table 2 provides data quality measures for completeness in a specific context of use of analytics and ML.
© ISO/IEC 2024 – All rights reserved
Table 2 — Completeness measures
ID Name Description Measurement function
Com-ML-1 Value completeness Ratio of data items with no null data
A
values to the total number of data
B
items in the dataset where at least
where
one data item exists
A is the number of data items whose
value is not null;
B is the total number of data items in
the dataset where at least one data item
exists.
Com-ML-2 Value occurrence Ratio of the number of occurrences
A
completeness of a given data value to the expected
B
number of data value occurrences,
where
described in the data quality require-
A is the number of occurrences of the
ment, in data items with the same
data value in the data items;
domain in a dataset
B is the expected number of occurrences
of that data value in data items with the
same domain in the dataset.
Com-ML-3 Feature complete- Ratio of data items, associated with
A
ness a feature, with no null data values to
B
the total number of data items associ-
where
ated with the feature
A is the number of data items, associated
with the given feature, with no null data
values;
B is the total number of data items,
associated with the given feature in the
dataset where at least one data item
exists.
Com-ML-4 Record complete- Ratio of non-empty data records to
A
ness the total number of data records in
B
a dataset where at least one data
where
record exists
A is the number of non-empty data re-
cords in the dataset;
B is the total number of data records
in the dataset where at least one data
record exists.
Com-ML-5 Label completeness Ratio of unlabelled or incompletely
A
1−
labelled samples in a dataset
B
where
A is the number of unlabelled or incom-
pletely labelled samples;
B is the number of all samples in the
dataset.
6.2.3 Consistency
6.2.3.1 General
ISO/IEC 25012 describes consistency in terms of the data being coherent with other data and free of
contradictions. Consistency is a key aspect of data used for ML as the features used in training data should
together provide a model that permits correct inferences on production data. Additionally, ML can be
literal in its interpretation of data values. Duplicate records can cause over-weighting of certain features.
Contradictions between features in training data can cause a trained model to perform below requirements.
© ISO/IEC 2024 – All rights reserved
The data quality of a training data depends on the consistency of the labels assigned to similar data items.
To improve the performance of machine learning models, data labels is needed to be assigned consistently to
avoid inconsistencies.
EXAMPLE
A web form is used to collect voter preferences for political candidates. An organized group of people floods the site
with entries for their favourite candidate. When used to train an ML model, these duplicate data can cause the model
to over-weight a particular candidate when making inferences for people who have characteristics similar to those
who flooded the web form.
6.2.3.2 QMs for consistency
Table 3 provides data quality measures for consistency in a specific context of use of analytics and ML.
Table 3 — Consistency measures
ID Name Description Measurement function
Con-ML-1 Data record con- The ratio of duplicate records in the
A
1−
sistency dataset
B
where
A is the number of duplicate records in the
dataset;
B is the total number of records in the
dataset.
Con-ML-2 Data label consist- Consistency of data labels of similar
A
ency data items
B
where
A is the number of pairs of similar items
that have been given the same label;
B is the total number of comparisons made
between labels of similar items.
Con-ML-3 Data format con- See ISO/IEC 25024:2015, Table 3 See ISO/IEC 25024:2015, Table 3
sistency
Con-ML-4 Semantic consist- See ISO/IEC 25024:2015, Table 3 See ISO/IEC 25024:2015, Table 3
ency
6.2.4 Credibility
6.2.4.1 General
ISO/IEC 25012 defines credibility in terms of the degree to which data has attributes that are regarded as
believable by users in a specific context of use. Credibility is applicable for single data items, for related
data items in a data record and for the entire dataset. The context in which the data are used can impact
its perceived trueness and believability. Data can be perturbed during processing (e.g. transit, storage,
computation) by authorized
...
Norme
internationale
ISO/IEC 5259-2
Première édition
Intelligence artificielle — Qualité
2024-11
des données pour les analyses
de données et l’apprentissage
automatique (AA) —
Partie 2:
Mesures de la qualité des données
Artificial intelligence — Data quality for analytics and machine
learning (ML) —
Part 2: Data quality measures
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO/IEC 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
© ISO/IEC 2024 – Tous droits réservés
ii
Sommaire Page
Avant-propos .v
Introduction .vi
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Symboles et abréviations . 5
5 Composantes de la qualité des données et modèles de qualité des données pour l’analyse
de données et l’apprentissage automatique . 5
5.1 Composantes de la qualité des données dans le cycle de vie des données .5
5.2 Modèle de qualité des données .6
6 Caractéristiques et mesures de la qualité des données . 8
6.1 Généralités .8
6.2 Caractéristiques de qualité des données inhérentes.9
6.2.1 Exactitude.9
6.2.2 Exhaustivité . .10
6.2.3 Cohérence . 12
6.2.4 Crédibilité . 13
6.2.5 Actualité .14
6.3 Caractéristiques de qualité des données inhérentes et dépendantes du système . 15
6.3.1 Accessibilité . 15
6.3.2 Conformité .16
6.3.3 Efficacité .16
6.3.4 Précision .17
6.3.5 Traçabilité .17
6.3.6 Intelligibilité .18
6.4 Caractéristiques de qualité des données dépendantes du système .18
6.4.1 Disponibilité .18
6.4.2 Portabilité .19
6.4.3 Récupérabilité . .19
6.5 Caractéristiques de qualité des données supplémentaires . 20
6.5.1 Vérifiabilité . 20
6.5.2 Équilibre .21
6.5.3 Diversité . 23
6.5.4 Efficacité .24
6.5.5 Identifiabilité . 25
6.5.6 Pertinence . 26
6.5.7 Représentativité .27
6.5.8 Similarité . 28
6.5.9 Rapidité d’obtention . 29
7 Mise en œuvre d’un modèle de qualité des données et de mesures de la qualité des
données pour une tâche d’analyse de données ou d’AA .30
8 Établissement de rapports sur la qualité des données .30
8.1 Cadre pour l’établissement de rapports sur la qualité des données . 30
8.2 Informations relatives aux mesures de la qualité des données .31
8.3 Recommandations à l’intention des organismes .31
Annexe A (informative) Conception et documentation d’une fonction de mesure .33
Annexe B (informative) Modèle UML de cadre de mesure de la qualité des données .35
Annexe C (informative) Aperçu des caractéristiques de qualité des données .36
Annexe D (informative) Autres groupes de caractéristiques de qualité des données .38
© ISO/IEC 2024 – Tous droits réservés
iii
Annexe E (informative) Comparaison entre les caractéristiques de qualité des données de
l’ISO/IEC 25012 et de l’ISO/IEC 5259-2 .39
Bibliographie .40
© ISO/IEC 2024 – Tous droits réservés
iv
Avant-propos
L’ISO (Organisation internationale de normalisation) et l’IEC (Commission électrotechnique internationale)
forment le système spécialisé de la normalisation mondiale. Les organismes nationaux membres de l’ISO ou
de l’IEC participent au développement de Normes internationales par l’intermédiaire des comités techniques
créés par l’organisation concernée afin de s’occuper des domaines particuliers de l’activité technique.
Les comités techniques de l’ISO et de l’IEC collaborent dans des domaines d’intérêt commun. D’autres
organisations internationales, gouvernementales et non gouvernementales, en liaison avec l’ISO et l’IEC,
participent également aux travaux.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont décrites
dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents critères
d’approbation requis pour les différents types de documents. Le présent document a été rédigé conformément
aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www.iso.org/directives ou
www.iec.ch/members_experts/refdocs).
L’ISO et l’IEC attirent l’attention sur le fait que la mise en application du présent document peut entraîner
l’utilisation d’un ou de plusieurs brevets. L’ISO et l’IEC ne prennent pas position quant à la preuve, à la validité
et à l’applicabilité de tout droit de propriété revendiqué à cet égard. À la date de publication du présent
document, l’ISO et l’IEC n’avaient pas reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires
à sa mise en application. Toutefois, il y a lieu d’avertir les responsables de la mise en application du présent
document que des informations plus récentes sont susceptibles de figurer dans la base de données de
brevets, disponible à l’adresse www.iso.org/brevets et https://patents.iec.ch. L’ISO et l’IEC ne sauraient être
tenues pour responsables de ne pas avoir identifié tout ou partie de tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions spécifiques
de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux
principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au commerce
(OTC), voir www.iso.org/iso/avant-propos. Pour l’IEC, voir www.iec.ch/understanding-standards.
Le présent document a été élaboré par le comité technique mixte ISO/IEC JTC 1, Technologies de l’information,
sous-comité SC 42, Intelligence artificielle.
Une liste de toutes les parties de la série ISO/IEC 5259 se trouve sur les sites Web de l’ISO et de l’IEC.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve aux adresses www.iso.org/members.html et www.iec.ch/national-committees.
© ISO/IEC 2024 – Tous droits réservés
v
Introduction
La prise de décision basée sur les données pose de nouveaux défis pour la gestion de la qualité des
données dans le cadre de l’analyse de données et de l’intelligence artificielle (IA) basée sur l’apprentissage
automatique (AA). Les problèmes de qualité des données, tels que des données incomplètes, fausses ou
obsolètes, peuvent nuire aux processus et résultats d’analyse de données et d’AA. Les données provenant
de sources diverses, y compris les données structurées (par exemple bases de données relationnelles) et les
données non structurées (par exemple documents, images, audios), peuvent être directement utilisées dans
le cycle de vie des données pour le développement de modèles d’analyse de données et d’AA. Les données
sont transformées à chaque étape du cycle de vie des données dans le cadre de l’analyse de données et de
l’AA. Une approche holistique normalisée pour contrôler, produire et fournir suffisamment de données
de haute qualité est nécessaire pour que les modèles d’analyse de données et d’AA soient sûrs, fiables et
interopérables. Pour développer une gestion crédible de la qualité des données pour l’analyse de données
et l’AA, des Normes internationales sur la qualité intrinsèque des données, comprenant des concepts et cas
d’utilisation, des caractéristiques et mesurages, des exigences de gestion et un cadre de processus, peuvent
être envisagées.
Le présent document fait partie de la série ISO/IEC 5259. Il s’appuie sur la série ISO 8000, l’ISO/IEC 25012
et l’ISO/IEC 25024. L’objectif du présent document est de décrire un modèle de qualité des données en
définissant des caractéristiques et mesures de la qualité des données basées sur l’ISO/IEC 25012 et
l’ISO/IEC 25024. Les modèles de qualité des données peuvent être étendus ou modifiés conformément au
présent document.
© ISO/IEC 2024 – Tous droits réservés
vi
Norme internationale ISO/IEC 5259-2:2024(fr)
Intelligence artificielle — Qualité des données pour les
analyses de données et l’apprentissage automatique (AA) —
Partie 2:
Mesures de la qualité des données
1 Domaine d’application
Le présent document spécifie un modèle de qualité des données, des mesures de la qualité des données et
des recommandations concernant l’établissement de rapports sur la qualité des données dans le contexte de
l’analyse de données et de l’apprentissage automatique (AA).
Le présent document s’applique à tous les types d’organismes qui souhaitent atteindre leurs objectifs de
qualité des données.
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur
contenu, des exigences du présent document. Pour les références datées, seule l’édition citée s’applique. Pour
les références non datées, la dernière édition du document de référence s’applique (y compris les éventuels
amendements).
ISO/IEC 5259-1, Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage
automatique (AA) — Partie 1: Vue d'ensemble, terminologie et exemples
ISO/IEC 25024, Ingénierie des systèmes et du logiciel — Exigences et évaluation de la qualité des systèmes et du
logiciel (SQuaRE) — Mesurage de la qualité des données
ISO/IEC 22989, Technologies de l'information — Intelligence artificielle — Concepts et terminologie relatifs à
l'intelligence artificielle
3 Termes et définitions
Pour les besoins du présent document, les termes et les définitions de l’ISO/IEC 5259-1, l’ISO/IEC 22989 ainsi
que les suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en normalisation,
consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse https:// www .electropedia .org/
3.1
donnée
représentation réinterprétable d’une information sous une forme conventionnelle convenant à la
communication, à l’interprétation ou au traitement
Note 1 à l'article: Les données peuvent être traitées par des moyens humains ou automatiques.
[SOURCE: ISO/IEC 2382:2015, 2121272]
© ISO/IEC 2024 – Tous droits réservés
3.2
trame de données
ensemble de registres de données représentés par un domaine ou une finalité spécifique, avec une structure
partagée d’éléments de données
Note 1 à l'article: Une trame de données est bidimensionnelle, comme un tableau avec des lignes et des colonnes. Le
terme est spécifiquement utilisé en analyse de données et en AA, par exemple dans le langage R, tandis que d’autres
langages utilisent «ensemble de données» pour signifier la même chose. Dans le présent document, «ensemble de
données» a une signification plus générique.
3.3
type de données
catégorisation d’un ensemble abstrait de valeurs possibles, de caractéristiques et d’un ensemble d’opérations
pour un attribut
Note 1 à l'article: Les chaînes de caractères, les textes, les dates, les chiffres, les images et les sons sont des exemples
de types de données.
[SOURCE: ISO/IEC 25024:2015, 4.16]
3.4
valeur de donnée
contenu d’un élément de donnée
Note 1 à l'article: Dans l’ISO/IEC 25012:2008, 5.1.1, il est spécifié que, selon un point de vue inhérent aux données,
la qualité des données fait référence aux données elles-mêmes, telles que les valeurs du domaine de données et les
restrictions possibles.
Note 2 à l'article: Numéro ou catégorie attribués à un attribut d’entité cible en effectuant un mesurage.
[SOURCE: ISO/IEC 25024:2015, 4.17]
3.5
élément de donnée vide
élément de donnée dont la valeur de donnée (3.4) n’a pas de valeur, c’est-à-dire «nulle» ou «aucune »
Note 1 à l'article: Cette définition signifie généralement la non-existence d’une valeur de donnée (c’est-à-dire «nulle»
ou «aucune »). Un élément de donnée avec un type de données chaîne peut être un élément de donnée vide en utilisant
la chaîne vide ou «nulle». Cependant, il existe une exception pour certaines applications dans laquelle une chaîne peut
être vide (par exemple «»), mais pas nulle, et n’implique donc pas d’élément de donnée vide.
3.6
entité
chose concrète ou abstraite dans le domaine considéré
[SOURCE: ISO 8000-2:2022, 3.3.3]
3.7
données brutes
données dans leur forme originale directe acquise à partir de leur source, avant tout traitement ultérieur
[SOURCE: ISO 5127:2017, 3.1.10.04]
3.8
données cibles
données (3.1) utilisées dans une tâche d’analyse de données ou d’AA dont la qualité est mesurée
3.9
population cible
population concernée par le projet d’analyse de données ou d’AA, à propos de laquelle des inférences doivent
être établies
© ISO/IEC 2024 – Tous droits réservés
3.10
personne concernée par la qualité des données
entité (3.6) affectée par la qualité des données
3.11
élément de mesure de la qualité
mesure définie en fonction d’une propriété et de la méthode de mesure pour la quantifier, y compris
éventuellement la transformation par une fonction mathématique
[SOURCE: ISO/IEC 25024:2015, 4.32]
3.12
grandeur
propriété d’un phénomène, d’un corps ou d’une substance, que l’on peut exprimer quantitativement sous
forme d’un nombre et d’une référence
[SOURCE: Guide ISO/IEC 99:2007, 1.1, modifié — Les notes à l’article ont été supprimées.]
3.13
valeur d’une grandeur
valeur
ensemble d’un nombre et d’une référence constituant l’expression quantitative d’une grandeur (3.12)
[SOURCE: Guide ISO/IEC 99:2007, 1.9, modifié — Les exemples ont été supprimés.]
3.14
fonction de mesure
algorithme ou calcul effectué pour combiner un ou plusieurs éléments de mesure de la qualité (3.11)
[SOURCE: ISO/IEC 25021:2012, 4.7, modifié — La définition a été révisée.]
3.15
résultat de mesure
résultat d’un mesurage
ensemble de valeurs (3.13) attribuées à un mesurande, complété par toute autre information pertinente
disponible
[SOURCE: Guide ISO/IEC 99:2007, 2.9, modifié — Les notes à l’article ont été supprimées.]
3.16
mesure
variable à laquelle une valeur est attribuée comme résultat de mesure
Note 1 à l'article: La forme plurielle «mesures» est utilisée pour désigner collectivement les mesures de base,
les mesures dérivées et les indicateurs.
[SOURCE: ISO/IEC IEEE 15939:2017, 3.15]
3.17
mesurer
procéder à un mesurage
[SOURCE: ISO/IEC 25000:2014, 4.19]
3.18
zone de délimitation
région rectangulaire qui entoure l’objet annoté
Note 1 à l'article: Les axes majeur et mineur du rectangle sont parallèles aux bords des images. Pour les zones tournées,
l’annotation polygonale doit être utilisée.
[SOURCE: ISO/IEC 30137-4:2021, 3.3]
© ISO/IEC 2024 – Tous droits réservés
3.19
grappe
catégorie induite automatiquement d’éléments qui font partie de l’ensemble de données et qui partagent des
attributs communs
Note 1 à l'article: Les grappes n’ont pas nécessairement de nom.
[SOURCE: ISO/IEC 23053:2022, 3.3.2]
3.20
algorithme de regroupement
algorithme qui regroupe les grappes (3.19) à partir des données d’entrée
Note 1 à l'article: Des exemples d’algorithmes de regroupement comprennent le regroupement basé sur les centroïdes,
le regroupement basé sur la densité, le regroupement basé sur la distribution, le regroupement hiérarchique et le
regroupement basé sur les graphes.
3.21
surajustement
création d’un modèle qui s’ajuste trop précisément aux données d’entraînement
et échoue à généraliser à partir de données nouvelles
Note 1 à l'article: Le surajustement peut se produire parce que le modèle entraîné a appris à partir de caractéristiques
non essentielles dans les données d’entraînement (c’est-à-dire des caractéristiques qui ne se généralisent pas à des
extrants utiles), à cause d’un bruit excessif dans les données d’entraînement (par exemple un nombre excessif de
valeurs aberrantes), d’un décalage important entre la distribution des données d’entraînement et celle des données de
production ou parce que le modèle est trop complexe pour les données d’entraînement.
Note 2 à l'article: Le surajustement peut être identifié lorsqu’il existe une différence significative entre les erreurs
mesurées sur les données d’entraînement et sur des données de test et de validation distinctes. Les performances
des modèles surajustés sont particulièrement affectées lorsqu’il existe un décalage important entre les données
d’entraînement et les données de production.
[SOURCE: ISO/IEC 23053:2022, 3.1.4]
3.22
fidélité
degré auquel un modèle ou une simulation reproduit l’état et le comportement d’un objet du monde réel ou
la perception d’un objet du monde réel, d’une caractéristique, d’une condition ou d’une norme choisie d’une
manière mesurable ou perceptible
[SOURCE: ISO 16781:2021, 3.1.4]
3.23
maintenabilité
aptitude d’une unité fonctionnelle, dans des conditions données d’utilisation, à être maintenue ou rétablie
dans un état dans lequel elle peut accomplir une fonction requise, lorsque la maintenance est accomplie dans
des conditions déterminées, avec des procédures et des moyens prescrits
Note 1 à l'article: La définition de «maintenabilité» dans l’IEV 191-02-07 est fondamentalement la même.
Note 2 à l'article: maintenabilité: terme et définition normalisés par l’ISO/IEC [ISO/IEC 2382-14:1997].
Note 3 à l'article: 14.01.06 (2382)
[SOURCE: ISO/IEC 2382:2015, 2123027]
3.24
fiabilité
cohérence avec laquelle une évaluation mesure
EXEMPLE Une évaluation a une faible fiabilité si deux formes d’évaluation présentent des difficultés ou une
couverture inégales ou s’il y a des erreurs dans les procédures de notation ou dans la communication des notes.
© ISO/IEC 2024 – Tous droits réservés
[SOURCE: ISO/IEC 23988:2007, 3.21]
3.25
validité
mesure dans laquelle une évaluation atteint son objectif en mesurant ce qu’elle est censée mesurer et en
produisant des résultats qui peuvent être utilisés pour la finalité prévue
Note 1 à l'article: Une évaluation a une faible validité si les résultats sont indûment influencés par des compétences qui
ne sont pas pertinentes par rapport aux objectifs énoncés de l’évaluation.
[SOURCE: ISO/IEC 23988:2007, 3.25]
4 Symboles et abréviations
AA apprentissage automatique
CSV comma separated values (valeurs séparées par des virgules)
DCP données à caractère personnel
HDF hierarchical data format (format de données hiérarchique)
IA intelligence artificielle
IP Internet protocol (protocole Internet)
JSON JavaScript object notation (format de notation d’objet JavaScript)
MQ mesure de la qualité
UML unified modeling language (langage de modélisation unifié)
5 Composantes de la qualité des données et modèles de qualité des données pour
l’analyse de données et l’apprentissage automatique
5.1 Composantes de la qualité des données dans le cycle de vie des données
La Figure 1 représente les composantes de la qualité des données alignées sur le modèle de cycle de vie des
données présenté dans l’ISO/IEC 5259-1:2024, Figure 3, qui peuvent soutenir les processus de gestion de la
qualité des données. L’ISO/IEC 5259-1 définit un modèle de qualité des données comme un ensemble défini
de caractéristiques de qualité des données. La caractéristique de qualité des données fournit un cadre pour
les exigences de qualité des données, la mise en œuvre et les méthodes d’évaluation. Les mesures de la qualité
des données sont des variables auxquelles sont attribuées des valeurs correspondant aux résultats des
mesurages des caractéristiques de qualité des données. Les mesures de la qualité des données sont utilisées
pour évaluer si les données satisfont aux exigences de qualité des données. Des mesures de la qualité des
données peuvent également être utilisées pour surveiller et rendre compte de la qualité des données.
Les données cibles sont les données faisant l’objet de mesurages de la qualité des données. Les données cibles
peuvent être des données brutes ou des données ayant subi un ou plusieurs processus ou transformations.
Les données cibles utilisées pour mesurer la qualité peuvent être des données d’entraînement, de test, de
validation, de production et de sortie dans le contexte d’utilisation de l’analyse de données et de l’AA (comme
[1]
décrit dans l’ISO/IEC 23053). Les données cibles peuvent revêtir la forme d’éléments de données ou
d’ensembles de données. Un élément de donnée se compose d’un nom d’élément, d’une valeur de donnée et
d’un type de données représentant un domaine de valeurs (par exemple chaînes de caractères, textes, dates,
nombres, images, sons). Un ensemble de données peut être classé sous trois formes:
— une collection d’éléments de données;
— une collection de registres de données;
© ISO/IEC 2024 – Tous droits réservés
— une collection de trames de données.
Les données cibles peuvent être non étiquetées ou étiquetées selon qu’elles sont associées ou non à des
étiquettes de données lors de l’utilisation d’une tâche d’analyse de données ou d’AA.
NOTE Le présent document ne fait aucune distinction entre les structures de données, telles que les données
structurées, semi-structurées et non structurées, ou les rôles de données, tels que les données permanentes,
de transaction et de référence.
Les rapports sur la qualité des données sont des documents qui expriment les exigences de qualité des
données, le modèle de qualité des données des caractéristiques de qualité des données, les mesures de la
qualité des données, les résultats des mesurages de la qualité des données et une évaluation de la conformité
des données aux exigences de qualité des données.
Légende
Étape de traitement des données
Composante de la qualité des données
Voie de développement principale
Dépendance
Voie de retour d’informations
Figure 1 — Composantes de la qualité des données dans le cycle de vie des données pour l’analyse de
données et l’AA
5.2 Modèle de qualité des données
Le modèle de qualité des données fournit un cadre pour spécifier les exigences de qualité des données et
évaluer la qualité des données. En pratique, un modèle de qualité des données regroupe des personnes
concernées par la qualité des données, des caractéristiques de qualité des données et des exigences de
qualité des données, pour le contexte d’utilisation des données. L’organisme peut spécifier des modèles de
qualité des données en sélectionnant des caractéristiques de qualité des données et des mesures en vue
d’atteindre les exigences de qualité cibles pour les données cibles. La Figure 2 présente un schéma UML des
relations entre les composantes du modèle de qualité des données.
Un domaine d’utilisation des données décrit comment et où les données peuvent être utilisées dans une
tâche d’analyse de données ou d’AA et comment elles s’intègrent dans un système d’IA.
EXEMPLE Les données peuvent être utilisées pour entraîner un modèle d’AA par réseau neuronal profond à
prédire les ventes de produits sur la base des caractéristiques d’une stratégie marketing. Le modèle peut être entraîné
et déployé à l’aide de services informatiques en nuage.
Une personne concernée par la qualité des données représente une entité affectée par la qualité des données.
Une caractéristique de qualité des données est une catégorie d’attributs de qualité des données qui influent
sur la qualité des données (par exemple exactitude, exhaustivité, précision). Une exigence de qualité des
© ISO/IEC 2024 – Tous droits réservés
données décrit les propriétés ou les attributs des données ainsi que les critères d’acceptation relatifs au
domaine d’utilisation des données. Les critères d’acceptation peuvent être quantitatifs ou qualitatifs.
Figure 2 — Modèle de qualité des données
Lorsqu’une caractéristique de qualité en affecte une autre, il est possible de faire des compromis en évaluant
l’importance et l’impact de chaque exigence. En outre, il est crucial d’équilibrer le coût de la gestion de la
qualité des données avec la priorité des exigences de qualité des données pour déterminer comment les
caractéristiques de qualité des données et les mesures de la qualité des données sont intégrées dans le
modèle de qualité des données. L’organisme peut sélectionner les caractéristiques de qualité des données
et les mesures de la qualité des données qui correspondent à ses besoins et exigences. Il convient d’évaluer
la qualité des données en comparant les résultats des mesures de la qualité des données sélectionnées avec
les objectifs établis par les exigences en matière de données. Il convient d’atténuer tout manquement aux
[2]
exigences de qualité des données. L’ISO/IEC 5259-3 décrit les exigences et recommandations d’un système
de gestion de la qualité des données que l’organisme doit appliquer.
[3] [4]
L’ISO 8000-8 et l’ISO/IEC 25012 décrivent des modèles de qualité des données. L’ISO 8000-8 définit trois
caractéristiques de qualité des données (syntaxique [format], sémantique [signification] et pragmatique
[utilité]) afin de prendre en charge les données industrielles en général en tant que produit des processus
commerciaux et de fabrication. L’ISO/IEC 25012 définit un modèle général de qualité des données pour les
données conservées dans un format structuré au sein d’un système informatique en tant qu’élément d’un
produit logiciel. L’ISO/IEC 25012 prend en compte tous les types de données (par exemple caractères,
chaînes, textes, dates, nombres, images, sons). L’ISO/IEC 25012 fournit quinze caractéristiques de qualité des
données: exactitude, exhaustivité, cohérence, crédibilité, actualité, accessibilité, conformité, confidentialité,
efficacité, précision, traçabilité, intelligibilité, disponibilité, portabilité et récupérabilité.
[5]
La série ISO 8000 couvre différents aspects de la qualité des données tels que la gouvernance des
données, la gestion de la qualité des données (y compris leur traitement) et l’évaluation de la maturité. La
[6]
série ISO/IEC 25000 traite des exigences et de l’évaluation de la qualité des produits (logiciels, systèmes,
données, services). Le présent document décrit comment les caractéristiques de qualité des données de
l’ISO/IEC 25012 peuvent être appliquées à un modèle de qualité des données à des fins d’analyse de données
et d’AA. En outre, le présent document définit des caractéristiques supplémentaires qui peuvent contribuer
à des modèles et applications d’AA de meilleure qualité, comme représenté à la Figure 3. Dans la mesure du
possible, il convient que les organismes utilisent les caractéristiques de qualité des données et les mesures
de la qualité des données décrites dans le présent document. Cependant, les caractéristiques de qualité des
données contenues dans le présent document ne peuvent pas couvrir de manière exhaustive les aspects qui
répondent aux besoins de tous les organismes en matière de qualité des données. Les organismes peuvent
concevoir leur propre modèle de qualité des données en étendant les caractéristiques de qualité des données
et les mesures de la qualité des données pour répondre à leurs exigences en matière de données.
NOTE 1 Voir l’Annexe A pour plus d’informations sur la conception et la documentation des fonctions de mesure.
© ISO/IEC 2024 – Tous droits réservés
NOTE 2 Voir l’Annexe E pour une comparaison entre les caractéristiques de qualité des données de l’ISO/IEC 25012
et celles du présent document.
Figure 3 — Caractéristiques de qualité des données pour l’analyse de données et l’AA
6 Caractéristiques et mesures de la qualité des données
6.1 Généralités
Les caractéristiques et mesures de la qualité des données sont utilisées pour spécifier et vérifier les exigences
de qualité des données pour les attributs identifiés pour les données cibles. Chaque caractéristique de qualité
des données est associée à une ou plusieurs mesures de la qualité des données à des fins de quantification.
Une mesure de la qualité des données est une variable à laquelle une valeur est attribuée comme résultat
d’une fonction de mesure. Les mesures de la qualité des données du présent document sont sélectionnées en
fonction du contexte d’utilisation de l’analyse de données et de l’AA.
NOTE 1 L’Annexe B présente un cadre qui fournit le vocabulaire commun et les relations entre les composantes des
mesures de la qualité des données.
NOTE 2 L’Annexe C et l’Annexe D montrent comment les mesures de la qualité sont regroupées sous différentes
perspectives.
Dans le contexte de l’analyse de données et de l’AA, la qualité globale d’un ensemble de données
d’entraînement, d’un ensemble de données de validation ou d’un ensemble de données de test peut être tout
aussi importante que la qualité des valeurs de données individuelles dans l’ensemble de données. Même si
chaque valeur de donnée d’un ensemble de données est exacte, un ensemble de données qui ne reflète pas
correctement la distribution sous-jacente des données peut entraîner un résultat d’analyse incorrect ou
la création d’un modèle d’AA qui ne satisfait pas aux exigences. Il convient que l’organisme documente les
données cibles pour chaque mesure de la qualité des données.
NOTE 3 Les caractéristiques des mesures statistiques (par exemple accessibilité par les utilisateurs autorisés,
[7]
exactitude, cohérence, actualité, intelligibilité, pertinence, rapidité d’obtention) telles que définies par des
institutions comme la Division de la statistique des Nations Unies (UNSD) et les European Statistics (EUROSTAT)
peuvent également être utilisées pour évaluer si la qualité d’un ensemble de données satisfait aux exigences.
© ISO/IEC 2024 – Tous droits réservés
Il convient d’utiliser les mesures de la qualité des données et les fonctions de mesure du présent document,
le cas échéant. Voir l’Annexe A pour les cas de figure où il est nécessaire que l’utilisateur du présent
document crée une nouvelle mesure de la qualité des données et une fonction de mesure de la qualité des
données personnalisées. Toute mesure de la qualité qui vient d’être modifiée ou définie doit sélectionner des
caractéristiques de qualité des données parmi celles définies dans le présent document et doit justifier les
modifications apportées conformément à l’Article 2 de l’ISO/IEC 25024:2015.
6.2 Caractéristiques de qualité des données inhérentes
6.2.1 Exactitude
6.2.1.1 Généralités
L’exactitude d’un ensemble de données est la mesure dans laquelle les éléments de données de l’ensemble de
données ont des valeurs ou des étiquettes correctes. L’ISO/IEC 25012 décrit l’exactitude comme la mesure
dans laquelle les valeurs de données ont des attributs qui représentent correctement la véritable valeur des
attributs prévus. L’ISO/IEC 25012 décrit en outre l’exactitude en fonction de ce qui suit:
— l’exactitude syntaxique, qui tient compte de la proximité des valeurs de données par rapport à un
ensemble de valeurs de données syntaxiquement correctes dans un domaine pertinent;
— l’exactitude sémantique, qui tient compte de la proximité des valeurs de données par rapport à un
ensemble de valeurs de données sémantiquement correctes dans un domaine pertinent.
Un élément de donnée est syntaxiquement correct si sa valeur de donnée est du même type que son
type de donnée explicite et il est sémantiquement correct si sa valeur de donnée a une valeur attendue
correspondant à la tâche d’AA. Les modèles d’AA sont des constructions mathématiques, ce qui signifie
qu’une faible exactitude syntaxique ou sémantique des valeurs de données dans les ensembles de données
d’entraînement, de validation, de test ou de production peut rendre incorrects le modèle à proprement parler
ou les inférences faites par celui-ci.
Pour un système de classification d’apprentissage supervisé, la justesse du contenu de la séquence
d’étiquettes peut affecter l’exactitude d’inférence d’un modèle entraîné. Il convient de prendre en compte les
facteurs suivants pour mesurer l’exactitude de l’étiquetage:
— la justesse des valeurs des étiquettes;
— la justesse des balises étiquetées;
— la justesse du contenu des séquences d’étiquettes.
EXEMPLE 1
Si l’expression «lazy dog» est saisie sous la forme «lzy dg», un système de compréhension du langage naturel basé sur
l’AA peut ne pas interpréter correctement l’expression.
EXEMPLE 2
Si le nombre 1 000 est saisi à la place de 100 dans les données d’entraînement, un modèle de régression peut ne pas
calculer correctement le poids de la caractéristique associée et si l’information a été entrée dans les données de
production, les inférences peuvent être incorrectes.
6.2.1.2 Mesures de la qualité axées sur l’exactitude
Le Tableau 1 fournit des mesures de la qualité des données permettant d’évaluer l’exactitude desdites
données dans le contexte d’utilisation spécifique de l’analyse de données et de l’AA.
© ISO/IEC 2024 – Tous droits réservés
Tableau 1 — Mesures axées sur l’exactitude
ID Nom Description Fonction de mesure
Acc-ML-1 Exactitude des données syn- Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
taxiques Tableau 1 Tableau 1
Acc-ML-2 Exactitude des données séman- Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
tiques Tableau 1 Tableau 1
Acc-ML-3 Assurance de l’exactitude des don- Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
nées Tableau 1 Tableau 1
Acc-ML-4 Risque d’inexactitude de l’ensemble Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
de données Tableau 1 Tableau 1
Acc-ML-5 Exactitude du modèle de données Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
Tableau 1 Tableau 1
Acc-ML-6 Plage d’exactitude des données Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
Tableau 1 Tableau 1
Acc-ML-7 Exactitude de l’étiquette de don- L’étiquette de données est-
A
nées elle correctement attribuée à
B
chaque élément de l’ensemble
où
de données?
A est le nombre d’étiquettes
de données qui fournissent les
bonnes informations requises;
B est le nombre d’étiquettes de
données définies dans l’en-
semble de données.
6.2.2 Exhaustivité
6.2.2.1 Généralités
L’ISO/IEC 25012 décrit l’exhaustivité comme le fait que les données aient des valeurs pour tous les attributs et
instances d’entités attendus. Dans certains cas, les algorithmes d’AA peuvent échouer lorsqu’ils rencontrent
un ou plusieurs éléments de données vides dans des ensembles de données d’entraînement, de validation ou
de test. En outre, les modèles d’AA entraînés peuvent également échouer lorsque les données de production
contiennent des valeurs de données nulles.
Les mesures axées sur l’exhaustivité peuvent aider les professionnels de l’AA à satisfaire à leurs exigences
en matière de données et peuvent indiquer s’il convient de prévoir des étapes d’imputation supplémentaires,
[8]
comme décrit dans l’ISO/IEC 5259-4 .
La caractéristique d’exhaustivité des données étiquetées dans un ensemble de données est relative. Dans
différents scénarios, la signification du terme «exhaustivité» peut être différente et il convient de l’envisager
pour un domaine d’utilisation spécifique. Il convient de prendre en compte les facteurs suivants pour
mesurer l’exhaustivité d’un ensemble de données:
— il convient que l’exhaustivité d’un ensemble de données utilisé pour une classification d’images basée
sur l’AA vérifie les échantillons non étiquetés dans un ensemble de données, qui ne peuvent pas être
directement utilisés dans le cadre de l’AA supervisé;
— il convient que l’exhaustivité d’un ensemble de données utilisé pour une détection d’objet basée sur l’AA
vérifie la non-exhaustivité des zones de délimitation étiquetées sur les objets.
En particulier, il est courant dans la vie réelle qu’un échantillon ait plusieurs objets dans différentes
catégories, car il est difficile de capturer une scène avec un seul objet isolé prenant l’espace de vue entier.
Dans ce cas, pour mesurer l’exhaustivité de l’ensemble de données pour
...
ISO/IEC JTC 1/SC 42
Date: 2025-06-06
Première édition
2024-11
Intelligence artificielle — Qualité des données pour les analyses de
données et l’apprentissage automatique (AA) — —
Partie 2:
Mesures de la qualité des données
Artificial intelligence — Data quality for analytics and machine learning (ML) — —
Part 2: Data quality measures
© ISO/IEC 2025 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre oeuvre, aucune partie
de cette publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique
ou mécanique, y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable.
Une autorisation peut être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays
du demandeur.
ISO copyright office
Case postaleCP 401 • • Ch. de Blandonnet 8
CH-1214 Vernier, GenèveGeneva
Tél.: +Phone: + 41 22 749 01 11
E-mail: copyright@iso.org
WebWebsite: www.iso.org
Publié en Suisse
© ISO/IEC 2024 – Tous droits réservés
ii
Sommaire Page
Avant-propos . iv
Introduction . v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Symboles et abréviations . 5
5 Composantes de la qualité des données et modèles de qualité des données pour l’analyse
de données et l’apprentissage automatique . 5
5.1 Composantes de la qualité des données dans le cycle de vie des données . 5
5.2 Modèle de qualité des données . 7
6 Caractéristiques et mesures de la qualité des données . 9
6.1 Généralités . 9
6.2 Caractéristiques de qualité des données inhérentes . 10
6.3 Caractéristiques de qualité des données inhérentes et dépendantes du système . 16
6.4 Caractéristiques de qualité des données dépendantes du système . 20
6.5 Caractéristiques de qualité des données supplémentaires . 21
7 Mise en œuvre d’un modèle de qualité des données et de mesures de la qualité des
données pour une tâche d’analyse de données ou d’AA . 31
8 Établissement de rapports sur la qualité des données . 32
8.1 Cadre pour l’établissement de rapports sur la qualité des données . 32
8.2 Informations relatives aux mesures de la qualité des données. 32
8.3 Recommandations à l’intention des organismes . 32
Annexe A (informative) Conception et documentation d’une fonction de mesure . 34
Annexe B (informative) Modèle UML de cadre de mesure de la qualité des données . 36
Annexe C (informative) Aperçu des caractéristiques de qualité des données . 37
Annexe D (informative) Autres groupes de caractéristiques de qualité des données . 39
Annexe E (informative) Comparaison entre les caractéristiques de qualité des données de
l’ISO/IEC 25012 et de l’ISO/IEC 5259-2. 41
Bibliographie . 43
© ISO/IEC 2024 – Tous droits réservés
iii
Avant-propos
L’ISO (Organisation internationale de normalisation) et l’IEC (Commission électrotechnique internationale)
forment le système spécialisé de la normalisation mondiale. Les organismes nationaux membres de l’ISO ou
de l’IEC participent au développement de Normes internationales par l’intermédiaire des comités techniques
créés par l’organisation concernée afin de s’occuper des domaines particuliers de l’activité technique. Les
comités techniques de l’ISO et de l’IEC collaborent dans des domaines d’intérêt commun. D’autres
organisations internationales, gouvernementales et non gouvernementales, en liaison avec l’ISO et l’IEC,
participent également aux travaux.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont décrites
dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents critères
d’approbation requis pour les différents types de documents. Le présent document a été rédigé conformément
aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www.iso.org/directives ou
www.iec.ch/members_experts/refdocs).
L’ISO et l’IEC attirent l’attention sur le fait que la mise en application du présent document peut entraîner
l’utilisation d’un ou de plusieurs brevets. L’ISO et l’IEC ne prennent pas position quant à la preuve, à la validité
et à l’applicabilité de tout droit de propriété revendiqué à cet égard. À la date de publication du présent
document, l’ISO et l’IEC n’avaient pas reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires
à sa mise en application. Toutefois, il y a lieu d’avertir les responsables de la mise en application du présent
document que des informations plus récentes sont susceptibles de figurer dans la base de données de brevets,
disponible à l’adresse www.iso.org/brevets et https://patents.iec.ch. L’ISO et l’IEC ne sauraient être tenues
pour responsables de ne pas avoir identifié tout ou partie de tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions spécifiques
de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux
principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au commerce
(OTC), voir www.iso.org/iso/avant-propos. Pour l’IEC, voir www.iec.ch/understanding-standards.
Le présent document a été élaboré par le comité technique mixte ISO/IEC JTC 1, Technologies de l’information,
sous-comité SC 42, Intelligence artificielle.
Une liste de toutes les parties de la série ISO/IEC 5259 se trouve sur les sites Web de l’ISO et de l’IEC.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve aux adresses www.iso.org/members.html et www.iec.ch/national-committees.
© ISO/IEC 2024 – Tous droits réservés
iv
Introduction
La prise de décision basée sur les données pose de nouveaux défis pour la gestion de la qualité des données
dans le cadre de l’analyse de données et de l’intelligence artificielle (IA) basée sur l’apprentissage automatique
(AA). Les problèmes de qualité des données, tels que des données incomplètes, fausses ou obsolètes, peuvent
nuire aux processus et résultats d’analyse de données et d’AA. Les données provenant de sources diverses, y
compris les données structurées (par exemple, bases de données relationnelles) et les données non
structurées (par exemple, documents, images, audios), peuvent être directement utilisées dans le cycle de vie
des données pour le développement de modèles d’analyse de données et d’AA. Les données sont transformées
à chaque étape du cycle de vie des données dans le cadre de l’analyse de données et de l’AA. Une approche
holistique normalisée pour contrôler, produire et fournir suffisamment de données de haute qualité est
nécessaire pour que les modèles d’analyse de données et d’AA soient sûrs, fiables et interopérables. Pour
développer une gestion crédible de la qualité des données pour l’analyse de données et l’AA, des Normes
internationales sur la qualité intrinsèque des données, comprenant des concepts et cas d’utilisation,
des caractéristiques et mesurages, des exigences de gestion et un cadre de processus, peuvent être envisagées.
Le présent document fait partie de la série ISO/IEC 5259. Il s’appuie sur la série ISO 8000, l’ISO/IEC 25012 et
l’ISO/IEC 25024. L’objectif du présent document est de décrire un modèle de qualité des données en
définissant des caractéristiques et mesures de la qualité des données basées sur l’ISO/IEC 25012 et
l’ISO/IEC 25024. Les modèles de qualité des données peuvent être étendus ou modifiés conformément au
présent document.
© ISO/IEC 2024 – Tous droits réservés
v
Norme internationale ISO/IEC 5259-2:2024(fr)
Intelligence artificielle — Qualité des données pour les analyses de
données et l’apprentissage automatique (AA) — —
Partie 2:
Mesures de la qualité des données
1 Domaine d’application
Le présent document spécifie un modèle de qualité des données, des mesures de la qualité des données et des
recommandations concernant l’établissement de rapports sur la qualité des données dans le contexte de
l’analyse de données et de l’apprentissage automatique (AA).
Le présent document s’applique à tous les types d’organismes qui souhaitent atteindre leurs objectifs de
qualité des données.
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur contenu,
des exigences du présent document. Pour les références datées, seule l’édition citée s’applique. Pour les
références non datées, la dernière édition du document de référence s’applique (y compris les éventuels
amendements).
ISO/IEC 5259--1, Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage
automatique (AA) — Partie 1: Vue d'ensemble, terminologie et exemples
ISO/IEC 25024, Ingénierie des systèmes et du logiciel — Exigences et évaluation de la qualité des systèmes et du
logiciel (SQuaRE) — Mesurage de la qualité des données
ISO/IEC 22989, Technologies de l'information — Intelligence artificielle — Concepts et terminologie relatifs à
l'intelligence artificielle
3 Termes et définitions
Pour les besoins du présent document, les termes et les définitions de l’ISO/IEC 5259--1, l’ISO/IEC 22989 ainsi
que les suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en normalisation,
consultables aux adresses suivantes:
— — ISO Online browsing platform: disponible à l’adresse https://www.iso.org/obp
— — IEC Electropedia: disponible à l’adresse https://www.electropedia.org/
3.1 3.1
donnée
représentation réinterprétable d’une information sous une forme conventionnelle convenant à la
communication, à l’interprétation ou au traitement
© ISO/IEC 2024 – Tous droits réservés
Note 1 à l’article l'article: Les données peuvent être traitées par des moyens humains ou automatiques.
[SOURCE: ISO/IEC 2382:2015, 2121272]
3.2 3.2
trame de données
ensemble de registres de données représentés par un domaine ou une finalité spécifique, avec une structure
partagée d’éléments de données
Note 1 à l’article l'article: Une trame de données est bidimensionnelle, comme un tableau avec des lignes et des colonnes.
Le terme est spécifiquement utilisé en analyse de données et en AA, par exemple dans le langage R, tandis que d’autres
langages utilisent «ensemble de données» pour signifier la même chose. Dans le présent document, «ensemble de
données» a une signification plus générique.
3.3 3.3
type de données
catégorisation d’un ensemble abstrait de valeurs possibles, de caractéristiques et d’un ensemble d’opérations
pour un attribut
Note 1 à l’article l'article: Les chaînes de caractères, les textes, les dates, les chiffres, les images et les sons sont des
exemples de types de données.
[SOURCE: ISO/IEC 25024:2015, 4.16]
3.4 3.4
valeur de donnée
contenu d’un élément de donnée
Note 1 à l’articlel'article: Dans l’ISO/IEC 25012:2008, 5.1.1, il est spécifié que, selon un point de vue inhérent aux
données, la qualité des données fait référence aux données elles-mêmes, telles que les valeurs du domaine de données et
les restrictions possibles.
Note 2 à l’articlel'article: Numéro ou catégorie attribués à un attribut d’entité cible en effectuant un mesurage.
[SOURCE: ISO/IEC 25024:2015, 4.17]
3.5 3.5
élément de donnée vide
élément de donnée dont la valeur de donnée (3.4(3.4)) n’a pas de valeur, c’est-à-dire «nulle» ou «aucune »
Note 1 à l’article l'article: Cette définition signifie généralement la non-existence d’une valeur de donnée (c’est-à-dire
«nulle» ou «aucune »). Un élément de donnée avec un type de données chaîne peut être un élément de donnée vide en
utilisant la chaîne vide ou «nulle». Cependant, il existe une exception pour certaines applications dans laquelle une chaîne
peut être vide (par exemple «»), mais pas nulle, et n’implique donc pas d’élément de donnée vide.
3.6 3.6
entité
chose concrète ou abstraite dans le domaine considéré
[SOURCE: ISO 8000-‑2:2022, 3.3.3]
3.7 3.7
données brutes
données dans leur forme originale directe acquise à partir de leur source, avant tout traitement ultérieur
[SOURCE: ISO 5127:2017, 3.1.10.04]
© ISO/IEC 2024 – Tous droits réservés
3.8 3.8
données cibles
données (3.1(3.1)) utilisées dans une tâche d’analyse de données ou d’AA dont la qualité est mesurée
3.9 3.9
population cible
population concernée par le projet d’analyse de données ou d’AA, à propos de laquelle des inférences doivent
être établies
3.10 3.10
personne concernée par la qualité des données
entité (3.6(3.6)) affectée par la qualité des données
3.11 3.11
élément de mesure de la qualité
mesure définie en fonction d’une propriété et de la méthode de mesure pour la quantifier, y compris
éventuellement la transformation par une fonction mathématique
[SOURCE: ISO/IEC 25024:2015, 4.32]
3.12 3.12
grandeur
propriété d’un phénomène, d’un corps ou d’une substance, que l’on peut exprimer quantitativement sous
forme d’un nombre et d’une référence
[SOURCE: Guide ISO/IEC 99:2007, 1.1, modifié — Les notes à l’article ont été supprimées.]
3.13 3.13
valeur d’une grandeur
valeur
ensemble d’un nombre et d’une référence constituant l’expression quantitative d’une grandeur (3.12(3.12))
[SOURCE: Guide ISO/IEC 99:2007, 1.9, modifié — Les exemples ont été supprimés.]
3.14 3.14
fonction de mesure
algorithme ou calcul effectué pour combiner un ou plusieurs éléments de mesure de la qualité (3.11(3.11))
[SOURCE: ISO/IEC 25021:2012, 4.7, modifié — La définition a été révisée.]
3.15 3.15
résultat de mesure
résultat d’un mesurage
ensemble de valeurs (3.13(3.13)) attribuées à un mesurande, complété par toute autre information pertinente
disponible
[SOURCE: Guide ISO/IEC 99:2007, 2.9, modifié — Les notes à l’article ont été supprimées.]
3.16 3.16
mesure
variable à laquelle une valeur est attribuée comme résultat de mesure
Note 1 à l’article l'article: La forme plurielle «mesures» est utilisée pour désigner collectivement les mesures de base,
les mesures dérivées et les indicateurs.
[SOURCE: ISO/IEC IEEE 15939:2017, 3.15]
© ISO/IEC 2024 – Tous droits réservés
3.17 3.17
mesurer
procéder à un mesurage
[SOURCE: ISO/IEC 25000:2014, 4.19]
3.18 3.18
zone de délimitation
région rectangulaire qui entoure l’objet annoté
Note 1 à l’article l'article: Les axes majeur et mineur du rectangle sont parallèles aux bords des images. Pour les zones
tournées, l’annotation polygonale doit être utilisée.
[SOURCE: ISO/IEC 30137-‑4:2021, 3.3]
3.19 3.19
grappe
catégorie induite automatiquement d’éléments qui font partie de l’ensemble de données et qui partagent des
attributs communs
Note 1 à l’article l'article: Les grappes n’ont pas nécessairement de nom.
[SOURCE: ISO/IEC 23053:2022, 3.3.2]
3.20 3.20
algorithme de regroupement
algorithme qui regroupe les grappes (3.19(3.19)) à partir des données d’entrée
Note 1 à l’article l'article: Des exemples d’algorithmes de regroupement comprennent le regroupement basé sur les
centroïdes, le regroupement basé sur la densité, le regroupement basé sur la distribution, le regroupement hiérarchique
et le regroupement basé sur les graphes.
3.21 3.21
surajustement
création d’un modèle qui s’ajuste trop précisément aux données
d’entraînement et échoue à généraliser à partir de données nouvelles
Note 1 à l’articlel'article: Le surajustement peut se produire parce que le modèle entraîné a appris à partir de
caractéristiques non essentielles dans les données d’entraînement (c’est-à-dire des caractéristiques qui ne se
généralisent pas à des extrants utiles), à cause d’un bruit excessif dans les données d’entraînement (par exemple,
un nombre excessif de valeurs aberrantes), d’un décalage important entre la distribution des données d’entraînement et
celle des données de production ou parce que le modèle est trop complexe pour les données d’entraînement.
Note 2 à l’articlel'article: Le surajustement peut être identifié lorsqu’il existe une différence significative entre les erreurs
mesurées sur les données d’entraînement et sur des données de test et de validation distinctes. Les performances des
modèles surajustés sont particulièrement affectées lorsqu’il existe un décalage important entre les données
d’entraînement et les données de production.
[SOURCE: ISO/IEC 23053:2022, 3.1.4]
3.22 3.22
fidélité
degré auquel un modèle ou une simulation reproduit l’état et le comportement d’un objet du monde réel ou la
perception d’un objet du monde réel, d’une caractéristique, d’une condition ou d’une norme choisie d’une
manière mesurable ou perceptible
[SOURCE: ISO 16781:2021, 3.1.4]
© ISO/IEC 2024 – Tous droits réservés
3.23 3.23
maintenabilité
aptitude d’une unité fonctionnelle, dans des conditions données d’utilisation, à être maintenue ou rétablie
dans un état dans lequel elle peut accomplir une fonction requise, lorsque la maintenance est accomplie dans
des conditions déterminées, avec des procédures et des moyens prescrits
Note 1 à l’articlel'article: La définition de «maintenabilité» dans l’IEV 191-‑02-‑07 est fondamentalement la même.
Note 2 à l’article: l'article: maintenabilité: terme et définition normalisés par l’ISO/IEC [ISO/IEC 2382--14:1997].].
Commented [eXtyles1]: The reference is to a withdrawn
standard which has been replaced
Note 3 à l’articlel'article: 14.01.06 (2382)
ISO/IEC 2382:2015, Technologies de l'information —
Vocabulaire
[SOURCE: ISO/IEC 2382:2015, 2123027]
3.24 3.24
fiabilité
cohérence avec laquelle une évaluation mesure
EXEMPLE Une évaluation a une faible fiabilité si deux formes d’évaluation présentent des difficultés ou une
couverture inégales ou s’il y a des erreurs dans les procédures de notation ou dans la communication des notes.
[SOURCE: ISO/IEC 23988:2007, 3.21]
3.25 3.25
validité
mesure dans laquelle une évaluation atteint son objectif en mesurant ce qu’elle est censée mesurer et en
produisant des résultats qui peuvent être utilisés pour la finalité prévue
Note 1 à l’article l'article: Une évaluation a une faible validité si les résultats sont indûment influencés par des
compétences qui ne sont pas pertinentes par rapport aux objectifs énoncés de l’évaluation.
[SOURCE: ISO/IEC 23988:2007, 3.25]
4 Symboles et abréviations
AA apprentissage automatique
CSV comma separated values (valeurs séparées par des virgules)
DCP données à caractère personnel
HDF hierarchical data format (format de données hiérarchique)
IA intelligence artificielle
IP Internet protocol (protocole Internet)
JSON JavaScript object notation (format de notation d’objet JavaScript)
MQ mesure de la qualité
UML unified modeling language (langage de modélisation unifié)
5 Composantes de la qualité des données et modèles de qualité des données pour
l’analyse de données et l’apprentissage automatique
5.1 Composantes de la qualité des données dans le cycle de vie des données
La Figure 1Figure 1 représente les composantes de la qualité des données alignées sur le modèle de cycle de
vie des données présenté dans l’ISO/IEC 5259--1:2024, Figure 3, qui peuvent soutenir les processus de gestion
© ISO/IEC 2024 – Tous droits réservés
de la qualité des données. L’ISO/IEC 5259--1 définit un modèle de qualité des données comme un ensemble
défini de caractéristiques de qualité des données. La caractéristique de qualité des données fournit un cadre
pour les exigences de qualité des données, la mise en œuvre et les méthodes d’évaluation. Les mesures de la
qualité des données sont des variables auxquelles sont attribuées des valeurs correspondant aux résultats des
mesurages des caractéristiques de qualité des données. Les mesures de la qualité des données sont utilisées
pour évaluer si les données satisfont aux exigences de qualité des données. Des mesures de la qualité des
données peuvent également être utilisées pour surveiller et rendre compte de la qualité des données.
Les données cibles sont les données faisant l’objet de mesurages de la qualité des données. Les données cibles
peuvent être des données brutes ou des données ayant subi un ou plusieurs processus ou transformations.
Les données cibles utilisées pour mesurer la qualité peuvent être des données d’entraînement, de test, de
validation, de production et de sortie dans le contexte d’utilisation de l’analyse de données et de l’AA (comme
[ [1]]
décrit dans l’ISO/IEC 23053). 0). Les données cibles peuvent revêtir la forme d’éléments de données ou
d’ensembles de données. Un élément de donnée se compose d’un nom d’élément, d’une valeur de donnée et
d’un type de données représentant un domaine de valeurs (par exemple, chaînes de caractères, textes, dates,
nombres, images, sons). Un ensemble de données peut être classé sous trois formes:
— — une collection d’éléments de données;
— — une collection de registres de données;
— — une collection de trames de données.
Les données cibles peuvent être non étiquetées ou étiquetées selon qu’elles sont associées ou non à des
étiquettes de données lors de l’utilisation d’une tâche d’analyse de données ou d’AA.
NOTE Le présent document ne fait aucune distinction entre les structures de données, telles que les données
structurées, semi-structurées et non structurées, ou les rôles de données, tels que les données permanentes,
de transaction et de référence.
Les rapports sur la qualité des données sont des documents qui expriment les exigences de qualité des
données, le modèle de qualité des données des caractéristiques de qualité des données, les mesures de la
qualité des données, les résultats des mesurages de la qualité des données et une évaluation de la conformité
des données aux exigences de qualité des données.
5259-2_ed1fig1_f.EPS
Légende
© ISO/IEC 2024 – Tous droits réservés
5259-
2_ed1fig1_k
Étape de traitement des données
ey1.EPS
5259-
2_ed1fig1_k
Composante de la qualité des données
ey2.EPS
5259-
2_ed1fig1_k
Voie de développement principale
ey3.EPS
5259-
2_ed1fig1_k
Dépendance
ey4.EPS
5259-
2_ed1fig1_k
Voie de retour d’informations
ey5.EPS
Figure 1 — Composantes de la qualité des données dans le cycle de vie des données pour l’analyse de
données et l’AA
5.2 Modèle de qualité des données
Le modèle de qualité des données fournit un cadre pour spécifier les exigences de qualité des données et
évaluer la qualité des données. En pratique, un modèle de qualité des données regroupe des personnes
concernées par la qualité des données, des caractéristiques de qualité des données et des exigences de qualité
des données, pour le contexte d’utilisation des données. L’organisme peut spécifier des modèles de qualité des
données en sélectionnant des caractéristiques de qualité des données et des mesures en vue d’atteindre les
exigences de qualité cibles pour les données cibles. La Figure 2Figure 2 présente un schéma UML des relations
entre les composantes du modèle de qualité des données.
Un domaine d’utilisation des données décrit comment et où les données peuvent être utilisées dans une tâche
d’analyse de données ou d’AA et comment elles s’intègrent dans un système d’IA.
EXEMPLE Les données peuvent être utilisées pour entraîner un modèle d’AA par réseau neuronal profond à prédire
les ventes de produits sur la base des caractéristiques d’une stratégie marketing. Le modèle peut être entraîné et déployé
à l’aide de services informatiques en nuage.
Une personne concernée par la qualité des données représente une entité affectée par la qualité des données.
Une caractéristique de qualité des données est une catégorie d’attributs de qualité des données qui influent
sur la qualité des données (par exemple, exactitude, exhaustivité, précision). Une exigence de qualité des
données décrit les propriétés ou les attributs des données ainsi que les critères d’acceptation relatifs au
domaine d’utilisation des données. Les critères d’acceptation peuvent être quantitatifs ou qualitatifs.
© ISO/IEC 2024 – Tous droits réservés
5259-2_ed1fig2_f.EPS
Figure 2 — Modèle de qualité des données
Lorsqu’une caractéristique de qualité en affecte une autre, il est possible de faire des compromis en évaluant
l’importance et l’impact de chaque exigence. En outre, il est crucial d’équilibrer le coût de la gestion de la
qualité des données avec la priorité des exigences de qualité des données pour déterminer comment les
caractéristiques de qualité des données et les mesures de la qualité des données sont intégrées dans le modèle
de qualité des données. L’organisme peut sélectionner les caractéristiques de qualité des données et les
mesures de la qualité des données qui correspondent à ses besoins et exigences. Il convient d’évaluer la qualité
des données en comparant les résultats des mesures de la qualité des données sélectionnées avec les objectifs
établis par les exigences en matière de données. Il convient d’atténuer tout manquement aux exigences de
[ [2]]
qualité des données. L’ISO/IEC 5259--3 0 décrit les exigences et recommandations d’un système de gestion
de la qualité des données que l’organisme doit appliquer.
[ [3]] [ [4]]
L’ISO 8000--8 0 et l’ISO/IEC 25012 0 décrivent des modèles de qualité des données. L’ISO 8000--8 définit
trois caractéristiques de qualité des données (syntaxique [format], sémantique [signification] et pragmatique
[utilité]) afin de prendre en charge les données industrielles en général en tant que produit des processus
commerciaux et de fabrication. L’ISO/IEC 25012 définit un modèle général de qualité des données pour les
données conservées dans un format structuré au sein d’un système informatique en tant qu’élément d’un
produit logiciel. L’ISO/IEC 25012 prend en compte tous les types de données (par exemple, caractères,
chaînes, textes, dates, nombres, images, sons). L’ISO/IEC 25012 fournit quinze caractéristiques de qualité des
données: exactitude, exhaustivité, cohérence, crédibilité, actualité, accessibilité, conformité, confidentialité,
efficacité, précision, traçabilité, intelligibilité, disponibilité, portabilité et récupérabilité.
[ [5]]
La série ISO 8000 0 couvre différents aspects de la qualité des données tels que la gouvernance des données,
la gestion de la qualité des données (y compris leur traitement) et l’évaluation de la maturité. La série
[ [6]]
ISO/IEC 25000 0 traite des exigences et de l’évaluation de la qualité des produits (logiciels, systèmes,
données, services). Le présent document décrit comment les caractéristiques de qualité des données de
l’ISO/IEC 25012 peuvent être appliquées à un modèle de qualité des données à des fins d’analyse de données
et d’AA. En outre, le présent document définit des caractéristiques supplémentaires qui peuvent contribuer à
des modèles et applications d’AA de meilleure qualité, comme représenté à la Figure 3Figure 3. Dans la
mesure du possible, il convient que les organismes utilisent les caractéristiques de qualité des données et les
mesures de la qualité des données décrites dans le présent document. Cependant, les caractéristiques de
qualité des données contenues dans le présent document ne peuvent pas couvrir de manière exhaustive les
aspects qui répondent aux besoins de tous les organismes en matière de qualité des données. Les organismes
peuvent concevoir leur propre modèle de qualité des données en étendant les caractéristiques de qualité des
données et les mesures de la qualité des données pour répondre à leurs exigences en matière de données.
© ISO/IEC 2024 – Tous droits réservés
NOTE 1 Voir l’Annexe Al’Annexe A pour plus d’informations sur la conception et la documentation des fonctions de
mesure.
NOTE 2 Voir l’Annexe El’Annexe E pour une comparaison entre les caractéristiques de qualité des données de
l’ISO/IEC 25012 et celles du présent document.
5259-2_ed1fig3_f.EPS
Figure 3 — Caractéristiques de qualité des données pour l’analyse de données et l’AA
6 Caractéristiques et mesures de la qualité des données
6.1 Généralités
Les caractéristiques et mesures de la qualité des données sont utilisées pour spécifier et vérifier les exigences
de qualité des données pour les attributs identifiés pour les données cibles. Chaque caractéristique de qualité
des données est associée à une ou plusieurs mesures de la qualité des données à des fins de quantification.
Une mesure de la qualité des données est une variable à laquelle une valeur est attribuée comme résultat d’une
fonction de mesure. Les mesures de la qualité des données du présent document sont sélectionnées en
fonction du contexte d’utilisation de l’analyse de données et de l’AA.
NOTE 1 L’Annexe BL’Annexe B présente un cadre qui fournit le vocabulaire commun et les relations entre les
composantes des mesures de la qualité des données.
NOTE 2 L’Annexe CL’Annexe C et l’Annexe Dl’Annexe D montrent comment les mesures de la qualité sont regroupées
sous différentes perspectives.
Dans le contexte de l’analyse de données et de l’AA, la qualité globale d’un ensemble de données
d’entraînement, d’un ensemble de données de validation ou d’un ensemble de données de test peut être tout
aussi importante que la qualité des valeurs de données individuelles dans l’ensemble de données. Même si
chaque valeur de donnée d’un ensemble de données est exacte, un ensemble de données qui ne reflète pas
correctement la distribution sous-jacente des données peut entraîner un résultat d’analyse incorrect ou la
création d’un modèle d’AA qui ne satisfait pas aux exigences. Il convient que l’organisme documente les
données cibles pour chaque mesure de la qualité des données.
© ISO/IEC 2024 – Tous droits réservés
NOTE 3 Les caractéristiques des mesures statistiques (par exemple, accessibilité par les utilisateurs autorisés,
[ [7]]
exactitude, cohérence, actualité, intelligibilité, pertinence, rapidité d’obtention) 0) telles que définies par des
institutions comme la Division de la statistique des Nations Unies (UNSD) et les European Statistics (EUROSTAT) peuvent
également être utilisées pour évaluer si la qualité d’un ensemble de données satisfait aux exigences.
Il convient d’utiliser les mesures de la qualité des données et les fonctions de mesure du présent document, le
cas échéant. Voir l’Annexe Al’Annexe A pour les cas de figure où il est nécessaire que l’utilisateur du présent
document crée une nouvelle mesure de la qualité des données et une fonction de mesure de la qualité des
données personnalisées. Toute mesure de la qualité qui vient d’être modifiée ou définie doit sélectionner des
caractéristiques de qualité des données parmi celles définies dans le présent document et doit justifier les
modifications apportées conformément à l’Article 2 de l’ISO/IEC 25024:2015.
6.2 Caractéristiques de qualité des données inhérentes
6.2.1 Exactitude
6.2.1.1 Généralités
L’exactitude d’un ensemble de données est la mesure dans laquelle les éléments de données de l’ensemble de
données ont des valeurs ou des étiquettes correctes. L’ISO/IEC 25012 décrit l’exactitude comme la mesure
dans laquelle les valeurs de données ont des attributs qui représentent correctement la véritable valeur des
attributs prévus. L’ISO/IEC 25012 décrit en outre l’exactitude en fonction de ce qui suit:
— — l’exactitude syntaxique, qui tient compte de la proximité des valeurs de données par rapport à un
ensemble de valeurs de données syntaxiquement correctes dans un domaine pertinent;
— — l’exactitude sémantique, qui tient compte de la proximité des valeurs de données par rapport à un
ensemble de valeurs de données sémantiquement correctes dans un domaine pertinent.
Un élément de donnée est syntaxiquement correct si sa valeur de donnée est du même type que son type de
donnée explicite et il est sémantiquement correct si sa valeur de donnée a une valeur attendue correspondant
à la tâche d’AA. Les modèles d’AA sont des constructions mathématiques, ce qui signifie qu’une faible
exactitude syntaxique ou sémantique des valeurs de données dans les ensembles de données d’entraînement,
de validation, de test ou de production peut rendre incorrects le modèle à proprement parler ou les inférences
faites par celui-ci.
Pour un système de classification d’apprentissage supervisé, la justesse du contenu de la séquence d’étiquettes
peut affecter l’exactitude d’inférence d’un modèle entraîné. Il convient de prendre en compte les facteurs
suivants pour mesurer l’exactitude de l’étiquetage:
— — la justesse des valeurs des étiquettes;
— — la justesse des balises étiquetées;
— — la justesse du contenu des séquences d’étiquettes.
EXEMPLE 1
Si l’expression «lazy dog» est saisie sous la forme «lzy dg», un système de compréhension du langage naturel basé sur
l’AA peut ne pas interpréter correctement l’expression.
EXEMPLE 2
Si le nombre 1 000 est saisi à la place de 100 dans les données d’entraînement, un modèle de régression peut ne pas
calculer correctement le poids de la caractéristique associée et si l’information a été entrée dans les données de
production, les inférences peuvent être incorrectes.
© ISO/IEC 2024 – Tous droits réservés
6.2.1.2 Mesures de la qualité axées sur l’exactitude
Le Tableau 1Tableau 1 fournit des mesures de la qualité des données permettant d’évaluer l’exactitude
desdites données dans le contexte d’utilisation spécifique de l’analyse de données et de l’AA.
Tableau 1 — Mesures axées sur l’exactitude
ID Nom Description Fonction de mesure
Acc-ML-1 Exactitude des données Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
syntaxiques Tableau 1 Tableau 1
Acc-ML-2 Exactitude des données Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
sémantiques Tableau 1 Tableau 1
Acc-ML-3 Assurance de l’exactitude des Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
données Tableau 1 Tableau 1
Acc-ML-4 Risque d’inexactitude de Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
l’ensemble de données Tableau 1 Tableau 1
Acc-ML-5 Exactitude du modèle de données Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
Tableau 1 Tableau 1
Acc-ML-6 Plage d’exactitude des données Voir l’ISO/IEC 25024:2015, Voir l’ISO/IEC 25024:2015,
Tableau 1 Tableau 1
Exactitude de l’étiquette de L’étiquette de données est- 𝐴
Acc-ML-7
données elle correctement attribuée
𝐵
à chaque élément de
où
l’ensemble de données?
A est le nombre d’étiquettes de
données qui fournissent les
bonnes informations requises;
B est le nombre d’étiquettes de
données définies dans
l’ensemble de données.
6.2.2 Exhaustivité
6.2.2.1 Généralités
L’ISO/IEC 25012 décrit l’exhaustivité comme le fait que les données aient des valeurs pour tous les attributs
et instances d’entités attendus. Dans certains cas, les algorithmes d’AA peuvent échouer lorsqu’ils rencontrent
un ou plusieurs éléments de données vides dans des ensembles de données d’entraînement, de validation ou
de test. En outre, les modèles d’AA entraînés peuvent également échouer lorsque les données de production
contiennent des valeurs de données nulles.
Les mesures axées sur l’exhaustivité peuvent aider les professionnels de l’AA à satisfaire à leurs exigences en
matière de données et peuvent indiquer s’il convient de prévoir des étapes d’imputation supplémentaires,
[ [8] ]
comme décrit dans l’ISO/IEC 5259--4 0 . .
La caractéristique d’exhaustivité des données étiquetées dans un ensemble de données est relative. Dans
différents scénarios, la signification du terme «exhaustivité» peut être différente et il convient de l’envisager
pour un domaine d’utilisation spécifique. Il convient de prendre en compte les facteurs suivants pour mesurer
l’exhaustivité d’un ensemble de données:
— — il convient que l’exhaustivité d’un ensemble de données utilisé pour une classification d’images basée
sur l’AA vérifie les échantillons non étiquetés dans un ensemble de données, qui ne peuvent pas être
directement utilisés dans le cadre de l’AA supervisé;
© ISO/IEC 2024 – Tous droits réservés
— — il convient que l’exhaustivité d’un ensemble de données utilisé pour une détection d’objet basée sur
l’AA vérifie la non-exhaustivité des zones de délimitation étiquetées sur les objets.
En particulier, il est courant dans la vie réelle qu’un échantillon ait plusieurs objets dans différentes catégories,
car il est difficile de capturer une scène avec un seul objet isolé prenant l’espace de vue entier. Dans ce cas,
pour mesurer l’exhaustivité de l’ensemble de données pour une reconnaissance d’image basée sur l’AA, il
convient de tenir compte des facteurs suivants:
— — il existe un objet cible dans un échantillon;
— — tous les objets cibles sont catégorisés;
— — tous les objets cibles détectés sont étiquetés avec des zones de délimitation ou d’autres méthodes.
EXEMPLE 1
Une mesure axée sur l’exhaustivité pour un ensemble de données indique qu’il manque plus de la moitié des valeurs de
données pour la caractéristique «code postal». L’expert en mégadonnées décide que la caractéristique «code postal» n’est
pas un prédicteur nécessaire pour sa tâche de classification et choisit de la supprimer des ensembles de données
d’entraînement, de validation, de test et de production.
EXEMPLE 2
Une mesure axée sur l’exhaustivité pour un ensemble de données utilisé dans le cadre d’une tâche de régression basée
sur l’AA indique qu’un pour cent des valeurs de données, pour une caractéristique qui est un bon prédicteur, sont vides.
Le reste des données est distribué normalement. L’expert en mégadonnées choisit de remplir les valeurs de données
nulles avec la moyenne statistique des valeurs de données disponibles.
EXEMPLE 3
Une mesure axée sur l’exhaustivité pour un ensemble de données utilisé pour une tâche de regroupement basée sur l’AA
indique qu’un petit nombre de registres ont un ou plusieurs éléments de données vides. L’expert en mégadonnées choisit
de supprimer ces registres des données d’entraînement.
EXEMPLE 4
Le ratio des valeurs de données manquantes sur le nombre cible d’éléments de données attendu pour permettre une
fidélité appropriée de l’ensemble de données constitue une mesure axée sur l’exhaustivité pour les occurrences de
valeurs dans un ensemble de données dans le cadre d’une tâche de classification basée sur l’AA.
6.2.2.2 Mesures de la qualité axées sur l’exhaustivité
Le Tableau 2Tableau 2 fournit des mesures de la qualité des données permettant d’évaluer l’exhaustivité
desdites données dans le contexte d’utilisation spécifique de l’analyse de données et de l’AA.
Tableau 2 — Mesures axées sur l’exhaustivité
ID Nom Description Fonction de mesure
𝐴
Com-ML-1 Exhaustivité des Ratio des éléments de données
sans valeurs de données nulles
valeurs 𝐵
sur le nombre total d’éléments
où
de données dans l’ensemble de
A est le nombre d’éléments de données
données lorsqu’au moins un
dont la valeur n’est pas nulle;
élément de donnée existe
B est le nombre total d’éléments de
données dans l’ensemble de données où au
moins un élément de donnée existe.
© ISO/IEC 2024 – Tous droits réservés
ID Nom Description Fonction de mesure
𝐴
Com-ML-2 Exhaustivité des Ratio du nombre d’occurrences
occurrences d’une d’une valeur de donnée
𝐵
valeur spécifique sur le nombre attendu
où
d’occurrences de cette valeur de
A est le nombre d’occurrences de la valeur
donnée, tel que décrit dans
de donnée dans les éléments de données;
l’exigence de qualité des
données, dans des éléments de B est le nombre attendu d’occurrences de
données ayant le même domaine cette valeur de donnée dans des éléments
au sein d’un ensemble de de données ayant le même domaine au sein
données de l’ensemble de données.
𝐴
Com-ML-3 Exhaustivité des Ratio des éléments de données,
caractéristiques associés à une caractéristique, 𝐵
sans valeurs de données nulles
où
sur le nombre total d’éléments
A est le nombre d’éléments de données,
de données associés à la
associés à la caractéristique donnée,
caractéristique
sans valeurs de données nulles;
B est le nombre total d’éléments de
données, associés à la caractéristique
donnée dans l’ensemble de données où au
moins un élément de donnée existe.
𝐴
Com-ML-4 Exhaustivité des Ratio des registres de données
registres non vides sur le nombre total de
𝐵
registres de données dans un
où
ensemble de données où au
A est le nombre de registres de données
moins un registre de données
non vides dans l’ensemble de données;
existe
B est le nombre total de registres de
données dans l’ensemble de données où au
moins un registre de données existe.
𝐴
Com-ML-5 Exhaustivité des Ratio d’échantillons non
1−
étiquettes étiquetés ou pas entièrement
𝐵
étiquetés dans un ensemble de
où
données
A est le nombre d’échantillons non
étiquetés ou pas entièrement étiquetés;
B est le nombre total d’échantillons dans
l’ensemble de données.
6.2.3 Cohérence
6.2.3.1 Général
...












Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...