ʲ�N�ǻ��ѧϰ��ǰ�ô��

Pure ��֪
ʲ�N�ǻ��ѧϰ��ǰ�ô��

ʲ�N�ǻ��ѧϰ��ǰ�ô��

��ѧϰ��ML��Y��ǰ��̎��ָԭʼ�Y�ϵĜʂ䣬��D�Q��m��Ӗ�� ML ģ�͵ĸ�ʽ��@��ML (�� AI) �ı�Ҫ��裬��ֱ��Ӱ��ģ�͵�Ч�ܺ͜�ȷ�ԡ�

�Y��A��̎��漰��헼��g��Y��̎��zʧֵ��Ƴ��xȺֵ��{��硢��ae׃��Լ��Y�Ϸֳ�Ӗ��͜yԇ�M��@Щ��g�Ǵ_��Y�� ML ��㷨�ϾS��һ�ºͿ��ø�ʽ��P�I��

��ĺ��w��ѧϰ�Y��A��̎��һ��YӍ��书�ܡ��c��E�͹��?

ʲ�N��ϴ��?

��Ԥ�ȴ��ָԭʼ��ת��Է��ģ��ѵ��ʡ��ĸ�ʽ��ǰ�ô��ڸ��Ʋѳ�ģ�͵�Ʒ�ʺ�Ч��棬��Ҫ��ɫ��ʧֵ��һ�º��쳣ֵ��⡣

��ѧϰ��Y��ǰ��̎��ă��c

��ѧϰ��Y��ǰ��̎��S��̎��@Щ��c�c�Y��ǰ��̎��漰�Ĳ��E��ͬ��҂��?

1. �Y��

�Y��ǻ��ѧϰ�Y��ǰ��̎��̵��Ҫ�M�ɲ��֡��漰�R�e�͸��Y�ϼ��е��e�`��һ�£��Դ_��Y�Ͼ��и�Ʒ�|��m�Ϸ��ģ��Ӗ��?

��ͨ��

��©ֵ

�zʧֵ�ǬF��Y�ϼ��ĳ�Ҋ��}��܌� ML ģ�͵�Ч��ɲ��Ӱ푡�Ҫ�ҳ��K̎��z©�ărֵ��

ʹ��ԽyӋ�Y�ϻ�ҕ�X��Y�ϣ��ҳ��z©ֵ�ę�/��ܡ��zʧֵ�ĳ�Ҋָ�˰�� NaN��ǔ��֣�� NULL ֵ��
�ж��©ֵ��ķ��ģ�͵�Ӱ�졣��ʧֵ�ٷֱȣ��Լ��ϼ��Ҫ�ԡ�
��zʧֵ�İٷֱȺ�С��@Щ�л�ځK��Ҫ��x��ʹ�� dropna�� ȷ��е��ƹ��܁��Ƴ��
��磬��ʹ��ƽ��λ��ģʽ�岹��ھ��Բ��岹ȱʧֵ��ܣ��ʹ���õ��

��Ҳ��Կ��]��M�A�Ĳ��a��ޒ�w��a��K ��Ӳ��a��ʹ�� ML ģ�͸��A�y�zʧֵ��

��쳣ֵ

�xȺֵ��c�Y�ϼ��^��Y��c��@��ͬ��Y��c��ܕ�Ť��yӋ��ѧϰģ�͡�?

��Ҫ�ɜy�K��쳣ֵ��

ʹ��ͼ��ֱ��ͼ��ɢ��ͼ��Ӿ��ʽ��ֵ��ķցѣ��Ӿ��ʽ�ҳ��ܵ��쳣ֵ��
Ӌ��ժҪ�yӋ�Y�ϣ��ƽ��ֵ��˜ʲ�ķ�λ��ķ�λ�ࣨIQR��xȺֵͨ��x�� Q1 - 1.5 * IQR �� Q3 + 1.5 * IQR ��Y��c��
��ĳЩ��£��Ƴ��Ⱥֵ��ʵ��ģ��쳣��ʹ�û��ͳ��ֵ��ɸѡ��Ƴ��쳣ֵ��
��I�D�Q��ƽ��D�Q�� Box-Cox �D�Q��D�Q��ʹ�Y�ϸ��䣬��p�ٮ��ֵ��Ӱ푡�
��]ʹ�Ì��xȺֵ�^��еď��ѧϰģ�ͣ��֧Ԯ��C��SVM��S�Cɭ�ֻ�M��ʽ��

��ظ��

�ظ��ļ�¼��ܻ�͸��ĳЩģʽ��ƫ��ʹ��ģ��ѵ��ģ��?

��Ҫ��Ⲣ��ظ��Ŀ��

ʹ�� pandas �е� duplicated��ȹ��ܣ��ض��ڻ��Ё��R�e��}��С�
��}��ӛ��Ƕ��N�ģ��қ]��ṩ��YӍ��ʹ�� pandas �е� drop_duplicates() ��ܻ��е��Ʒ��Ƴ��
��ĳЩ��£��춶��϶��ܷ��ظ��ж��ص�ʶ��롣ȷ��Ψһʶ��ؼ��ظ��¼��

��ѭ�@Щ��E�Kʹ��m��ļ��g��Ч��A��̎��ѧϰ�΄յ��Y�ϣ��Ķ��ģ��A�y��Ʒ�|�Ϳɿ��ԡ�

2. �Y�Ϙ˜ʻ�

�˜ʻ��һ�N�Y��A��̎��g��추Uչ�͘˜ʻ��Y�ϼ��ֵ��˜ʻ��ҪĿ��ǌ��й��ֵ��ƹ��Ť��ֵ��Ĳ��@�c��Ҫ��S��ѧϰ��㷨��ݔ�빦��̎��Ҏģ�ҷց��ƕr��Ч�ܕ��û��ںϵø��졣

��ʻ��ư��

��ģ��ѵ��ڼ䣬Э��ֹ��ģ�ĸ����ڹ�ģ��С�Ĺ��ρ��ơ�?
��ʱ��ݶ��½��㷨��ںϣ��ѵ��ʱ�䡣?
��ֵ��޷�Χ�ڣ��쳣ֵ��Ӱ�졣��ʻ��Ͽ��Ը��ؽ��ͱȽϲ�ͬ��ܡ�

��ʻ��

��С-��չ?

��ʽ��ݲԴǰ��?=�ݳ��??�ݳ��?/�ݳ��??�ݳ��??
��ֵ�D�Q�� 0 �� 1 ֮�g�Ĺ��

��ӣ�

Z �֔��˜ʻ��˜ʻ��

��ʽ��Xstd =��X/��
��ֵ�D�Q�� 0 ��ƽ��ֵ�� 1 �Ę˜ʲ

��ӣ�

Ӧ�ñ�ʻ�ָ��

��С-��չ��-��Ҫ��빦��ض��Χ�ڵ��㷨��·��֧Ԯ��ȷ��쳣ֵ�õ��ʵ��ǻ�Ӱ��չ��

Z �֔��˜ʻ���@�m�� k ƽ��Ⱥ��ޒ�w��_��˹ޒ�w��㷨�� 0 ��ĵķցѣ��˜ʲ�� 1��˷ǳ��m�ϼ��O��B�ց��Y�ϵ��㷨��

ϡ����ϡ��Y�ϼ��д��ֵ��㣩��Ո��]ʹ�� MaxAbsScaler �� RobustScaler �ȼ��g�M�И˜ʻ��

����ܣ��֮ǰ��뿼��ʹ�õ��ȱ��ȼ��ȷ��չ��

ֵ��ע��ǣ��ʻ��x��ȡ�Q��Y�ϵ��ض��ԣ��Լ��Ӌ��ʹ�õĻ��ѧϰ��㷨��󡣌��⌦ģ��Ч�ܵ�Ӱ��Ч��Ø˜ʻ��P�I��

3. ��ܔUչ

��һ��Ԥ�ȴ��춱�ʻ��Ķ��ܷ�Χ��չ��Ŀ��ǽ��й��ܶ��ﵽ��ƵĹ�ģ��Χ��Ա��ģ��ѵ��ڼ䣬��һ��ܱ��ܸ��ơ��ɸ��ѻ��㷨��ں��ٶȣ��ֹĳЩ��ܶ�ģ��ɲ��Ӱ�졣

��չ��Ԥ��а��ݵĽ�ɫ

��չ��ܿ�ȷ��ѳ��㷨ƽ�ȵش��й��ܣ��ֹ�Ը��ģ�Ĺ��ܲ��ƫ��ǿ��ںϣ��Ż��㷨��磬�ݶ��½��ڹ��չʱ�ںϵø��죬�Ӷ��ӿ�ģ��ѵ��Է�ֹ��춹��ľ޴��ֲ��ȶ��⡣��չ��Ը��ؽ��ܶ�ģ��Ԥ��Ӱ�졣

��չ��

��-��߱�� Z �֔��˜ʻ�֮�⣬߀�У�

�Ѳ��洡���@��^��ֵ��{��ÿ��ܣ��ˮa��ֵ�� -1 �� 1 ֮�g��m��춱��lĿ��Ҫ��ϡ��ϣ��ַ���]ϵ�y��

�Ƚ��Ĺ�ģ��@ʹ�Ì��xȺֵ��ĽyӋ�Y�ϣ��λ��ķ�λ�� IQR��Uչ��硣��m��춰��xȺֵ��ƫб�ցѵ��Y�ϼ��

Ӧ�ù��չָ��

��Ҫ��ù��չ��

��Y��ѭ��B�ցѣ��ʹ�þ��ޒ�w��_��˹ޒ�w�� k ƽ��ֵ��㷨�r��Ø˜ʻ��Z �֔��˜ʻ��
��Ҫ��λ��ض��Χ��ʱ��·��֧Ԯ��ñ�ʻ��С��ţ��
̎��ϡ��ϕr��Ոʹ�� MaxAbsScaler��Y�ϻ�߾S��ϡ�蹦�ܡ�
��̎��xȺֵ��ǳ��B�ց��Y�ϼ��r��Ոʹ�� RobustScaler��

��ס��Ӧ��չ֮ǰ��Ҫ��루��磬��ȱ��룩��ڱ�ƣ�δ��𣩵��¡�

4. ̎��

��Ⱥ��ͨ��ʣ��ģ��ѵ��ڼ��ս��

��ֱ�ʾ��e׃��һ��ʹ��ִ��˻`��ʾ��ѧϰ��㷨�o��ֱ��̎��㷨��Ҫ��ݔ��M��Ӗ��A�y��
һ��׃�� vs. ��x׃����һ��˳�򣩻��Ʊ��û��ض�˳�򣩡��˳��Ӟ��Ʊ��֮��Ȼ��ܵ��²��ȷ��ģ�ͽ��ƫ��Ԥ�⡣
ά�ȵ��{�䣺��ȱ��̎��ϵĳ�Ҋ��g��܌��Y�ϼ��ľS��ӣ��ڴ��e�С��@��Ӱ�ģ��Ч�܁K��\��}�s�ԡ�

��뼼��

��ı��뼼��

��`����`��e׃��е�ÿ��eָ��Ψһ�Ĕ��֘˻`��m��e֮�g��x��׃��

��ʹ�� Python scikit-learn �Ĺ��

�� sklearn.preprocessing �R�� LabelEncode

le = LabelEncoder()

encoded_labels = le.fit_transform(['cat', 'dog', 'rabbit', 'dog'])

��ȱ����ȱ��e׃��е�ÿ��e��Mλ�ڣ��ÿһ�ڱ�ʾԓe�Ĵ��c��m��e�Л]��ض��Ę˷Q׃��

��ʹ��è�ķ��

�� pandas �R�� pd

df = pd.DataFrame({'category': ['A', 'B', 'C', 'A']})

one_hot_encoded = pd.get_dummies��df��'category'�� prefix='category'��

����c��ȱ��ƣ��Η��һ��Ԫʽ�Y��У��Ա��⾀��ģ��еĶ๲�憖�}��ޒ�wģ��У��һ��e��酢��e��

��ʹ��è�ķ��

dummy_encoded = pd.get_dummies(df['category'], prefix='category', drop_first=True)

��ϵ�̎��ʄt

��_̎��ϣ��ԓ��

�˽����ж��һ��Ļ��Ǳ�Ƶģ��ѡ��ʵ��ı��뼼��

����ʹ�ñ�ǩ��б�Ʊ��ʱҪ��ܻ��Ԥ�ڵĳ�ʽ��

��߻����춾��д��e��e׃��Ո��]ʹ��T��l�ʾ��a��Ŀ�˾��a��p�S��g�ȼ��g�� PCA��

��˴��ȱʧֵ�ͱ�ʻ��ֵ��֮�⣬��һ�ж��Ƕ��ġ�?

5. ̎��ƽ��Y��

̎��ƽ��Y��ǻ��ѧϰ�ĳ�Ҋ��ڷ��΄��У�һ��e��ٔ�e��Č��@��e��Ҫe��ƽ��Y�ϕ��ģ��Ӗ��u��a��h��Ӱ푣��ƫ��e��ģ�ͣ��ٔ�e��F��ѡ�?

��ǹ�춲�ƽ��봦��һЩ�ؼ�Ҫ�㣺

��ƽ��϶�ģ��Ч�ܵ�Ӱ��

��ƽ��Y��M��Ӗ��ģ��ڶ��e�Ѓ��ȿ��]�ʴ_�ԣ�ͬ�r��ٔ�e��@��܌��ٔ��Ⱥ�A�y�ı��F��ѡ��⣬�ʴ_�ȵ�ָ��ڲ�ƽ��Y�ϼ��п��ܾ��`��ԣ��ߜʴ_�ȿ��_�A�y��e��ͬ�r��ٔ�e��a��ʶȡ��ٻء�F1-score�� ROC ��e ��AUC-ROC�� ָ�ꌦ춲�ƽ��Y�ϼ��ԣ��ȆΪ�ʹ�Üʴ_�ȸ��Ҫ��

��ƽ��ϵļ��

��ƽ��ϵ����ǳ�ȡ��͵�ȡ��漰��Ⱥ�İ��ƽ��Ⱥ��ƽ�⡣��ȡ��漰��ٶ��е�ʵ��ƽ��͸��ϳ��͵͒��ȡ��Ϸ�ʽ��

��пγ�Ȩ�أ��ģ��ѵ��ڼ��γ�Ȩ�أ��Գͷ��Ⱥ�Ĵ��󣬶��Ƕ��Ⱥ�Ĵ��֧Ԯ��Ȩ�ص��㷨��޼�˹ޒ��֧Ԯ��

��ƽ��ϵĜ��

��Ҫ��ƽ��ϣ��Ӧ�ã�

�˽��Ϸ����ϼ��е��ցѣ��ȷ��ƽ��س̶ȡ�

ѡ��ʵ��ļ����Y�ϼ��С��ƽ��\��Դ��x�񳬒�ӡ��͒�ӻ��ϼ��g��

��ָ����ʹ��m��ָ�꣬�羫�ʶȡ��ʡ�F1-score�� AUC-ROC ��u��ɂ�e��ģ��Ч�ܡ�

��

�Y��ǰ��̎��춴_�� ML ģ�ͽ��ܸ�Ʒ�|��_��ʽ��Y��Ӗ��M��ֱ��Ӱ�ģ�͵�Ч�ܡ��ʴ_�Ⱥ͏V�x��Y��ǰ��̎��Q��zʧֵ��ֵ��e׃��e��ƽ��Ȇ��}��ʹģ��܉��ǜʴ_��A�y��Ķ��ڬF��瑪��õěQ�ߡ�

��m��Y��ǰ��̎��ML �ĘI�ˆT��԰l�]�Y�ϵ�ȫ��I��ĸ��N��ó�ʽ��ʴ_��ɿ��A�yģ�͡�

Ȼ��Ҫ��ڬF��@һ�c��Ҫ�Џ��Ե��Y�σ�� ɫ�ش�ý �� AI �ͻ��ѧϰ��ǰ�Ƅ��I AI Ӌ��

�鿴��Ҫ��Ѷ��

ӰƬ

�ۿ�ӰƬ��˾��ƶ˵ļ�ֵ��

Charlie Giancarlo ӑՓ��ι��Y�ϲ��δ��څ�ݣ��ǃ��O�䡣�l��ʽ��θ��I�� IT ��I��

��ۿ�

��Դ

��ͳ��װ��޷��δ��

�F��ؓ�d��_�� AI ��ٶȡ��ȫ��cҎģ��ļ��g��ʂ��ˆ᣿

��

PURE360 ʾ��

̽��J�R��w� ɫ�ش�ý��

��ȡ�Sȡ�S��ӰƬ�cʾ��˽� ɫ�ش�ý �ď��Ч��

��ʾ��ӰƬ

��

��¾��

��洴��ǰ�ߵĲ�ҵ�쵼��Ѷ��۵㡣

�˽��Ѷ

��Ğg��Ѳ��֧Ԯ��

�Ͼɰ�Ğg��ͨ��ڰ�ȫ��ա��ʹ��վʱ�õ��飬��Щ��g��һ��

ɫ�ش�ý

ʲ�N�ǻ���ѧϰ������ǰ�ô�����

ʲ�N�����ϴ�����?

����ѧϰ���Y��ǰ��̎���ă��c

1. �Y������

2. �Y�Ϙ˜ʻ�

Ӧ�ñ�ʻ�ָ��

3. ���ܔUչ

4. ̎���������

5. ̎����ƽ����Y��

����

�����Ƽ�

�鿴��Ҫ��Ѷ��

ʲ�N�ǻ��ѧϰ��ǰ�ô��

ʲ�N��ϴ��?

��ѧϰ��Y��ǰ��̎��ă��c

1. �Y��

3. ��ܔUչ

4. ̎��

5. ̎��ƽ��Y��

��

��Ƽ�