开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

𝒜𝒩𝒥𝒜 安雅🎃 · 2023年07月14日

欧几里德与曼哈顿距离跟standardized, normalized data有什么关系?

助教你好:


这道例题第二问要我们求欧几里得和曼哈顿距离,这个我明白,我也会求。但是它为什么说for the standardized and normalized data(我画荧光笔的地方)?



一:咱们计算出distance之后为啥要对它进行standardize or normalize?




二:表中我圈起的地方,银行AB的standardized data 2.931和normalized data 1.612是怎么算出来的?银行AB欧几里德距离算出来是320.66,就一个数字;没有均值和标准差,它怎么有办法算standardized data?没有max和min的数值,它怎么有办法算normalized data?


我的疑问基础班没有讲,这道题被收录在经典题,但还是没有讲解,只是叫我们自己算😭

2 个答案

李坏_品职助教 · 2023年07月15日

嗨,努力学习的PZer你好:


A的standardized data分别是:customer_A=-0.456,Loan_book_A=-0.666, branches_A=-0.498,

B的standardized data分别是:customer_B=1.147, loan_book_B=1.150, branches_B=1.151.


所以A和B的standardized data的欧式距离=根号下[(-0.456-1.147)^2 + (-0.666-1.15)^2 + (-0.498-1.151)^2] = 根号下8.587=2.93.


A的normalized data分别是:customerA=0.127, loan_bookA=0, branchesA=0.086,

B的normalized data分别是:customerB=1, loan_bookB=1, branchesB=1,

所以A和B的normalized data的欧氏距离=根号下[(0.127-1)^2+(0-1)^2+(0.086-1)^2] = 1.612.


----------------------------------------------
虽然现在很辛苦,但努力过的感觉真的很好,加油!

李坏_品职助教 · 2023年07月14日

嗨,爱思考的PZer你好:


题目的意思是,A、B、C是三个样本,每个样本都有三个Features(就是customers,loan, branches),先把A、B、C的三个Features进行标准化和正态化处理,比如A的customers这个Feature的标准化计算参考红色框(应该是负数):

如果计算B的customer标准化:[6.0-(1.2+6.0+0.5)/3] / std(1.2, 6.0, 0.5) = 1.147.


处理完之后,再去利用这些标准化和正态化之后的Features,去计算A和B以及B和C之间的距离。


为什么要做standardize和normalize:

在做机器学习之前,要先对数据的特征进行标准化处理,否则不同的特征数值相差非常大,会严重影响机器学习算法的效果。

之后,我们再利用标准化或正态化调整后的数据计算样本之间的距离(欧式或者曼哈顿),然后把数据进行聚类,分成K个类别,得出最终结论。


所以例题里面是先对Feature进行标准化和正态化,再去计算A、B、C的距离。


----------------------------------------------
加油吧,让我们一起遇见更好的自己!

𝒜𝒩𝒥𝒜 安雅🎃 · 2023年07月14日

对,助教你这个回复是针对这道例题的A小问,A小问里面要我们求ABC三间银行各自三个特征的standardized data & normalized data,这个我会算。 我是在问B小问里面,算出来AB银行的特征的欧几里德距离之后,是怎么算出standardized data 2.931 和 normalized data 1.612?

  • 2

    回答
  • 0

    关注
  • 269

    浏览
相关问题