机器学习基础

1.基础概念

《机器学习》:简单而言，机器学习就是把无序的数据转换成有用的信息。

1.学习形式分类
　　监督学习(supervised learning)
　　监督学习即在机械学习过程中给出对错提示，从给定带有标签的训练集中训练出目标函数，主要应用于分类和预测（classify & regression）。通常的算法包含回归分析和统计分类
　　 非监督学习(unsupervised learning)
　　学习没有标签的数据集，比如在分析大量语句之后，训练出一个模型将较为接近的词分为一类，而后可以根据一个新的词在句子中的用法（和其他信息）将这个词分入某一类中。其中比较微妙的地方在于，这种问题下使用聚类（Clustering）（方法）所获得的簇（Cluster）（结果），有时候是无法人为地观察出其特征的，但是在得到聚类后，可能会对数据集有新的启发
2.数据相关
　　用来进行机器学习的一个数据集往往会被分为两个数据集——训练数据（training data）和测试数据（testing data）。顾名思义，训练数据在机器学习的过程中使用，目的是找出一套机器学习的方法；而测试数据用于判断找出的方法是否足够有效。