NLP数据挖掘基础知识

Basis(基础):

  • SSE(Sum of Squared Error, 平方误差和)
  • SAE(Sum of Absolute Error, 绝对误差和)
  • SRE(Sum of Relative Error, 相对误差和)
  • MSE(Mean Squared Error, 均方误差)
  • RMSE(Root Mean Squared Error, 均方根误差)
  • RRSE(Root Relative Squared Error, 相对平方根误差)
  • MAE(Mean Absolute Error, 平均绝对误差)
  • RAE(Root Absolute Error, 平均绝对误差平方根)
  • MRSE(Mean Relative Square Error, 相对平均误差)
  • RRSE(Root Relative Squared Error, 相对平方根误差)
  • Expectation(期望)&Variance(方差)
  • Standard Deviation(标准差,也称Root Mean Squared Error, 均方根误差)
  • CP(Conditional Probability, 条件概率)
  • JP(Joint Probability, 联合概率)
  • MP(Marginal Probability, 边缘概率)
  • Bayesian Formula(贝叶斯公式)
  • CC(Correlation Coefficient, 相关系数)
  • Quantile (分位数)
  • Covariance(协方差矩阵)
  • GD(Gradient Descent, 梯度下降)
  • SGD(Stochastic Gradient Descent, 随机梯度下降)
  • LMS(Least Mean Squared, 最小均方)
  • LSM(Least Square Methods, 最小二乘法)
  • NE(Normal Equation, 正规方程)
  • MLE(Maximum Likelihood Estimation, 极大似然估计)
  • QP(Quadratic Programming, 二次规划)
  • L1 /L2 Regularization(L1/L2正则, 以及更多的, 现在比较火的L2.5正则等)
  • Eigenvalue(特征值)
  • Eigenvector(特征向量)

Common Distribution(常见分布):

Discrete Distribution(离散型分布):

  • Bernoulli Distribution/Binomial Distribution(贝努利分布/二项分布)
  • Negative Binomial Distribution(负二项分布)
  • Multinomial Distribution(多项分布)
  • Geometric Distribution(几何分布)
  • Hypergeometric Distribution(超几何分布)
  • Poisson Distribution (泊松分布)

Continuous Distribution (连续型分布):

  • Uniform Distribution(均匀分布)
  • Normal Distribution/Gaussian Distribution(正态分布/高斯分布)
  • Exponential Distribution(指数分布)
  • Lognormal Distribution(对数正态分布)
  • Gamma Distribution(Gamma分布)
  • Beta Distribution(Beta分布)
  • Dirichlet Distribution(狄利克雷分布)
  • Rayleigh Distribution(瑞利分布)
  • Cauchy Distribution(柯西分布)
  • Weibull Distribution (韦伯分布)

Three Sampling Distribution(三大抽样分布):

  • Chi-square Distribution(卡方分布)
  • t-distribution(t-分布)
  • F-distribution(F-分布)

Data Pre-processing(数据预处理):

  • Missing Value Imputation(缺失值填充)
  • Discretization(离散化)
  • Mapping(映射)
  • Normalization(归一化/标准化)

Sampling(采样):

  • Simple Random Sampling(简单随机采样)
  • Offline Sampling(离线等可能K采样)
  • Online Sampling(在线等可能K采样)
  • Ratio-based Sampling(等比例随机采样)
  • Acceptance-rejection Sampling(接受-拒绝采样)
  • Importance Sampling(重要性采样)
  • MCMC(Markov Chain MonteCarlo 马尔科夫蒙特卡罗采样算法:Metropolis-Hasting& Gibbs)

Clustering(聚类):

  • K-MeansK-Mediods
  • 二分K-Means
  • FK-Means
  • Canopy
  • Spectral-KMeans(谱聚类)
  • GMM-EM(混合高斯模型-期望最大化算法解决)
  • K-Pototypes
  • CLARANS(基于划分)
  • BIRCH(基于层次)
  • CURE(基于层次)
  • STING(基于网格)
  • CLIQUE(基于密度和基于网格)
  • 2014年Science上的密度聚类算法等

Clustering Effectiveness Evaluation(聚类效果评估):

  • Purity(纯度)
  • RI(Rand Index, 芮氏指标)
  • ARI(Adjusted Rand Index, 调整的芮氏指标)
  • NMI(Normalized Mutual Information, 规范化互信息)
  • F-meaure(F测量)

Classification&Regression(分类&回归):

  • LR(Linear Regression, 线性回归)
  • LR(Logistic Regression, 逻辑回归)
  • SR(Softmax Regression, 多分类逻辑回归)
  • GLM(Generalized Linear Model, 广义线性模型)
  • RR(Ridge Regression, 岭回归/L2正则最小二乘回归),LASSO(Least Absolute Shrinkage and Selectionator Operator , L1正则最小二乘回归)
  • DT(Decision Tree决策树)
  • RF(Random Forest, 随机森林)
  • GBDT(Gradient Boosting Decision Tree, 梯度下降决策树)
  • CART(Classification And Regression Tree 分类回归树)
  • KNN(K-Nearest Neighbor, K近邻)
  • SVM(Support Vector Machine, 支持向量机, 包括SVC(分类)&SVR(回归))
  • CBA(Classification based on Association Rule, 基于关联规则的分类)
  • KF(Kernel Function, 核函数) 

    • Polynomial Kernel Function(多项式核函数)
    • Guassian Kernel Function(高斯核函数)
    • Radial Basis Function(RBF径向基函数)
    • String Kernel Function 字符串核函数
  • NB(Naive Bayesian,朴素贝叶斯)
  • BN(Bayesian Network/Bayesian Belief Network/Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络)
  • LDA(Linear Discriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别)
  • EL(Ensemble Learning, 集成学习) 

    • Boosting
    • Bagging
    • Stacking
    • AdaBoost(Adaptive Boosting 自适应增强)
  • MEM(Maximum Entropy Model, 最大熵模型)

Classification EffectivenessEvaluation(分类效果评估):

  • Confusion Matrix(混淆矩阵)
  • Precision(精确度)
  • Recall(召回率)
  • Accuracy(准确率)
  • F-score(F得分)
  • ROC Curve(ROC曲线)
  • AUC(AUC面积)
  • Lift Curve(Lift曲线)
  • KS Curve(KS曲线)

PGM(Probabilistic Graphical Models, 概率图模型):

  • BN(BayesianNetwork/Bayesian Belief Network/ Belief Network , 贝叶斯网络/贝叶斯信度网络/信念网络)
  • MC(Markov Chain, 马尔科夫链)
  • MEM(Maximum Entropy Model, 最大熵模型)
  • HMM(Hidden Markov Model, 马尔科夫模型)
  • MEMM(Maximum Entropy Markov Model, 最大熵马尔科夫模型)
  • CRF(Conditional Random Field,条件随机场)
  • MRF(Markov Random Field, 马尔科夫随机场)
  • Viterbi(维特比算法)

NN(Neural Network, 神经网络)

  • ANN(Artificial Neural Network, 人工神经网络)
  • SNN(Static Neural Network, 静态神经网络)
  • BP(Error Back Propagation, 误差反向传播)
  • HN(Hopfield Network)
  • DNN(Dynamic Neural Network, 动态神经网络)
  • RNN(Recurrent Neural Network, 循环神经网络)
  • SRN(Simple Recurrent Network, 简单的循环神经网络)
  • ESN(Echo State Network, 回声状态网络)
  • LSTM(Long Short Term Memory, 长短记忆神经网络)
  • CW-RNN(Clockwork-Recurrent Neural Network, 时钟驱动循环神经网络, 2014ICML)等.

Deep Learning(深度学习):

  • Auto-encoder(自动编码器)
  • SAE(Stacked Auto-encoders堆叠自动编码器) 

    • Sparse Auto-encoders(稀疏自动编码器)
    • Denoising Auto-encoders(去噪自动编码器)
    • Contractive Auto-encoders(收缩自动编码器)
  • RBM(Restricted Boltzmann Machine, 受限玻尔兹曼机)
  • DBN(Deep Belief Network, 深度信念网络)
  • CNN(Convolutional Neural Network, 卷积神经网络)
  • Word2Vec(词向量学习模型)

Dimensionality Reduction(降维):

  • LDA(Linear Discriminant Analysis/Fisher Linear Discriminant, 线性判别分析/Fish线性判别)
  • PCA(Principal Component Analysis, 主成分分析)
  • ICA(Independent Component Analysis, 独立成分分析)
  • SVD(Singular Value Decomposition 奇异值分解)
  • FA(Factor Analysis 因子分析法)

Text Mining(文本挖掘):

  • VSM(Vector Space Model, 向量空间模型)
  • Word2Vec(词向量学习模型)
  • TF(Term Frequency, 词频)
  • TF-IDF(TermFrequency-Inverse Document Frequency, 词频-逆向文档频率)
  • MI(Mutual Information, 互信息)
  • ECE(Expected Cross Entropy, 期望交叉熵)
  • QEMI(二次信息熵)
  • IG(Information Gain, 信息增益)
  • IGR(Information Gain Ratio, 信息增益率)
  • Gini(基尼系数)
  • x2 Statistic(x2统计量)
  • TEW(Text Evidence Weight, 文本证据权)
  • OR(Odds Ratio, 优势率)
  • N-Gram Model
  • LSA(Latent Semantic Analysis, 潜在语义分析)
  • PLSA(Probabilistic Latent Semantic Analysis, 基于概率的潜在语义分析)
  • LDA(Latent Dirichlet Allocation, 潜在狄利克雷模型)
  • SLM(Statistical Language Model, 统计语言模型)
  • NPLM(Neural Probabilistic Language Model, 神经概率语言模型)
  • CBOW(Continuous Bag of Words Model, 连续词袋模型)
  • Skip-gram(Skip-gram Model)

Association Mining(关联挖掘):

  • Apriori算法
  • FP-growth(Frequency Pattern Tree Growth, 频繁模式树生长算法)
  • MSApriori(Multi Support-based Apriori, 基于多支持度的Apriori算法)
  • GSpan(Graph-based Substructure Pattern Mining, 频繁子图挖掘)

Sequential Patterns Analysis(序列模式分析)

  • AprioriAll
  • Spade
  • GSP(Generalized Sequential Patterns, 广义序列模式)
  • PrefixSpan

Forecast(预测)

  • LR(Linear Regression, 线性回归)
  • SVR(Support Vector Regression, 支持向量机回归)
  • ARIMA(Autoregressive Integrated Moving Average Model, 自回归积分滑动平均模型)
  • GM(Gray Model, 灰色模型)
  • BPNN(BP Neural Network, 反向传播神经网络)
  • SRN(Simple Recurrent Network, 简单循环神经网络)
  • LSTM(Long Short Term Memory, 长短记忆神经网络)
  • CW-RNN(Clockwork Recurrent Neural Network, 时钟驱动循环神经网络)
  • ……

Linked Analysis(链接分析)

  • HITS(Hyperlink-Induced Topic Search, 基于超链接的主题检索算法)
  • PageRank(网页排名)

Recommendation Engine(推荐引擎):

  • SVD
  • Slope One
  • DBR(Demographic-based Recommendation, 基于人口统计学的推荐)
  • CBR(Context-based Recommendation, 基于内容的推荐)
  • CF(Collaborative Filtering, 协同过滤)
  • UCF(User-based Collaborative Filtering Recommendation, 基于用户的协同过滤推荐)
  • ICF(Item-based Collaborative Filtering Recommendation, 基于项目的协同过滤推荐)

Similarity Measure&Distance Measure(相似性与距离度量):

  • EuclideanDistance(欧式距离)
  • Chebyshev Distance(切比雪夫距离)
  • Minkowski Distance(闵可夫斯基距离)
  • Standardized EuclideanDistance(标准化欧氏距离)
  • Mahalanobis Distance(马氏距离)
  • Cos(Cosine, 余弦)
  • Hamming Distance/Edit Distance(汉明距离/编辑距离)
  • Jaccard Distance(杰卡德距离)
  • Correlation Coefficient Distance(相关系数距离)
  • Information Entropy(信息熵)
  • KL(Kullback-Leibler Divergence, KL散度/Relative Entropy, 相对熵)

Optimization(最优化):

Non-constrained Optimization(无约束优化):

  • Cyclic Variable Methods(变量轮换法)
  • Variable Simplex Methods(可变单纯形法)
  • Newton Methods(牛顿法)
  • Quasi-Newton Methods(拟牛顿法)
  • Conjugate Gradient Methods(共轭梯度法)。

Constrained Optimization(有约束优化):

  • Approximation Programming Methods(近似规划法)
  • Penalty Function Methods(罚函数法)
  • Multiplier Methods(乘子法)。
  • Heuristic Algorithm(启发式算法)
  • SA(Simulated Annealing, 模拟退火算法)
  • GA(Genetic Algorithm, 遗传算法)
  • ACO(Ant Colony Optimization, 蚁群算法)

Feature Selection(特征选择):

  • Mutual Information(互信息)
  • Document Frequence(文档频率)
  • Information Gain(信息增益)
  • Chi-squared Test(卡方检验)
  • Gini(基尼系数)

Outlier Detection(异常点检测):

  • Statistic-based(基于统计)
  • Density-based(基于密度)
  • Clustering-based(基于聚类)。

Learning to Rank(基于学习的排序):

  • Pointwise 

    • McRank
  • Pairwise 

    • RankingSVM
    • RankNet
    • Frank
    • RankBoost;
  • Listwise 

    • AdaRank
    • SoftRank
    • LamdaMART

Tool(工具):

    • MPI
    • Hadoop生态圈
    • Spark
    • IGraph
    • BSP
    • Weka
    • Mahout
    • Scikit-learn
    • PyBrain
    • Theano 

转载于:https://www.cnblogs.com/baiboy/p/dm1.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/254176.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL Fundamentals || Oracle SQL语言

对于SQL语言,有两个组成部分: DML(data manipulation language) 它们是SELECT、UPDATE、INSERT、DELETE,就象它的名字一样,这4条命令是用来对数据库里的数据进行操作的语言。 DDL(data defini…

圆形卡尺测量后创建模板

read_image (Image, QQ图片20201113111404.jpg) dev_close_window () dev_open_window_fit_image (Image, 0, 0, -1, -1, WindowHandle) dev_display (Image) rgb1_to_gray (Image,Image) ****创建模板阶段 *大致找内圆 fast_threshold (Image, Region, 128, 255, 20) connecti…

fread函数和fwrite函数,read,write

fread函数和fwrite函数 1.函数功能 用来读写一个数据块。 2.一般调用形式 fread(buffer,size,count,fp); fwrite(buffer,size,count,fp); 3.说明 (1)buffer:是一个指针,对fread来说,它是读入数据的存放地址。对fwrit…

微信小程序 CSS filter(滤镜)的使用示例

前言 之前在看七月老师的视频的时候,看到了有一个样式是-webkit-filter,不知道是什么(我没咋学过CSS,嘿嘿,所以不知道是啥),于是查了一下,原来是滤镜吖。但是在微信小程序里使用的时…

vmware ubuntu重置root密码

1.重启ubuntu,按住shift(开机启动时) 2.选择recovery mode,enter 3.root选择root drop to root shell prompt 4.进入shell界面设置密码 (1)mount -rw -o remount / (2)passwd username(设置root用户的密码) 完成以上修改后,重启就…

halcon使用直线标定板,标定相机内参代码

read_image (Image, 直线标定板图片/Left201118140641772.bmp) get_image_size (Image, Width, Height) dev_close_window () dev_open_window_fit_image (Image, 0, 0, -1, -1, WindowHandle) dev_display (Image) * Image Acquisition 01: Code generated by Image Acquisiti…

dyld: Library not loaded: @rpath/libswiftCore.dylib 解决方法

解决: 设置Build Setting - > 搜索 embe关键字 -> 修改属性 见如下图: 如果更新了Xcode 8 这里变成: 转载于:https://www.cnblogs.com/yajunLi/p/5979621.html

Bootloader及u-boot简介/u-boot系统启动流程

Bootloader及u-boot简介Bootloader代码是芯片复位后进入操作系统之前执行的一段代码,主要用于完成由硬件启动到操作系统启动的过渡,从而为操作系统提供基本的运行环境,如初始化CPU、堆栈、存储器系统等。Bootloader 代码与CPU 芯片的内核结构…

Dubbo之RPC架构

为什么会有dubbo的出现: 随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进。 单一应用架构 当网站流量很小时&#xff0c…

区域路由的注册机制

AreaRegistration.RegisterAllAreas() 我们新建一个名称为Admin的Area,VS生成下面的代码。 { action , id 我们先来看AreaRegistration这个抽象类,实际上,它只有一个核心功能,就是RegisterAllAreas,获取所有继承它的…

Unix/Linux IPC及线程间通信总结

一、互斥与同步 1.互斥:是指某一资源同时只允许一个访问者对其进行访问,具有唯一性和排它性。但互斥无法限制访问者对资源的访问顺序,即访问是无序的。 2.同步:是指在互斥的基础上(大多数情况)&#xff0…

CSS样式的插入方式

1.外部样式&#xff1a; 当样式需要应用于很多页面时&#xff0c;外部样式表将是理想的选择。<head><link rel"stylesheet" type"text/css" href"mystyle.css" /> </head> 2.内部样式 当单个文档需要特殊的样式时&#…

嵌入式Linux系统基础知识

一、嵌入式Linux系统的构成 1、硬件 2、内核 3、应用程序&#xff08;形成根文件系统&#xff09; 二、构建嵌入式Linux系统的主要任务 1、内核部分 2、应用程序部分 嵌入式Linux的开发大致可分为三个层次&#xff1a;引导装载内核、构造文件系统和图形用户界面。作为操作系统…

win10系统javac不是内部或外部命令,也不是可运行的程序 或批处理文件。

按照下面的步骤设置环境变量 说明&#xff1a; 1. 如果编辑的是系统环境变量&#xff0c;命令提示符需要以管理员权限运行&#xff1b;如果在用户环境变量中编辑&#xff0c;则当前用可直接运行命令提示符。 2. win10中的路径相对于win7要设置成绝对路径。 1&#xff0e;打开…

两个bat文件

1、修改后缀名 ren *.cs *.txt ren *.txt *.zip2、修改文件名称 echo offset a00setlocal EnableDelayedExpansionfor %%n in (*.txt) do (set /A a1ren "%%n" "!a!.txt")

各种排序笔记---基于比较排序部分

1. 选择排序 selection sort 大循环 从左到右每次以一个点开始扫描array 小循环 找到从当前起始点开始的最小值 时间复杂度为O(N^2) //selection sort an array array[] public class Solution {public int[] solve(int[] array) {if (array null || array.length 0) {return…

是什么让深度学习再次崛起并超越人类?

作者潘争&#xff0c;格灵深瞳计算机视觉工程师&#xff0c;清华大学自动化系博士&#xff0c;师从智能技术与系统国家重点实验室副主任张长水。深度学习(Deep Learning)这个词最近借着AlphaGO与李世石的人机大战又火了一把。深度学习其实是机器学习(Machine Learning)的一个分…

常见的流量问题

常见的流量问题 冗余内容同类请求被间隔执行&#xff0c;请求的内容包含一些相对静态的信息&#xff0c;正确的处理是第一次请求包括静态信息就好&#xff0c;后面的同类请求只包含必要的即时变化信息即可。错误的处理方式是每次请求服务器都返回一次静态信息。 冗余请求有的时…

halcon使用点拟合圆形时候,点集顺序紊乱,不影响圆形拟合效果

read_image (Image, 截图20201226094342972.bmp) * Matching 01: BEGIN of generated code for model initialization set_system (border_shape_models, false) * Matching 01: Obtain the model image * Matching 01: The image is assumed to be made available in the * Ma…

Socket理解。

其他大部分系统&#xff0c;例如CRM/CMS/权限框架/MIS之类的&#xff0c;无论怎么复杂&#xff0c;基本上都能够本地代码本地调试&#xff0c;性能也不太重要。&#xff08;也许这个就是.net的企业级开发的战略吧&#xff09; 可是来到通讯系统&#xff0c;一切变得困难复杂。原…