自然語言支撐平臺

版本信息:V1.0 技術類 · 工具產品

- 產品介紹 -

自然語言處理(NLP)是人工智能和語言學的一部分,它致力于使用計算機理解人類語言中的句子或詞語。NLP 以降低用戶工作量并滿足使用自然語言進行人機交互的愿望為目的。因為用戶可能不熟悉機器語言,所以 NLP 就能幫助用戶使用自然語言和機器交流。 隨著人類對非結構化數據(文字、語音、圖像等)分析的需求,尤其是大量文本類數據的分析,必然需要一些讓計算機“理解”文字的方法,最直接有效的辦法就是將文字轉化為數字,詞向量就是將文字映射到向量空間到表示方法,通常這種NLP技術叫詞嵌入(word embedding),近年來,詞向量已逐漸成為自然語言處理的基礎知識。

核心功能:

利用Word2vec和FastText進行詞向量計算,可以在百萬數量級的詞典和上億的數據集上進行高效快速的訓練,并能很好地度量詞與詞之間的相似性,在此基礎上進行語法分析、語義分析,進而生成語料庫,進行輿情分析和生成智能報告。 兩者本質的不同體現在 h-softmax的使用。Word2vec的目的是得到詞向量,該詞向量 最終是在輸入層得到,輸出層對應的 h-softmax 也會生成一系列的向量,但最終都被拋棄,不會使用。 fasttext則充分利用了h-softmax的分類功能,遍歷分類樹的所有葉節點,找到概率最大的label(一個或者N個)。

- 產品特性 -

(一)Word2vec
word2vec工具主要包含兩個模型:跳字模型(skip-gram)和連續詞袋模型(continuous bag of words,簡稱CBOW),以及兩種高效訓練的方法:負采樣(negative sampling)和層序softmax(hierarchical softmax)。word2vec詞向量可以較好地表達不同詞之間的相似和類比關系,word2vec模型可用來映射每個詞到一個向量,可用來表示詞對詞之間的關系,該向量為神經網絡之隱藏層。

(二)FastText
FastText是一種Facebook AI Research在2016年開源的文本分類器。相對于其它文本分類模型,如SVM,Logistic Regression和neural network等模型,fastText在保持分類效果的同時,大大縮短了訓練時間。
FastText適合大型數據+高效的訓練速度:能夠訓練模型“在使用標準多核CPU的情況下10分鐘內處理超過10億個詞匯”。
支持多語言表達,利用其語言形態結構,fastText能夠被設計用來支持包括英語、德語、西班牙語、法語以及捷克語等多種語言。
fastText專注于文本分類,在許多標準問題上實現當下最好的表現(例如文本傾向性分析或標簽預測)。

聯系方式

Contact us

聯系人

李乾韜

電話

010-67801778

手機

18600513192

s
江苏十一选五遗漏(任五前三直选)