前文中介紹了應用深度學習演算法預測消費者年齡性別屬性,本文將說明另一種消費者輪廓 — 使用自然語言處理技術與 Word2vec 設定受眾興趣與特定議題屬性。

 

使用自然語言處理技術與 Word2vec 設定受眾興趣與特定議題屬性

 

廣告主除了以消費者年齡性別作為廣告投放目標外,還會想進一步了解消費者的喜好興趣與關注的什麼樣的議題,以便可以找到對其產品/服務有高度興趣的潛在消費者。為此,我們專注於消費者瀏覽的網站內容,使用自然語言處理技術,進行斷字詞處理後,以字詞向量相似度演算法 Word2vec,針對16類興趣與240個特定議題關鍵字,定義消費者近期的瀏覽興趣與關注的議題。

  • Word2vec 演算法介紹
    在處理興趣與特定議題屬性上,OneAD 使用了 Word2vec 演算法來處理瀏覽網頁中相關字詞的歸納,以相似字詞判斷消費者的興趣與關注議題。所謂 Word2vec 演算法根據Wikipedia的定義:“Word2vec,為一群用來產生詞向量的相關模型。這些模型為淺而雙層的神經網路,用來訓練以重新建構語言學之詞文本。網路以詞表現,並且需猜測相鄰位置的輸入詞,在 Word2vec 中詞袋模型假設下,詞的順序是不重要的。訓練完成之後,Word2vec 模型可用來映射每個詞到一個向量,可用來表示詞對詞之間的關係。”簡而言之,就是將一連串的文字輸入後,透過字詞出現的狀態於空間中建立相對位置,以便能找出字詞間的對應與相似關係。以圖4為例,經過 Word2vec 的訓練後,可以找出字詞間的相關性與關聯性,如男性 man 對應到女性 woman、進行式 walking 對應到過去式的 walked、國家Spain對應到首都 Madrid。

    圖4: Word2vec 概念示意圖Src: Vector Representations of Words, from: https://www.tensorflow.org/tutorials/representation/Word2vec#vector-representations-of-words
    圖4: Word2vec 概念示意圖 Src: Vector Representations of Words, from: https://www.tensorflow.org/tutorials/representation/Word2vec#vector-representations-of-words
  • 以 Word2vec 演算法建立字詞向量空間
    同一主題可能會衍伸許多不同相關字詞,例如“小狗”、“狗狗”與“狗食”都隸屬於寵物興趣,但為了要滿足寵物興趣的所有字詞,如果要人工一個一個字詞舉出與比對,過程會耗費許多人力,也可能會有所遺漏,且也無法隨時間反映當前時代的用詞,而為了克服上述的困難,我們使用 Word2vec 演算法,以 Wikipedia 中文字詞數據為基礎,透過深度學習的非監督學習,定義出主流中文字詞於空間中的對應位置,並以向量表示。當有一個字詞出現時,我們可以將該字詞輸入向量空間中,找出最相近的字詞。整個以 Word2vec 演算法建立字詞向量空間的技術堆疊,
  • 預測消費者興趣與關注的特定議題
    在以 Wikipedia 中文字詞數據為基礎,建立出 Word2vec 的字詞空間後,我們會每天就消費者瀏覽網站內容的字詞,輸入 Word2vec 的字詞空間,找出並給定最相近的興趣與特定議題。如此可以用自動化因應消費者近期的瀏覽內容,更新最適合興趣與特定議題,並克服需人工窮舉字詞的困難。以 Wikipedia 中文字詞數據為基礎的 Word2vec 的字詞空間,會定期隨 Wikipedia 更新字詞庫進行更新,以確保符合坊間的用字習慣。

 

OneAD 致力於持續深耕於數據技術的研發,為廣告主創造最佳的廣告投放體驗

 

數位廣告積極運用數據科技已經是趨勢所趨,為了提供給廣告主更多、更好的選擇,OneAD 以有效增進廣告效益的智慧投放方式,考量新興與過往的行銷廣告選項,進行消費者輪廓描繪,包括年齡性別屬性、興趣與特地議題關鍵字標籤的開發,技術上著重市場主流的數據科技與深度學習,期望以技術與思維的創新,開拓數位廣告市場,為廣告主在茫茫網海中,找到最想要溝通的目標受眾。

1128-3-01