人工智慧能閱讀筆跡猜出你的國籍 - 好玩吧

Breaking

好玩吧

日本網路趨勢觀察
有趣 驚奇 冷知識

2018年7月9日 星期一

人工智慧能閱讀筆跡猜出你的國籍


使用機器學習演算法,研究員能逐步分析一個人的手寫英文字,判定寫文字者出自以下五個不同國家的哪一國:馬來西亞、伊朗、中國、印度、孟加拉。

研究員先建立這幾個國家一百人的資料集,讓他們手寫英文總共完成五百行文字。有了手寫行文字資料,一種工具名叫"雲端線條分佈(Cloud of Line Distribution,COLD)"能夠分解個別文字,測量字的筆直或彎曲度。本演算法跟現行同樣功能判定筆者國籍的方法相比更加好用,大幅提升預測某些國家的正確率達兩倍以上。

演算法拿出機器學習最厲害的地方 - 整理模式。舉例來說,中文母語筆者書寫羅馬字母的時候,因為中文多半以直線組合成文字關係結果看起來線條較筆直。另一方面,印度及孟加拉的筆者則由於母語文字偏草寫形狀圓滑自然寫起來比較彎曲。
圖片來源:研究團隊


閱讀手寫字是電腦視覺研究員早期最先著手處理的課題之一(整理出知名MNIST手寫數字資料集),前面研究嘗試偵測筆者情緒分類性別以及判斷年齡。然而除了此以外,沒有太多著墨努力套取更多手寫字資訊,大概因為沒人能從中找到賺錢的方式。

康乃爾大學研發團隊成員來自印度、中國、馬來西亞,提出此技術對犯罪調查頗有幫助。警方不斷逐漸投靠生物辨識來打擊犯罪,從手寫字裡抓出識別資訊可輔助其它技術像臉部辨識軟體。不過團隊沒有提及這類技術應用向來可能引發的任何隱私或民權上疑慮。加上訓練人工智慧資料本身的誤會會放大既有偏見,譬如說用在犯罪調查可能會連累害到無辜的人,或者公司用手寫辨識軟體產生結果依據國籍、甚至智力等特徵歧視對待潛在客戶。

研究收錄於康乃爾大學圖書館電子資料庫(arXiv)描述:
「當案件涉及不同國家的人對鑑識調查組來說辨識鑑定難度相當高。本篇論文採用"雲端線條分佈"分析手寫字組成提出鑑別種族(國籍)特點新方法。方法首先研究圖像每一行輪廓像素的正切角以及平均強度值分割字行。接著分割好的字行,用正切角與基線方向來移除圖像尺線。針對邊緣部分的輪廓應用多邊形近似找到主點。然後把每個主點之間離最近的相連起來畫出雙主點線段。每個線段去測量其角度與長度得到極座標圖上的一個點。測量完所有線段便有密密麻麻的點散佈極座標圖上,獲得COLD散佈圖。隨不同國家字體構件形狀改變,散佈圖形狀也會跟著轉變。汲取散佈圖素點與主軸間距離記錄下觀測值。然後把種種特徵餵給支持向量機好查明國家。實驗根據複雜資料集實施,顯現本方法不僅有效還勝過現行已知方法。」

無論如何,執法單位考慮都還沒考慮之前研究團隊該擴展他們所使用的小小資料集來證明COLD不光是個單純有趣的研究計劃。

沒有留言:

張貼留言