<!--go-->
陳峰做的醫學影象處理領域的資料集少得可憐,這個很容易理解,跟醫藥相關的資料大多都是各大醫院的機密,論文作者不會輕易公開。也就是因為陳峰的導師跟花城市第一人民醫院有專案合作,所以才能拿到部分相關資料。但拿到資料只是個開始,還需要陳峰自己進行資料處理。
凌志就沒這麼幸運了,他的研究方向跟社交媒體中的輿情分析有關,具體而言就是找出社交網路中的水軍,也就是屬於同一個現實世界的人類的不同賬號。他們透過多個賬號釋出垃圾評論擾亂社交網路秩序為樂,甚至有的商業機構會專門僱傭水軍發表負面言論攻擊競爭對手,影響十分惡劣。但水軍自然不會告訴你自己是水軍,而且社交網路的資料大多都很敏感,很少有人專門整理,所以這樣的資料集很難弄到。凌志在過去一年的時間裡在資料集上花費了大量的時間,目前他所用的比較好的辦法是將同一個人釋出的推文分成2份,假裝是2個賬號釋出的,雖然不夠真實,但從做實驗的角度看足夠了。
凌志並不覺得有資料集和沒有資料集這兩種情況孰優孰劣,但凌志相信一句話,只要你付出,雖然不一定成功,但一定會有收穫。雖然凌志在科研上進展緩慢,但採集社交網路資料的過程讓他掌握了資料採集、資料分析以及資料預處理等多項技能。雖然算不上是處理資料領域的專家,但也算是積累了豐富的經驗。
Loading...
未載入完,嘗試【重新整理】or【關閉小說模式】or【關閉廣告遮蔽】。
嘗試更換【Firefox瀏覽器】or【Chrome谷歌瀏覽器】開啟多多收藏!
移動流量偶爾打不開,可以切換電信、聯通、Wifi。
收藏網址:www.ebook8.cc
(>人<;)