小城與AI
山西省永和縣唯一一家電影院,開在主幹道的路邊,距離靳紅豔上班的數字人才中心只有約200米。
“你是什麼模型?”“我感覺我都要忍不住笑出來了。”“其實你可以改進一點的,你講得太快了,而且你講的故事沒有感情。”
5月底,在山西省永和縣一個靠着黃土坡的小樓裡,這些語音條在一位數據標註員的電腦上一一跳出。
數據標註員是位30歲上下的女人,她掛着耳機,緊盯屏幕,移動鼠標,敲擊鍵盤。她要查看機器給出的語音轉寫是否正確,如果有誤,反覆回聽,確認字句,作出修改,或給出“方言嚴重”“噪聲太大”“多人同時說話”等標籤。這是在給機器“改作業”的過程。
有人說,機器變得聰明和這個乾旱的小城有些許關係。
在頭部互聯網公司參與AI數據標註工作的張佳佳告訴中青報·中青網記者,外包團隊標註好的大量數據將被交給算法工程師,再次“喂”給機器,進行下一步訓練。如此重複訓練,機器將會越來越能聽得懂人話。
數據,要人類進行屬性標註後,纔對機器產生意義。
5月26日,山西省永和縣數字就業中心裡,正在工作的AI數據標註員。
在山西省永和縣這個數據標註基地裡,給人工智能“打工”的業務持續了5年。從最簡單的——圈出圖片中的“蘋果”“水杯”“箱子”開始,到觀看一段與股票基金漲跌相關的視頻,從中提煉出信息。由易到難,一條數據標註的單價從1分錢到20元不等。5月底,在一組數據標註員教AI聽人說話的同時,還有十幾位標註員專注面對人臉,精準標出眉毛、眼睛、嘴脣;十幾個人一整天在盯着智能貨櫃的實時抓取畫面,看人手裡拿的商品與機器給出的答案是否吻合——一人一天要點擊約2000次。
大量數據對人工智能認識、理解世界有重大作用,是華人科學家李飛飛在13年前向世界證明的。
2012年,一個名爲AlexNet的算法成爲新一屆ImageNet大規模視覺識別挑戰賽的冠軍。
這種學習方法可以理解爲一種笨方法,例如用千張各種小提琴的照片,讓機器“認”出小提琴,整個項目總計需要約2000萬張圖片,可能需要從數億張圖片中篩選。
數據標註行業流行着一句話,“有多少智能,就有多少人工”。
大約2007年,在斯坦福大學的李飛飛尋找人工時,想到的辦法是用時薪10美元的價格招募本科生,但用這種方案,完成這個項目需要19年。後來,一個允許全球用戶加入的衆包平臺上,近5萬名標註者參與其中,幫助完成了這個有劃時代意義的實驗。有人說,沒有這個數據集,“就沒有現在的深度學習革命”。
這個經濟不算髮達的永和縣,數據標註員們感知到自己標記的數據在改變世界的時候不多。生活中,也很少有人關心他們在這做什麼,比起訓練人工智能,更重要的是獲得了一份工作。這些數據標註員多是中專及以下學歷,約90%是女性,在縣城,她們看中這個工作雙休、坐在辦公室,允許把放學的孩子接過來寫作業。
5月25日,山西省永和縣,兩條主幹道交叉口。
2020年,人工智能訓練師正式成爲新職業,納入國家職業分類目錄。數據標註員是人工智能訓練師的工種之一。馮琴和李瑞琴都是在這一年成爲數據標註員的。
幾年中,李瑞琴“最稀奇”的一次體驗是,給無人駕駛汽車業務做道路標註任務時,居然有一次看到了永和。圖片上是一個熟悉的路口,是她去丈夫老家村子的必經之路。她想,說不定很久之後, AI汽車也會到這兒來。
AI汽車此刻距離永和縣還有點遠。這兩年,這裡一小半業務來自各類無人駕駛汽車項目,數據標註員們眼前是採集車收集來的各地路面圖片,他們要標出紅綠燈、車道、行人、路障。從路標來看,圖片大部分來自“南方的大城市”。
永和縣城只有兩條主幹道。除了大型貨車,路上最常見的交通工具是摩托車——城區狹小,四面環山,電動車難騎上附近的陡坡。馮琴說,只需要10分鐘,就可以騎着摩托車貫穿縣城。永和縣是山西省人口最少的縣,少見6層以上的高樓,呂梁山脈留給這個縣城的建設空間不多。兩條主幹道的交匯處,是縣城最大的活動廣場,她們的辦公室就在廣場對街不遠處,是縣城的核心位置。
在這個縣城,這家公司屬於高新科技企業。永和縣工信局、科技局局長馮利對中青報·中青網記者介紹,這家科技公司是目前縣城中唯一一個數字技術相關的企業,縣裡其餘與科技有關的工作,大部分是農業技術指導,對接農技人員和農業合作社。
在屏幕之外,這些AI數據標註員們面對的是一個傳統的世界。
王麗娜也是在2020年成爲一名數據標註員。十幾年前,王麗娜高中畢業去了太原,在太原打拼5年。在4S店做銷售時,她最高拿過一萬元的月工資,但工作也忙,很少走着去上班,總是一溜小跑。和人打交道很累,“得讓人把錢花了,還得讓人高興”。下班了,還得隨時接客戶電話,解決售後問題,提供情緒價值。
那段時間雖然累也充實,“上的是社會大學”。她回縣城,更多是因爲結了婚,生了孩子,走不開了。她和丈夫開了個傢俱店搞裝修,但因爲永和縣城樓房少,生意不太好,沒幹下去。
那幾年,王麗娜陷入鬱悶的情緒:“沒意思。”“就窩在這個縣城了,不頂事了。”
回想起來,是AI數據標註員這份工作讓她慢慢接受了在縣城的生活——體面、收入在縣城不算低,又不用像在外地打工一樣那麼拼。她的狀態慢慢好起來。
也是爲了家庭,馮琴在2008年回到了永和縣。她曾經在北京做過幾年的教育培訓。回到永和縣,最不適應的是這裡一些人缺乏時間觀念,說好了時間開會,沒人到。她在一家小加油站做了幾年會計,總要熬夜。2020年找到這份AI數據標註員的工作,因爲業務方多是杭州、上海的互聯網公司,她找到了一種在大城市工作的熟悉感,高效、規範,她挺享受這點。
馮琴也很享受這份工作的“新奇”。做了一些金融相關的任務後,她第一次買了基金。她曾跟隨公司來到上海蔘加人工智能大會,走在東方明珠附近的一個路口,她發現曾在無人駕駛汽車業務的圖片標註上看到過這裡,“就是這,這不是一模一樣嗎?”大會上集中展示了還未被廣泛採用的AI技術,以至於在2025年春晚上,看到機器人在舞臺上轉手絹時,她感覺“一點都不稀奇”。
在DeepSeek成爲熱議話題的一年前,馮琴就知道了什麼是“大模型”。來自互聯網公司的業務方會要求他們給“大模型”業務單獨分出一個組,對標註員學歷的要求是大專及以上。
在末端,永和縣的標註員們感受到的是,這兩年,他們不需要教AI認蘋果、水杯了。任務走向“深層次”:畫出蘋果的框是不夠的,要用文字描述出“這是一個什麼樣的蘋果”。
數據標註員靳紅豔印象深刻的任務包括:把一句話改寫得押韻;從一些信息中總結出一個成語;聽一段語音,語音中是兩人在就保險理賠問題吵架,判斷說話人的態度情緒。王麗娜印象深刻的任務是,閱讀4篇童話故事,投票哪一篇寫得最好,並說出理由。
作爲項目經理,王麗娜開會時會和大家解釋,現在的簡單任務越來越少,“因爲你已經把機器人教會了”,這是必然。
2024年年初有行業報告預測,2024年大模型應用將進入落地期,垂直領域大模型的商業化應用正在加速。
也是大約2023年年底開始,馮琴的老闆李林峰感覺到,越來越難給永和縣的標註團隊找業務。不是市面上沒有業務,而是團隊成員的學歷、背景達不到要求。要求本科學歷,甚至有漢語言、醫學、法律等專業背景的需求越來越多。數據標註員們手中的任務在變少,從前同時做3個任務,現在只剩一個,薪水隨之下降。最近的績效冠軍大約能拿4000元月薪。
人工智能的進化還在持續。張佳佳告訴中青報·中青網記者,“AI時代怎麼到來?必定是要把我們的時代交給它,它才能成長起來,各個領域的知識去大量地涌進它。”她說,未來,各行各業的專家都是人工智能所需要的標註員、訓練師。
2025年年初,一位研究生學歷的記者轉行進入AI公司做AI人文訓練師,着重教大模型與人文社科有關的知識、能力。在訓練人工智能的體系中,她處在外包數據標註員的上游,是制定標註規則的人。不過她說,從一開始她就明白,這個工種的職業生命短暫。
最近,她在教一個大語言模型寫新聞評論。經過多輪提示、修正,她很快感覺,模型寫出的評論質量超過自己,“這是肯定的,我的目的就是讓它做到這一點”。她覺得教AI和教孩子很像,希望他成爲什麼樣的人就怎樣教他。參與構建一個美好的AI世界,可以是一種熱忱的理想,但她不懂技術,自覺能做的有限。想到未來AI不再需要她去訓練的那一天,她說“該怎麼辦怎麼辦”,也說不定又會有新崗位出現。
比起教AI,永和縣的數據標註員們將更多的心力花在真正的孩子上。她們也享受着人工智能的成果,向豆包、DeepSeek和Kimi求助如何輔導二年級的孩子英語、如何寫作文,怎麼寫畢業典禮上的家長髮言。
不過王麗娜也希望,“機器也別發達得太厲害了”,給以後的孩子們一些機會。
在“內卷”中的數據標註行業,永和縣的AI標註員們有着“佛系”氣質,流動性不強,員工不知道自己做任務的單價,也很少去打聽。老闆李林峰還沒結婚,一些員工因此相信他會把更多的錢花在公司裡,比如給每個辦公室買了按摩椅。縣城小,很多同事一開始不認識,細聊後才發現兩家人沾親帶故。馮琴說,小縣城重人情世故,幾年前春節期間接過協助機器識別“福”字的任務,實時任務,需要3秒內判斷,需要加班。沒有多少人願意在春節期間加班。
李林峰說,再以後的時代是,人工智能給人類賺錢,人只需要護理機器,享受生活。他想到永和人的性格就是這樣——在經濟發達的地方,或許有更多比較,但在永和,一家大商場都沒有,沒什麼可比的,更享受當下。至於自己會不會被取代?他覺得所有人遲早都會被取代。
新技術曾經給縣城裡的女人們帶來過一段美好時光。
前兩年,這家AI數據標註公司在常住人口僅4萬多的縣城轟動一時,最多時有170多名員工,有人曾經拿過萬的高薪,有人在丈夫的工作困頓時成爲家裡的頂樑柱。那時大家手頭寬裕,週末,這些教AI識字、看圖的女人們常常會三五成羣聚餐。馮琴說,有次她在縣城裡一家飯店吃飯,一看,飯店裡全是她們公司的人。
最近,有的數據標註員去考了函授大專,提升學歷,有人考了AI訓練師資格證。雖然有人覺得,考這些也沒啥用,還是達不到業務不斷更新的要求。
快40歲的靳紅豔不怎麼有危機感,前兩年,她在縣城開了一家電影院,能作爲另一份職業。電影院也在這條街上,是縣城唯一一家電影院,只有一個影廳。她白天做AI數據標註員,晚上和週末排些電影。如果AI有一天徹底不需要她做標註了,她會成爲一個全職的電影院老闆,放映更多場次電影。
(應受訪者要求,張佳佳爲化名)
來源:中國青年報